跳至内容

交互式学习实现智能手机AI Agent

近期,清华人机交互实验室团队发表了一篇题为《Prompt2Task: Automating UI Tasks on Smartphones from Textual Prompts》的研究论文,该论文发表于ACM Transactions on Computer-Human Interaction(TOCHI)。此研究提出了一个自然语言驱动的任务自动化系统Prompt2Task,通过动态知识库构建与渐进式用户介入机制,成功实现零代码任务自动化,显著提高了自动化任务的成功率。这项研究成果为UI任务自动化的实现提供了系统性的解决方案,并在教程创建、智能助手、客户服务等领域展现出广泛的应用潜力。
LLM时代下的智能手机AI Agent

随着大语言模型(LLM)技术的飞速发展,智能手机AI Agent的能力得到了显著提升。得益于LLM强大的语言理解和生成能力,智能手机能够通过自然语言与用户进行更加流畅、精准的互动,从而提升任务自动化的智能化水平。然而,尽管LLM在语言理解上取得了突破,智能手机任务自动化系统在执行过程中依然面临一些挑战。

首先,任务执行的鲁棒性成为了一个关键问题。智能手机的UI设计和操作流程会随着版本更迭持续更新,传统的基于规则的自动化系统往往难以适应这些变化。例如,界面元素的语义识别不足、缺乏必要的上下文信息,或是任务中的参数丢失,都可能导致操作失败或结果不符合预期。其次,LLM具备令人惊艳的通用智能,但对于具体应用和功能的深度理解却常常不足,尤其是在面对不常见的任务或更新后的界面时,可能产生错误的推测或无法提供有效帮助。

在这种背景下,交互式学习成为了解决这一问题的有效手段。通过引入用户反馈和迭代学习机制,智能手机AI Agent不仅能够提高任务执行的灵活性,还能够在不断变化的环境中自我优化,从而实现更加个性化、智能化的用户体验。为此,笔者团队提出了Prompt2Task,一款基于交互式学习的智能手机AI Agent,能够通过自然语言指令自动化执行广泛的手机操作任务,并在每次用户反馈中持续进化,推动AI Agent向更加精准、高效的方向发展。

交互式学习的背景与创新

交互式学习(Interactive Learning)是近年来在人工智能领域获得广泛关注的一个重要概念。它强调通过人类与智能体之间的实时互动来实现智能体的自我优化和学习。与传统的离线学习方法不同,交互式学习依赖来自用户少量的参与反馈,能够帮助智能体逐步调整和改进自己的决策,从而提高任务执行的精准度与灵活性。

在智能手机AI Agent中,交互式学习发挥了重要作用。用户不仅可以通过文本输入提供指令,还能够在执行过程中对智能体的决策提供反馈。每次用户的反馈都为智能体提供了新的知识,帮助智能体优化任务执行路径,提升其对动态任务的适应性。这种基于交互的学习机制,使得智能手机AI Agent能够在复杂和多变的应用环境中不断提高任务成功率,并在未来的相似任务中更加高效鲁棒地执行,进而提升用户体验。

研究案例:智能手机AI Agent

Prompt2Task 是笔者团队提出的一种全新任务自动化解决方案,根据文本提示生成并执行智能手机上的自动化操作任务。用户只需通过简单的文本描述任务内容——无论是具体的操作指令,如“打开设置,找到WLAN”,还是较为抽象的功能请求,如“修改外观”,智能体即可自动理解用户意图,并将这些文本提示转化为具体的操作序列,自动完成任务。这种方法不仅使得任务自动化变得更加直观易用,还解除了用户需要编写复杂脚本的负担,极大降低了自动化应用的使用门槛。

交互式学习的核心在于用户与智能体之间的互动反馈。如图1所示,当智能体对当前决策不自信时,Prompt2Task会主动向用户寻求帮助,通过请求用户对话、选择、编辑或演示等方式收集必要的补充信息。每一次的用户互动都帮助智能体优化其决策和操作流程,逐步积累知识,提升智能体的执行效率和精确度。然而,频繁的交互会增加用户的负担,尤其是在任务重复性较高或用户需求简单的情况下。Prompt2Task通过以下几个创新设计,显著降低了这种交互成本:

· 分阶段反馈:通过将任务分解为多个步骤,智能体在遇到不确定性时仅请求针对当前步骤的用户反馈,避免了每次任务执行都需要用户全程参与的繁琐过程。

· 置信度评估:设计一个专门的智能体以评估预测操作的信心,并且只有在预测结果不确定时才主动请求用户的帮助。这样,智能体能够在多数情况下自动完成任务,减少用户干预的需求。

· 实时优化与知识积累:每次用户反馈都为智能体提供了宝贵的数据,Prompt2Task通过这些数据不断扩展其知识库,从而在后续任务执行中提供更加智能的建议和自动化路径。随着知识的积累,智能体能够更准确地预测任务步骤,从而减少用户干预的需要。

图片

图1 Prompt2Task的交互式学习多智能体框架

通过这些设计,Prompt2Task不仅确保了任务执行的高效性和准确性,还大大降低了交互成本,使得智能手机任务自动化更加智能、流畅。

广泛的应用场景与前景

Prompt2Task作为基于交互式学习的智能手机AI Agent,展示了智能任务自动化的巨大潜力。通过自然语言理解和实时用户反馈,Prompt2Task能够在动态变化的任务环境中自我优化,提升任务执行的效率和准确性。随着技术的不断成熟,类似的智能手机AI Agent将越来越多地融入到日常生活中,从简单的操作任务到复杂的个性化需求,提供更智能、更便捷的用户体验。

展望未来,交互式学习将突破智能手机AI Agent的局限,广泛应用于智能办公、教育、健康管理等领域。通过与用户的持续互动,交互式学习能够不断积累知识,优化服务,提高智能化水平,为各行各业带来更多灵活、高效、个性化的解决方案。

原文链接:https://dl.acm.org/doi/pdf/10.1145/3716132