新Siri解锁万能Agent？魔搭开源移动端框架Mobile-Agent-v2抢先体验！

在刚结束的苹果全球开发者大会WWAC上，Apple家族AI全家桶「Apple Intelligence」亮相，库克宣布个人智能系统将应用于新版本的 iPhone、iPad 和 Mac 操作系统。

魔搭ModelScope社区

683人浏览 · 2024-06-12 15:01:29

魔搭ModelScope社区 · 2024-06-12 15:01:29 发布

在刚结束的苹果全球开发者大会WWAC上，Apple家族AI全家桶「Apple Intelligence」亮相，库克宣布个人智能系统将应用于新版本的 iPhone、iPad 和 Mac 操作系统。未来，新Siri将脱胎换骨，在Apple Intelligence的系统支撑下，拥有更丰富的语言理解能力、更灵活地日常任务处理能力。结合屏幕感知功能，新Siri可以让用户轻松执行与屏幕上的信息相关操作，比如把聊天信息中收到的地址自动添加到朋友的通讯录里。由此，Siri 可以在应用程序中或跨应用程序执行数百项新操作，此次更新依赖于苹果今年四月份低调发布的一项工作——多模态大语言模型（MLLM） Ferret-UI，针对移动用户界面（UI）屏幕的理解进行优化，其具备引用、定位和推理能力。

类似的工作，在今年二月份，由阿里通义实验室提出的手机端智能体开源框架Mobile-Agent，即可实现一句指令输入，AI可以作为智能中枢，根据指令在手机上自动规划和操作各种APP。

Mobile-Agent凭借强劲的自动化手机操作能力迅速在AI领域和手机制造商中引起广泛关注。短短五个月内，已在Github获得了2,000个Star。该系统采用纯视觉方案，通过视觉感知工具和操作工具完成智能体在手机上的操作，无需依赖任何系统级别的UI文件。得益于这种智能体中枢模型的强大，Mobile-Agent实现了即插即用，无需进行额外的训练和探索。

近日，团队推出了新版本Mobile-Agent-v2，并列举了几大改进亮点：继续采用纯视觉方案、多智能体协作架构、增强的任务拆解能力、跨应用操作能力以及多语言支持。目前，Mobile-Agent-v2的论文和代码已经发布，详情链接如下：

论文：https://arxiv.org/abs/2406.01014
代码：https://github.com/X-PLUG/MobileAgent

此外，ModelScope-Agent现已集成了Mobile-Agent-v2，详情请参考以下链接：https://github.com/modelscope/modelscope-agent。根据魔搭团队发布的演示视频，ModelScope-Agent拥有了使用Mobile-Agent-v2完成自动化打车的能力。用户只需输入目的地，ModelScope-Agent即能通过规划、决策和优化等过程，为用户完成叫车服务。

作者团队在社交媒体和Github发布了一系列展示Mobile-Agent-v2在手机上实操的视频。下面的视频中展示了一个跨应用操作的实例。首先，用户需要Mobile-Agent-v2查看聊天软件中的未读消息并执行相关任务。

Mobile-Agent-v2根据指令先打开了WhatsApp，查看了来自 "Ao Li" 的消息。消息内容要求在TikTok上找到一个与宠物相关的视频并分享。于是，Mobile-Agent-v2退出WhatsApp，进入TikTok开始浏览视频。在发现一个宠物猫的视频后，它点击分享按钮，将视频链接发送给了 "Ao Li"。

以下是一个在社交媒体应用中的示例。用户要求Mobile-Agent-v2在X（推特）上搜索名人“马斯克”，然后关注他并评论他发布的一条帖子。由于社交媒体应用通常文字繁多，且UI布局复杂，这使得操作难度较大。

然而，从视频中可以看到，Mobile-Agent-v2精准地执行了每一步操作。尤其是在点击关注按钮后，推荐用户弹窗遮挡了原推文，但Mobile-Agent-v2通过上划屏幕，顺利完成了评论任务。

接下来是关于在同样复杂的长视频平台YouTube上操作的示例。从展示的视频可以看出，Mobile-Agent-v2在处理社交媒体和视频平台方面表现得非常出色。

中文应用小红书和微信提供了先进的用户互动体验。例如，小红书允许用户不仅能搜索各种攻略，还可以随时发表评论。微信则方便用户进行高效的消息回复。Mobile-Agent-v2在这两大平台上具备强大的功能，它能够根据微信消息的内容自动生成回复，同时还能依据小红书帖子的具体内容发表相关评论。这样一来，用户就能享受到更加智能化的互动服务。

Mobile-Agent-v2的技术实现将在下面进行介绍。在手机操作任务中，智能体通常需要通过多步骤来满足任务需求。每步操作时，必须跟踪当前任务的进展，即了解先前完成的要求，从而推断出依据用户指令进行的下一步操作。而操作历史记录，每一步包含的具体操作和对应的屏幕状态，都会被保存下来。然而，随着操作次数的增加，这些历史记载会不断变长。操作历史因图文交错的格式，使得任务进度的跟踪变得更加复杂。

正如下面的图例所展示的，经过7轮操作后，输入的操作历史序列长度已经超过了一万个token，图文交错的格式显著加大了智能体追踪任务进度的难度。

Mobile-Agent-v2为了缓解任务处理中的困境，采用了规划智能体，如图所示，其角色是为操作智能体提供任务的进度。这一智能体将冗长的操作记录转换为简洁的纯文本，从而简化任务追踪。然而，这种简化方法导致了屏幕信息的丢失，使得决策智能体无法从历史屏幕中获取关键信息。

在一些任务中，智能体需要查看天气并撰写穿衣指南。生成指南时，智能体需要依赖历史屏幕中的天气信息。因应这一需求，Mobile-Agent-v2设计了记忆单元，由决策智能体负责更新与任务相关的信息。此外，由于决策智能体无法直接观察操作后的屏幕信息，系统还引入了反思智能体，用于监测并评估决策智能体操作前后的屏幕状态变化，确保操作的正确性。