01「AI+电脑」

“干货!” 看完这些论文你也能让AI操控电脑

近期出现让大模型具备控制电脑和手机能力的智能体,掀起 “Computer Use Agents” 热潮。Computer Use Agent 领域发展蓬勃,未来有望为残障人士、办公自动化和智能家居等带来更智能、自主的电脑操控体验和革命性变革。以下是AI 操控电脑的相关论文,包括论文的下载链接、研究方法及成果,具体内容如下:

Modeling/Framework 类:

论文名称

主要内容

论文链接

Agent Workflow Memory

提出 Agent Workflow Memory (AWM) 方法,从 agent 轨迹感知可复用工作流集成到记忆中,提高网页导航任务成功率和执行效率,为智能体动态记忆构建和适应能力研究提供前景

https://www.aminer.cn/pub/66e24c4d01d2a3fbfcbe4dd9?fr=awm

Agent S

采用 “经验增强分层规划” 方法,像人类操作软件一样从网络知识和 “记忆库” 学习,分解任务执行并积累经验,使 AI 自主操作电脑成为可能,为残障人士提供新交互方式

https://www.aminer.cn/pub/66bd64f401d2a3fbfc1d8c91?fr=aqas

OSCAR

提出通用智能体 OSCAR,通过状态感知推理和动态任务重规划,实现对多种桌面和移动应用图形用户界面精确控制,提高用户生产力

https://www.aminer.cn/pub/671afe5c01d2a3fbfc6b3c0d?fr=OSCAR

AgentStore

采用新颖集成方法,通过 AgentStore 平台整合异质智能体实现自动化计算机任务,引入 MetaAgent 及 AgentToken 策略提升智能体专业化和通用化性能

https://www.aminer.cn/pub/671afe0401d2a3fbfc69557c?fr=AgentStore

Cradle

Cradle 框架允许 AI 实体无需事先训练,用键盘鼠标操作与多种开源闭源应用程序沟通,实现对游戏和软件的新型交互方式

https://www.aminer.cn/pub/65e7d36d13fb2c6cf6f6c4bb?fr=Cradle

Web Agents with World Models

提出世界模型增强(WMA)的互联网交互智能体,通过过渡聚焦观察抽象方法训练 LLM 作为世界模型,提升智能体性能

https://www.aminer.cn/pub/6711c43701d2a3fbfc5803c4?fr=weba

NNetscape Navigator

提出 NNetscape Navigator(NNetnav),通过合成演示训练网络代理,利用语言指令层次结构提高搜索效率,经浏览器交互、轨迹回滚、反标指令及监督微调优化语言模型策略

https://www.aminer.cn/pub/670348bd01d2a3fbfcb5f6a9?fr=nnn

The Impact of Element Ordering on LM Agent Performance

研究元素排序对语言模型代理性能影响,提出基于维度降低的有效排序方法,比较不同环境中元素排序表现,为像素环境提供有效排序

https://www.aminer.cn/pub/66eb89d301d2a3fbfcea593f?fr=eol

Agent-E

Agent-E 是新型网络智能体,在自主网络导航方面有架构创新,包括层次化设计、DOM 提炼与降噪技术及利用变化观察指导任务执行

https://www.aminer.cn/pub/6699cc7c01d2a3fbfcc2c6ea?fr=ae

Tree Search for Language Model Agents

提出推理时搜索算法,使 LM 智能体在交互式网页环境中探索和多步骤规划,是首个在现实网页任务中有效的 LM 智能体树搜索算法

https://www.aminer.cn/pub/66836fa201d2a3fbfcb1ff59?fr=tsfl

ICAL

提出 ICAL 方法,将低质量演示转化为抽象经验,构建记忆库提升大规模生成语言和视觉语言模型决策和指令遵循性能,可从噪声演示中抽象一般性程序并通过人类反馈精炼适应

https://www.aminer.cn/pub/6678d2dd01d2a3fbfc6e8df8?fr=ical

OS-Copilot

OS-Copilot 是具有自我提升能力的通用计算机智能体框架,通过提供通用交互接口加速构建,能集成到操作系统自动执行任务,学习课程掌握应用程序操作能力

https://www.aminer.cn/pub/65cad4c5939a5f4082f3860b?fr=oc

Grounding 类:

论文名称

主要内容

论文链接

Navigating the Digital World as Humans Do

提出全新人类化视觉定位方法,通过视觉 grounding 模型使 GUI 智能体像人类一样感知环境,提升无文本输入时性能,基于 LLaVA 架构调整和网络合成数据训练视觉 grounding 模型

https://www.aminer.cn/pub/67049ca601d2a3fbfc08e270?fr=ndwa

OmniParser for Pure Vision Based GUI Agent

OmniParser 是通用纯视觉方法,将用户界面截图解析为结构化元素,含图标检测和功能描述微调模型,提高大型视觉语言模型在界面操作表现,提供通用屏幕解析方法辅助用户完成任务

https://www.aminer.cn/pub/66ac3e8501d2a3fbfc898589?fr=omni

SeeClick

构建基于大规模视觉语言模型(LVLM)的视觉 GUI 智能体 SeeClick,通过在 GUI grounding 数据上训练增强定位能力,可在多种 GUI 上根据指令定位操作元素,像人类一样视觉观察屏幕执行操作

https://www.aminer.cn/pub/65af2fe5939a5f4082fa4390?fr=click

Evaluation 类:

论文名称

主要内容

论文链接

Windows Agent Arena

用 Windows Agent Arena 评估多模态操作系统智能体,构建基于真实 Windows 操作系统的可扩展环境,实现任务自动化执行和基于结果评估,比传统人类演示评估更灵活高效。

https://www.aminer.cn/pub/66e3a00801d2a3fbfc96aa0f?fr=waa

AgentStudio

AgentStudio 是构建通用虚拟智能体的工具包,提供从环境到智能体、从数据到评估的完整解决方案,加速智能体发展。

https://www.aminer.cn/pub/66037e1213fb2c6cf6e8bbe9?fr=as

附上报道原文: “干货!” 看完这些论文你也能让AI操控电脑(附下载链接)

02「AI+手机」

AndroidLab:Phone Use 研究平台

AndroidLab 是一个全面的 Android 代理开发与评估平台,由北京智谱华章科技有限公司推出。它通过标准化的多模态操作环境、全面且可重现的基准测试和高效的训练工具,显著提升了开源模型在任务完成率和操作效率上的表现,尤其是在经过指令调优后,开源模型的性能接近甚至超过闭源模型。

添加图片注释,不超过 140 字(可选)

添加图片注释,不超过 140 字(可选)

附上报道原文:

AndroidLab:Phone Use 研究平台

03「AI+机器人」

3B模型打通机器人任督二脉!冲咖啡叠衣服都能干

只要一个3B参数的大模型,就能控制机器人,帮你搞定各种家务。叠衣服冲咖啡都能轻松拿捏,而且全都是由模型自主控制,不需要遥控。这些操作背后的大模型叫做π0,参数量只有3B,来自今年刚成立的初创公司Physical Intelligence(简称π)。有网友直言,π0控制的机器人,是他见过最接近真正的通用机器人的。π0不仅能控制机器人,还能控制不同的机器人,出色地完成这些任务。

添加图片注释,不超过 140 字(可选)

 

附上报道原文:

3B模型打通机器人任督二脉!冲咖啡叠衣服都能干,7种形态适配,OpenAI也投了

04「AI+其他硬件形态」

AR眼镜将如何成为AI时代的新物种

XREAL创始人&CEO徐驰认为未来5到10年内,AR眼镜将逐步取代手机,成为新的主流终端设备。

AR眼镜与AI的结合:徐驰认为AR是AI最好的载体,AI需要数据,而眼镜作为用户采集数据的设备,能够了解用户的个性化数据,成为最大的、最佳的载体。同时,AI也是AR最好的交互方式,可以简化交互过程。

未来可以期待的:AR眼镜上面有一个很强大的AI智能助手,AI因为有了个性化数据,它可以给到你更精准的个人助手。

XREAL 作为全球 AR 眼镜市场领先者,主要面向欧美销售。学习苹果和大疆,重视自研核心高门槛技术,如显示模块和空间感知技术,投入大量研发资源,未来将通过技术创新带来体验升级,如芯片化创新,在芯片设计方面有一定优势且不断探索提升。

添加图片注释,不超过 140 字(可选)

 

附上报道原文:

XREAL创始人CEO徐驰:未来5-10年,我们将见证眼镜取代手机

 

50万奖金池的AI+硬件创新大赛等你来战,详情请点击链接👇查看

https://modelscope.cn/brand/view/Mobile-Agent?branch=0&tree=3

Logo

ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!

更多推荐