AI+硬件最新资讯合集（2024-11-11第3期）

近期出现让大模型具备控制电脑和手机能力的智能体，掀起 “Computer Use Agents” 热潮。

魔搭ModelScope社区

81人浏览 · 2024-11-13 10:43:29

魔搭ModelScope社区 · 2024-11-13 10:43:29 发布

01「AI+电脑」

“干货！” 看完这些论文你也能让AI操控电脑

近期出现让大模型具备控制电脑和手机能力的智能体，掀起 “Computer Use Agents” 热潮。Computer Use Agent 领域发展蓬勃，未来有望为残障人士、办公自动化和智能家居等带来更智能、自主的电脑操控体验和革命性变革。以下是AI 操控电脑的相关论文，包括论文的下载链接、研究方法及成果，具体内容如下：

Modeling/Framework 类：

论文名称	主要内容	论文链接
Agent Workflow Memory	提出 Agent Workflow Memory (AWM) 方法，从 agent 轨迹感知可复用工作流集成到记忆中，提高网页导航任务成功率和执行效率，为智能体动态记忆构建和适应能力研究提供前景	https://www.aminer.cn/pub/66e24c4d01d2a3fbfcbe4dd9?fr=awm
Agent S	采用 “经验增强分层规划” 方法，像人类操作软件一样从网络知识和 “记忆库” 学习，分解任务执行并积累经验，使 AI 自主操作电脑成为可能，为残障人士提供新交互方式	https://www.aminer.cn/pub/66bd64f401d2a3fbfc1d8c91?fr=aqas
OSCAR	提出通用智能体 OSCAR，通过状态感知推理和动态任务重规划，实现对多种桌面和移动应用图形用户界面精确控制，提高用户生产力	https://www.aminer.cn/pub/671afe5c01d2a3fbfc6b3c0d?fr=OSCAR
AgentStore	采用新颖集成方法，通过 AgentStore 平台整合异质智能体实现自动化计算机任务，引入 MetaAgent 及 AgentToken 策略提升智能体专业化和通用化性能	https://www.aminer.cn/pub/671afe0401d2a3fbfc69557c?fr=AgentStore
Cradle	Cradle 框架允许 AI 实体无需事先训练，用键盘鼠标操作与多种开源闭源应用程序沟通，实现对游戏和软件的新型交互方式	https://www.aminer.cn/pub/65e7d36d13fb2c6cf6f6c4bb?fr=Cradle
Web Agents with World Models	提出世界模型增强（WMA）的互联网交互智能体，通过过渡聚焦观察抽象方法训练 LLM 作为世界模型，提升智能体性能	https://www.aminer.cn/pub/6711c43701d2a3fbfc5803c4?fr=weba
NNetscape Navigator	提出 NNetscape Navigator（NNetnav），通过合成演示训练网络代理，利用语言指令层次结构提高搜索效率，经浏览器交互、轨迹回滚、反标指令及监督微调优化语言模型策略	https://www.aminer.cn/pub/670348bd01d2a3fbfcb5f6a9?fr=nnn
The Impact of Element Ordering on LM Agent Performance	研究元素排序对语言模型代理性能影响，提出基于维度降低的有效排序方法，比较不同环境中元素排序表现，为像素环境提供有效排序	https://www.aminer.cn/pub/66eb89d301d2a3fbfcea593f?fr=eol
Agent-E	Agent-E 是新型网络智能体，在自主网络导航方面有架构创新，包括层次化设计、DOM 提炼与降噪技术及利用变化观察指导任务执行	https://www.aminer.cn/pub/6699cc7c01d2a3fbfcc2c6ea?fr=ae
Tree Search for Language Model Agents	提出推理时搜索算法，使 LM 智能体在交互式网页环境中探索和多步骤规划，是首个在现实网页任务中有效的 LM 智能体树搜索算法	https://www.aminer.cn/pub/66836fa201d2a3fbfcb1ff59?fr=tsfl
ICAL	提出 ICAL 方法，将低质量演示转化为抽象经验，构建记忆库提升大规模生成语言和视觉语言模型决策和指令遵循性能，可从噪声演示中抽象一般性程序并通过人类反馈精炼适应	https://www.aminer.cn/pub/6678d2dd01d2a3fbfc6e8df8?fr=ical
OS-Copilot	OS-Copilot 是具有自我提升能力的通用计算机智能体框架，通过提供通用交互接口加速构建，能集成到操作系统自动执行任务，学习课程掌握应用程序操作能力	https://www.aminer.cn/pub/65cad4c5939a5f4082f3860b?fr=oc

Grounding 类：

论文名称	主要内容	论文链接
Navigating the Digital World as Humans Do	提出全新人类化视觉定位方法，通过视觉 grounding 模型使 GUI 智能体像人类一样感知环境，提升无文本输入时性能，基于 LLaVA 架构调整和网络合成数据训练视觉 grounding 模型	https://www.aminer.cn/pub/67049ca601d2a3fbfc08e270?fr=ndwa
OmniParser for Pure Vision Based GUI Agent	OmniParser 是通用纯视觉方法，将用户界面截图解析为结构化元素，含图标检测和功能描述微调模型，提高大型视觉语言模型在界面操作表现，提供通用屏幕解析方法辅助用户完成任务	https://www.aminer.cn/pub/66ac3e8501d2a3fbfc898589?fr=omni
SeeClick	构建基于大规模视觉语言模型（LVLM）的视觉 GUI 智能体 SeeClick，通过在 GUI grounding 数据上训练增强定位能力，可在多种 GUI 上根据指令定位操作元素，像人类一样视觉观察屏幕执行操作	https://www.aminer.cn/pub/65af2fe5939a5f4082fa4390?fr=click

Evaluation 类：

论文名称	主要内容	论文链接
Windows Agent Arena	用 Windows Agent Arena 评估多模态操作系统智能体，构建基于真实 Windows 操作系统的可扩展环境，实现任务自动化执行和基于结果评估，比传统人类演示评估更灵活高效。	https://www.aminer.cn/pub/66e3a00801d2a3fbfc96aa0f?fr=waa
AgentStudio	AgentStudio 是构建通用虚拟智能体的工具包，提供从环境到智能体、从数据到评估的完整解决方案，加速智能体发展。	https://www.aminer.cn/pub/66037e1213fb2c6cf6e8bbe9?fr=as

附上报道原文： “干货！” 看完这些论文你也能让AI操控电脑（附下载链接）

02「AI+手机」

AndroidLab：Phone Use 研究平台

AndroidLab 是一个全面的 Android 代理开发与评估平台，由北京智谱华章科技有限公司推出。它通过标准化的多模态操作环境、全面且可重现的基准测试和高效的训练工具，显著提升了开源模型在任务完成率和操作效率上的表现，尤其是在经过指令调优后，开源模型的性能接近甚至超过闭源模型。

附上报道原文：

AndroidLab：Phone Use 研究平台

03「AI+机器人」

3B模型打通机器人任督二脉！冲咖啡叠衣服都能干

只要一个3B参数的大模型，就能控制机器人，帮你搞定各种家务。叠衣服冲咖啡都能轻松拿捏，而且全都是由模型自主控制，不需要遥控。这些操作背后的大模型叫做π0，参数量只有3B，来自今年刚成立的初创公司Physical Intelligence（简称π）。有网友直言，π0控制的机器人，是他见过最接近真正的通用机器人的。π0不仅能控制机器人，还能控制不同的机器人，出色地完成这些任务。