流
Agent S:面向智能体工作负载的开源操作系统交互框架
一个开源框架,使大语言模型智能体能够通过结构化的 UI 自动化与状态感知的任务执行,与桌面操作系统进行交互,在 OSWorld 基准测试中取得 72.60% 的成功率。
信号:Agent S:面向智能体工作负载的开源操作系统交互框架 · Bluesky · 2026-05-18 Simular AI 发布了 Agent S,这是一个开源框架,使基于大语言模型的智能体能够通过结构化的 UI 自动化与桌面操作系统进行交互。最新版本 Agent S3 在 OSWorld 基准测试中取得了 72.60% 的成功率,成为首个在该评估中超越人类基线表现的自主智能体。该项目提供了学术文档与技术规范,详细阐述了其状态感知任务执行与跨应用工作流协调的方法。
背景:桌面自动化历来依赖确定性脚本或视觉语言模型,但二者在处理动态 UI 状态与跨应用上下文时往往力有不逮。Agent S 通过屏幕解析、动作标记化以及面向长周期任务的管理机制,为操作系统交互建立了结构化路径。该框架将底层 OS API 抽象为标准化的智能体接口,使模型能够在无需硬编码规则的情况下导航菜单、管理文件并执行多步工作流。这与更广泛的范式转变相契合:将操作系统视为可供自主智能体编程的环境,而非静态的终端。
关联:该框架为构建本地优先(local-first)的桌面自动化智能体提供了可直接投入生产的参考实现。凭借在 OSWorld 基准测试中的领先表现,Agent S 证明了结构化的 UI 交互管道能够可靠地处理以往仅由人类操作员承担的复杂、多应用任务。这降低了对云端自动化服务的依赖,并支持直接在用户硬件上部署的自托管智能体。项目的开源属性允许社区驱动的功能扩展、安全审计以及与现有智能体运行时的集成。
当前状态:Agent S3 正处于积极维护中,并通过 GitHub 公开可用。项目包含基准测试脚本、文档以及用于本地部署的模型配置文件。评估指标聚焦于任务完成率、步骤效率以及在多样化桌面环境中的错误恢复能力。代码库支持模块化工具集成,开发者可在不重构核心管道的前提下,替换底层视觉模型或添加特定于操作系统的自定义动作处理器。
待解之问:当智能体与敏感系统功能交互时,该框架如何处理安全边界与凭据隔离?与传统自动化工具相比,实时屏幕解析的 token 消耗与延迟开销是多少?当智能体管理并发应用或快速变化的 UI 布局时,状态管理与记忆保留如何扩展?
连接路径:目前无直接链接至现有条目。该项目独立于当前以网页为中心的浏览器自动化框架,将桌面操作系统交互视为一个独立的底层基础设施层。
译注 (Translator's Note)
- 智能体工作负载 (Agentic Workloads):此处“工作负载”并非指算力压力,而是指交由智能体自主承接的完整任务流。中文以“负载”对应“workload”,保留了工程语境中责任与计算单元的转移之意。
- 状态感知 (State-aware):英文侧重对 UI 状态的追踪,中文“感知”一词暗含系统对上下文变化的主动顺应与响应,更贴近“理”的流动特性,而非被动轮询。
- 本地优先 (local-first):技术语境中常直译为“本地优先”,此处保留英文以强调其对抗云端中心化、主张数据主权与硬件自主的 civic 立场,与“自托管 (self-hosted)”形成语义共振。