DeepSWE: 开源编程智能体基准测试

DeepSWE: 开源编程智能体基准测试

Datacurve 发布 DeepSWE,一项开源基准测试,用于评估前沿模型在 TypeScript、Go、Python、JavaScript 和 Rust 等语言中的长周期轨迹规划与复杂代码库编辑能力。

Signal @0xLogicrw: AI 基础设施初创公司 Datacurve 宣布开源编程智能体基准测试 DeepSWE,针对超长、复杂的真实软件工程任务,评估前沿大模型的自主编程能力。 · twitter · 2026-05-27

Datacurve 发布了 DeepSWE,一项旨在评估前沿大语言模型自主编程能力的开源基准测试。与聚焦于孤立问题修复的传统基准不同,DeepSWE 侧重于长周期轨迹规划与复杂的多文件代码库编辑。首发版本包含 113 项任务,覆盖 TypeScript、Go、Python、JavaScript 和 Rust 五大语言,为智能体软件工程工作流建立了标准化的评估界面。

背景 自主编程智能体(Agent)的演进已从单轮代码生成转向多步骤、带状态的仓库操作。现有评估套件往往局限于狭窄的任务类型,或依赖合成仓库,未能捕捉生产环境中所需的依赖管理、架构重构与迭代调试。DeepSWE 正是为填补这一空白而生,其评估结构围绕智能体与现实代码库的持续交互展开。这与更广泛的底层架构范式相契合:智能体的能力不再由对静态提示的遵循程度来衡量,而是取决于其在异构语言生态中维持上下文、追踪状态变更并执行连贯多步工作流的能力。

关联 DeepSWE 充当智能体软件工程基础设施回路(Circuit)的测量层。通过标准化长周期编码任务的定义、执行与评分方式,它为比较模型路由、工具使用保真度与记忆保留策略提供了可复现的基线。该基准测试对轨迹规划的关注,直接切入规范驱动的编排与声明式技能打包领域,为当前智能体框架在无人干预下维持执行连续性的成败之处提供了实证数据。

现状 该基准测试目前处于首发阶段,包含 113 项精心策划的任务,覆盖五大主流编程语言。Datacurve 将其定位为 SWE-Bench Pro 的技术替代方案,在仓库复杂度上强调深度而非广度。早期的评估周期将侧重于测量 Token 效率、错误恢复率以及多文件修改过程中的结构完整性保持情况。该基准测试的开源属性使框架开发者能够将其直接集成至 CI 流水线中,从而实现持续的能力追踪,而非一次性模型对比。

开放问题 当智能体跨越语言边界修改共享模块时,DeepSWE 如何处理依赖解析与测试套件执行?当智能体遭遇不可逆的状态变更或冲突的架构决策时,何种指标可定义轨迹规划的顺利完成?该基准测试是否会演进以纳入自动化的人机回环(human-in-the-loop)审查关卡,还是在其通过/失败标准上保持严格的确定性?不同的运行时环境(如沙箱与本地执行)将如何影响智能体在 113 项任务中表现的可复现性?

关联

译注

  • 轨迹规划(trajectory planning):在智能体工作流语境中,此词不仅指代时间线上的步骤序列,更暗含了执行路径的拓扑结构与状态跃迁。中文保留“轨迹”以呼应其动态演进与理路(lǐ)的连贯性。
  • 回路(circuit):对应 infrastructure circuit,此处强调能力评估并非单向输出,而是依赖反馈、状态追踪与上下文维持的闭合交互网络,呼应“流通”中循环往复的生生之意。

被这些条目引用

Score

Score derives from linkage, recency, and abstract depth; at-risk merely suggests erosion and does not indicate retirement.

调解说明

工具: OpenRouter / qwen/qwen3.6-flash

使用: 翻译原始英文条目, 依照音译词汇表保留双语术语

人工角色: 审阅、修订并在发布前确认

说明: 翻译为起点;语言能力和文化判断须由人工完成