RAMPART:基于 pytest 的智能体对抗安全测试

RAMPART:基于 pytest 的智能体对抗安全测试

微软发布 RAMPART,一个基于 pytest 的自动化智能体对抗安全测试框架,允许开发者将安全场景定义为可执行测试,并在 CI 流水线中配置通过/失败阈值。

信号 RAMPART:基于 pytest 的智能体对抗安全测试 · GitHub · 2026-05-23 微软发布了 RAMPART,一个用于 AI 智能体自动化对抗安全测试的开源框架。该框架基于 PyRIT 构建,使开发者能够将对抗场景编写为 pytest 测试用例,从而在 CI 流水线中以通过/失败检查的形式运行安全评估。工具支持可配置的阈值,例如要求智能体在多次重跑中保持安全合规。

语境 RAMPART 将智能体安全评估从临时的手工审查或黑盒基准测试,转向确定性的、基于代码的测试。借助 pytest,它将安全检查融入标准的软件开发工作流,将智能体的鲁棒性视为与功能正确性并列的可验证属性。该方法使得安全指标能够与代码变更一同被追踪、版本化并强制执行。

关联 解决持续集成中智能体安全落地的操作性问题。提供量化安全指标(如通过率)并通过阈值强制执行的机制,减少对主观评估的依赖。使团队能够拒绝未能通过安全回归测试的智能体更新,为自主行为建立质量关卡。

当前状态 作为微软的开源项目提供。底层对抗生成功能依赖 PyRIT。重点在于测试框架与 CI 集成层,而非模型训练或运行时强制执行。需要操作者配置测试场景与阈值参数。

开放问题 RAMPART 如何在测试场景中处理有状态的多轮交互?在 CI 中为大模型运行 1000 次重跑的计算开销是多少?该框架是否支持自定义奖励函数,还是仅支持二元通过/失败结果?针对特定智能体工具集,对抗提示词如何生成与策展?

连接 RAMPART 通过为执行期间强制实施的政策提供部署前验证,与 agent-governance-toolkit 等运行时治理工具形成互补。若测试在隔离环境中执行,则与 agent-execution-sandboxing-infrastructure 模式相契合,尽管该信号更强调测试逻辑而非执行环境。

译注

  • “对抗”(adversarial)在 AI 安全语境中特指针对模型脆弱性的压力测试,此处保留其“攻防博弈”的本义,未简化为“攻击性”。
  • “pytest”与“CI”等工程术语依惯例保留英文,以契合开发者阅读习惯。
  • “鲁棒性”(robustness)在此处与“功能正确性”(functional correctness)对举,强调智能体在扰动下的行为一致性,呼应工程语境中的“理”(lǐ):系统内在的稳定结构与外在表现的统一。

关联

Related entries

被这些条目引用

Score

Score derives from linkage, recency, and abstract depth; at-risk merely suggests erosion and does not indicate retirement.

调解说明

工具: OpenRouter / qwen/qwen3.6-flash

使用: 翻译原始英文条目, 依照音译词汇表保留双语术语

人工角色: 审阅、修订并在发布前确认

说明: 翻译为起点;语言能力和文化判断须由人工完成