异端 (Heretic)

流

异端 (Heretic)

异端是一个开源工具，利用方向性消融和参数优化自动化移除 Transformer 语言模型的安全对齐，使去对齐成为一种可访问且可复现的操作。

流通 ID heretic

日期 Mar 15, 2026

语言中文

信号源：GitHub (p-e-w/heretic)。URL: https://github.com/p-e-w/heretic。星数：14.1k。许可证：AGPL-3.0。语言：Python。

背景异端自动化了从开放权重 Transformer 模型中移除安全对齐的过程——即在 RLHF 和指令微调期间安装的安全护栏、拒绝行为和内容限制。它结合了方向性消融（识别并抑制与拒绝行为相关的模型方向）和参数优化，以生成安全约束大幅降低的模型版本。在 14.1k 星数下，它已实现显著社区采用，表明去对齐并非边缘关切，而是开放权重生态系统中的一种主流能力。

相关性 异端是对“通过对齐训练可使开放权重模型发布变得安全”这一假设的直接且具体的挑战。如果可以通过 Python 脚本可靠地移除对齐，那么训练期间内置的安全属性并非持久——它们是任何拥有权重和 GPU 访问权限的人都可以修改的起始条件。这改变了开放权重模型发布的治理计算：问题不再是已发布的模型是否安全，而是其安全属性能否在与社区接触后幸存。对于 Openflows（开流），这是一个必要的信号。理解开源 AI 生态需要理解修行者如何使用开放模型——而去对齐无疑是社区相当一部分人所做之事。

当前状态 活跃项目，拥有 14.1k 星数。AGPL-3.0 许可证意味着任何修改必须开源。Python 实现。方向性消融和参数优化均作为支持方法记录。兼容一系列开放权重 Transformer 架构。

开放问题 异端产生的去对齐效果能维持多久——它们在微调、量化或其他后处理下是否持久？对于明知存在且被广泛使用的工具（如异端）而发布开放权重的模型提供者，其治理影响是什么？广泛去对齐能力是否改变了哪些模型应作为开放权重发布的计算？研究对齐鲁棒性的研究社区如何使用异端这类工具——它主要是红队测试工具、越狱工具，还是其他？

关联异端之所以可能，是因为开放权重模型的存在——它依赖于开放权重公共品回路所描述的公共品。它的存在引发了该回路的核心治理问题：当发布使得修改成为可能时，负责任的开放发布意味着什么？可审计智能体操作回路假设智能体行为可被审计；异端表明模型层本身可被修改，从而推翻这些假设。当模型被第三方去对齐且原始开发者的安全训练不再适用时，自主研究问责回路关于谁对模型行为负责的关切变得尤为尖锐。

译注

异端 (Heretic)：在中文语境中常含贬义，但在 Openflows 的语境下，它指代挑战既定规范（如安全对齐）的技术实践。此处保留英文原词以强调其特定技术身份。
修行者 (Practitioner)：此处未使用“用户”或“开发者”，而是采用“修行者”，呼应 Zhuangzi 传统，强调技术实践是一种持续的、有意识的修行，而不仅仅是工具使用。
回路 (Circuit)：指代 Openflows 中的特定知识单元类型，此处翻译为“回路”以保留其“循环、闭合、路径”的意象，区别于一般的“连接”或“网络”。

Openflows

异端 (Heretic)

关联

被这些条目引用

调解说明