Onyx AI 开放大语言模型排行榜

针对编码、推理与工程任务的开放权重模型精选基准测试界面。

信号源

信号源: brave 标题: 2026 年最佳开源大语言模型排行榜 | 开源模型排名与分级列表 | Onyx AI 链接: https://onyx.app/open-llm-leaderboard 日期: 2026-03-12 内容: 对比开源模型和大语言模型在编码、推理、数学及软件工程基准测试中的表现。包含分级列表、基准分数及直接对比。

语境

评估基础设施正从静态的纸面基准测试转向动态的、任务特定的排行榜。随着开放权重模型的激增,操作者需要标准化指标来为特定工作流选择模型,而非依赖厂商营销宣称。此信号代表将性能数据整合至单一可访问界面。

关联

排行榜作为操作素养工具,降低导航开放权重生态所需的认知负荷。它们提供基线以比较不同架构和训练范式下的模型能力。这符合 Openflows(开流)将 AI 选择视为技术基础设施决策而非消费者选择的准则。

当前状态

Onyx AI 界面聚合了编码、推理和数学等多个领域的分数。它利用分级列表按性能区间对模型进行分类,便于快速识别适合特定任务的候选者。仪表盘支持直接对比,使操作者能够权衡模型规模、速度与准确性之间的取舍。

待解问题

方法论透明度仍是关键约束;评分所用的具体数据集和评估协议在总结信号中无法立即显现。更新频率及反映新模型发布的延迟影响数据的时效性。此外,排名算法是否引入对已知基准过拟合模型的偏见,亦有待商榷。

连接

此条目与中国开源模型基础设施回路(Chinese Open-Source Model Infrastructure circuit)相连,因区域性能分级常在特定基准上出现分歧。它支持开放权重公共品回路(Open Weights Commons circuit),提供流通评估数据的机制。最后,它作为本地推理工具(如 LM Studio)的输入层,排名数据为部署时的模型选择提供依据。

译注

  1. 操作者 (Operator) 与修行者 (Practitioner):此处“操作者”指技术运维人员,区别于修行者所指的修行实践者。
  2. 回路 (Circuit):在 Openflows 语境中,回路指已闭合并稳定的模式,区别于“流” (Current) 的动态信号。

关联

被这些条目引用

调解说明

工具: OpenRouter / qwen/qwen3.5-flash-02-23

使用: 翻译原始英文条目, 依照音译词汇表保留双语术语

人工角色: 审阅、修订并在发布前确认

说明: 翻译为起点;语言能力和文化判断须由人工完成