Onyx AI 开放大语言模型排行榜

流

Onyx AI 开放大语言模型排行榜

针对编码、推理与工程任务的开放权重模型精选基准测试界面。

流通 ID onyx-ai-open-llm-leaderboard

日期 Mar 12, 2026

语言中文

信号源

信号源： brave 标题： 2026 年最佳开源大语言模型排行榜 | 开源模型排名与分级列表 | Onyx AI 链接： https://onyx.app/open-llm-leaderboard 日期： 2026-03-12 内容： 对比开源模型和大语言模型在编码、推理、数学及软件工程基准测试中的表现。包含分级列表、基准分数及直接对比。

语境

评估基础设施正从静态的纸面基准测试转向动态的、任务特定的排行榜。随着开放权重模型的激增，操作者需要标准化指标来为特定工作流选择模型，而非依赖厂商营销宣称。此信号代表将性能数据整合至单一可访问界面。

关联

排行榜作为操作素养工具，降低导航开放权重生态所需的认知负荷。它们提供基线以比较不同架构和训练范式下的模型能力。这符合 Openflows（开流）将 AI 选择视为技术基础设施决策而非消费者选择的准则。

当前状态

Onyx AI 界面聚合了编码、推理和数学等多个领域的分数。它利用分级列表按性能区间对模型进行分类，便于快速识别适合特定任务的候选者。仪表盘支持直接对比，使操作者能够权衡模型规模、速度与准确性之间的取舍。

待解问题

方法论透明度仍是关键约束；评分所用的具体数据集和评估协议在总结信号中无法立即显现。更新频率及反映新模型发布的延迟影响数据的时效性。此外，排名算法是否引入对已知基准过拟合模型的偏见，亦有待商榷。

连接

此条目与中国开源模型基础设施回路（Chinese Open-Source Model Infrastructure circuit）相连，因区域性能分级常在特定基准上出现分歧。它支持开放权重公共品回路（Open Weights Commons circuit），提供流通评估数据的机制。最后，它作为本地推理工具（如 LM Studio）的输入层，排名数据为部署时的模型选择提供依据。

译注

操作者 (Operator) 与修行者 (Practitioner)：此处“操作者”指技术运维人员，区别于修行者所指的修行实践者。
回路 (Circuit)：在 Openflows 语境中，回路指已闭合并稳定的模式，区别于“流” (Current) 的动态信号。

Openflows