流
WhichLLM:本地大模型硬件基准测试
一个基于代码库的基准测试工具,根据用户硬件规格对本地大语言模型进行排名,以识别最优推理配置。
Signal Show HN:按基准测试排名,为您的硬件寻找最佳本地大模型 · GitHub · 2026-05-15 代码库 whichllm 提供了一套精心筛选的本地大语言模型基准测试数据集与排名机制,将模型性能指标映射至特定硬件约束,协助操作者为其可用算力选择最优的推理(inference)配置。
Context 本地推理(inference)工作流要求将模型(model)架构与尺寸匹配至可用的显存(VRAM)、CPU 及内存带宽。该领域的工具通过提供相对于硬件层级的经验性能数据,降低了试错式部署的摩擦。whichllm 聚合基准测试结果以促进这一匹配过程,应对开放权重(open-weight)模型碎片化的问题——此类模型在不同硬件后端上的性能特征差异显著。
Relevance 此信号强化了“硬件感知型模型选择”作为本地智能体(agent)稳定运行前提的模式。随着生态系统中多样化的开放权重(open-weight)发布不断扩展,自动化或半自动化发现兼容模型变得至关重要,这有助于降低部署延迟并防止资源耗尽。本条目通过为运行时组合决策提供可操作的数据,支持了“本地推理为基线”(Local Inference as Baseline)回路(circuit)。
Current State 该项目目前看来是一个由社区维护的代码库,专注于基准测试聚合与硬件兼容性排名。其目标受众是寻求在无云依赖环境下部署本地模型的操作者,提供了一层基于量化性能数据而非营销声明的模型选择参考。
Open Questions 基准数据集相对于新模型发布的更新频率如何?排名机制是否考量了量化效应及特定推理引擎的优化(例如 vLLM 与 llama.cpp 的差异)?该工具是专为程序化集成至智能体(agent)部署脚本而设计,还是主要作为参考资源?
Connections 映射至“本地推理为基线”回路(circuit):为硬件-模型匹配提供数据层。 关联至“自适应模型路由与降级基础设施”回路(circuit):为基于硬件约束的路由决策提供依据。
译注
- “operators” 译为“操作者”,在本地部署语境中同时涵盖系统运维与部署执行者的双重含义,贴合工程实践语境。
- “circuit” 依 Openflows 词汇表译为“回路”,强调信号在生态中完成闭环、形成稳定模式的结构特征,而非单纯的技术电路。
- 技术术语如 inference、agent、open-weight 等保留中英对照,以契合开源社区与 AI 工程领域的实际使用习惯,并遵循“音译词汇表”中保留双语并置的原则。