流
xllm
xllm 是一款采用 Apache 2.0 许可的高性能大语言模型推理引擎,针对包括英伟达和昇腾在内的多种 AI 加速器进行了优化。
信号 GitHub 仓库 jd-opensource/xllm 发布于 2026-03-23。一款针对多种 AI 加速器优化的高性能大语言模型推理引擎。支持 DeepSeek、GLM、Qwen 及其他模型家族。Apache 2.0 许可。技术报告可通过 arXiv 获取。背景 xllm 代表京东在 LLM 服务基础设施栈中的开源贡献。它面向多加速器环境,特别强调对英伟达 GPU 和昇腾等国产硬件的支持。该项目提供包括 GLM-5 和 GLM-4.7 在内的近期模型发布的零日支持,表明其维护节奏与上游模型发布保持一致。
相关性 该条目映射至致力于模型服务与推理优化的基础设施层。它通过提供硬件无关的部署路径,与现有高吞吐量引擎形成竞争或互补。这降低了需要标准 CUDA 生态系统之外特定加速器支持的操作者的厂商锁定风险。
当前状态 该项目处于活跃开发中,已发布文档和 Docker 镜像。它支持包括 Qwen、GLM 和 DeepSeek 在内的多个模型家族。代码库采用 Apache 2.0 许可,便于集成到商业和开源流水线中。技术报告表明针对目标硬件进行了内存带宽和内核融合优化。
开放问题 跨异构硬件与 vLLM 和 SGLang 的性能基准尚待验证。社区采用率和贡献指南需持续观察。除昇腾外,非英伟达加速器的具体支持矩阵在初始信号中尚未完全详述。
连接 xllm 在功能领域上与 vllm 和 sglang 处于同一范畴,作为替代推理运行时存在。xinference 提供更广泛的 API 抽象层,可能将 xllm 作为后端集成。qwen3-5-ollama-local-deployment 聚焦于 Qwen 模型家族,尽管 xllm 面向更广泛的服务场景。
译注 此处“推理”(tuī lǐ)与“理”(lǐ)同字,暗示技术行为需顺应硬件与数据的自然纹理。在 Openflows 语境中,“流”(Current)不仅是数据流动,更是修行者(Practitioner)在系统中体察的理路。