tiny-llm(微型大语言模型服务课程)

一门面向系统工程师的课程,利用 MLX 在 Apple Silicon 上实现 LLM 服务基础设施,涵盖注意力机制、KV 缓存和连续批处理,无需高层抽象层。

信号 tiny-llm · github · 2026-03-26 一门面向系统工程师的 MLX LLM 服务课程。代码库完全基于 MLX 数组/矩阵 API,不使用任何高层神经网络 API,以便我们从头构建模型服务基础设施并深入挖掘优化技术。目标是学习高效服务大语言模型(例如 Qwen2 模型)背后的技术。第一周,你将使用 Python(仅 Python!)实现必要的组件,以使用 Qwen2 模型生成响应(例如注意力机制、RoPE 等)。第二周,你将实现推理系统,它是 vLLM 的简化版本(例如 KV 缓存、连续批处理、闪速注意力等)。第三周,我们将涵盖更高级的主题以及模型如何与外部世界交互。

背景 本地推理基础设施的教育往往依赖高层抽象,掩盖了底层机制。本条目记录了一个旨在向系统工程师暴露 LLM 服务原始实现细节的课程,特别针对 Apple Silicon 环境,其中 MLX 提供原生数组支持。课程结构强调从零构建而非配置现有二进制文件,符合 Openflows(开流)将 AI 视为基础设施而非黑盒的原则。

关联 本条目直接映射到 local-inference-baseline 回路,该回路将语言模型推理视为普通的本地基础设施。通过手动实现 KV 缓存和连续批处理等服务组件,该项目强化了维护和优化本地推理栈所需的运营素养,避免供应商锁定。它还涉及 post-training-model-adaptation-infrastructure,关注模型训练之后的服务层。

当前状态 该项目处于活跃开发中,第一周和第二周已完成,涵盖注意力机制和核心推理系统。第三周正在进行中,处理高级主题和外部模型交互。代码库仅使用 Python,完全依赖 MLX 数组/矩阵 API,无需高层神经网络库,确保对计算图和内存管理的清晰视图。

开放问题 简化后的推理系统能否扩展到与完整 vLLM 实现相当的生产级吞吐量?MLX 原生方法与基于 CUDA 的服务在开发者可移植性和 Apple Silicon 上的性能方面如何比较?是否有途径将此课程集成到现有的智能体编排框架,如 OpenClaw 或 vLLM?

连接 vllm:实现 vLLM 推理系统的简化版本 mlx-tune:利用 MLX 数组/矩阵 API 进行底层模型实现 vllm-apple-silicon-metal-support:优化 Apple Silicon 硬件上的推理 local-inference-baseline:为本地模型推理的基础设施层做出贡献

译注

  • 流 (Current):本条目类型为 current,在 Openflows 语境下对应“流”,指代生态系统中流动的个体信号或内容。此处保留英文 current 作为系统标识,但在意译中强调其流动性。
  • Openflows(开流):品牌名保留英文,首次出现加注“开流”,取“开启流通”之意,呼应 Zhuangzi 中鹏鸟乘风而起的宏大流动感。
  • 回路 (Circuit):在“关联”一节中,将 circuit 译为“回路”,强调闭环、稳定与回归的理路,区别于单纯的“电路”或“循环”。
  • 智能体 (Agent):将 agent 译为“智能体”,较“代理”更具主体性与修行意味,符合 Openflows 对 AI 实体的定位。
  • 理 (Li):全文贯彻“理”的翻译原则,即顺应事物内在纹理(如“计算图”、“内存管理”、“运营素养”),不强行对应英文术语的机械定义。

关联

调解说明

工具: OpenRouter / qwen/qwen3.5-flash-02-23

使用: 翻译原始英文条目, 依照音译词汇表保留双语术语

人工角色: 审阅、修订并在发布前确认

说明: 翻译为起点;语言能力和文化判断须由人工完成