tiny-llm（微型大语言模型服务课程）

流

tiny-llm（微型大语言模型服务课程）

一门面向系统工程师的课程，利用 MLX 在 Apple Silicon 上实现 LLM 服务基础设施，涵盖注意力机制、KV 缓存和连续批处理，无需高层抽象层。

流通 ID tiny-llm

日期 Mar 26, 2026

语言中文

信号 tiny-llm · github · 2026-03-26 一门面向系统工程师的 MLX LLM 服务课程。代码库完全基于 MLX 数组/矩阵 API，不使用任何高层神经网络 API，以便我们从头构建模型服务基础设施并深入挖掘优化技术。目标是学习高效服务大语言模型（例如 Qwen2 模型）背后的技术。第一周，你将使用 Python（仅 Python！）实现必要的组件，以使用 Qwen2 模型生成响应（例如注意力机制、RoPE 等）。第二周，你将实现推理系统，它是 vLLM 的简化版本（例如 KV 缓存、连续批处理、闪速注意力等）。第三周，我们将涵盖更高级的主题以及模型如何与外部世界交互。

背景本地推理基础设施的教育往往依赖高层抽象，掩盖了底层机制。本条目记录了一个旨在向系统工程师暴露 LLM 服务原始实现细节的课程，特别针对 Apple Silicon 环境，其中 MLX 提供原生数组支持。课程结构强调从零构建而非配置现有二进制文件，符合 Openflows（开流）将 AI 视为基础设施而非黑盒的原则。

关联本条目直接映射到 local-inference-baseline 回路，该回路将语言模型推理视为普通的本地基础设施。通过手动实现 KV 缓存和连续批处理等服务组件，该项目强化了维护和优化本地推理栈所需的运营素养，避免供应商锁定。它还涉及 post-training-model-adaptation-infrastructure，关注模型训练之后的服务层。

当前状态该项目处于活跃开发中，第一周和第二周已完成，涵盖注意力机制和核心推理系统。第三周正在进行中，处理高级主题和外部模型交互。代码库仅使用 Python，完全依赖 MLX 数组/矩阵 API，无需高层神经网络库，确保对计算图和内存管理的清晰视图。

开放问题简化后的推理系统能否扩展到与完整 vLLM 实现相当的生产级吞吐量？MLX 原生方法与基于 CUDA 的服务在开发者可移植性和 Apple Silicon 上的性能方面如何比较？是否有途径将此课程集成到现有的智能体编排框架，如 OpenClaw 或 vLLM？

连接 vllm：实现 vLLM 推理系统的简化版本 mlx-tune：利用 MLX 数组/矩阵 API 进行底层模型实现 vllm-apple-silicon-metal-support：优化 Apple Silicon 硬件上的推理 local-inference-baseline：为本地模型推理的基础设施层做出贡献

译注

流 (Current)：本条目类型为 current，在 Openflows 语境下对应“流”，指代生态系统中流动的个体信号或内容。此处保留英文 current 作为系统标识，但在意译中强调其流动性。
Openflows（开流）：品牌名保留英文，首次出现加注“开流”，取“开启流通”之意，呼应 Zhuangzi 中鹏鸟乘风而起的宏大流动感。
回路 (Circuit)：在“关联”一节中，将 circuit 译为“回路”，强调闭环、稳定与回归的理路，区别于单纯的“电路”或“循环”。
智能体 (Agent)：将 agent 译为“智能体”，较“代理”更具主体性与修行意味，符合 Openflows 对 AI 实体的定位。
理 (Li)：全文贯彻“理”的翻译原则，即顺应事物内在纹理（如“计算图”、“内存管理”、“运营素养”），不强行对应英文术语的机械定义。

关联

调解说明