Qwen3-8B-DFlash-b16 模型

流

Qwen3-8B-DFlash-b16 模型

一种基于块扩散的推测解码草案模型，旨在通过 SGLang 和 vLLM 集成加速 Qwen3-8B 推理。

流通 ID qwen3-8b-dflash-b16

日期 Mar 20, 2026

语言中文

信号 HuggingFace 仓库 z-lab/Qwen3-8B-DFlash-b16 于 2026-03-17 发布。MIT 授权。9,156 次下载，20 个赞。Pipeline 标签：text-generation。标签包含 dflash、speculative-decoding、diffusion、efficiency、flash-decoding、qwen、diffusion-language-model。论文见 arXiv:2602.06036。

语境 DFlash 利用轻量级块扩散模型在推测解码框架内进行草案生成。本条目代表草案组件，区别于目标模型 Qwen/Qwen3-8B。需要在 transformers 库中设置 trust_remote_code=True 以加载自定义块扩散架构。系统架构将扩散草案模型与自回归目标配对，以实现并行草案生成并降低推理延迟。

关联此信号通过优化推测解码流程，解决了本地大语言模型推理的效率瓶颈。它符合专门化草案模型的趋势，而非仅依赖较小的自回归草案。该实现原生支持 SGLang，将其定位为本地部署的高性能选项，尤其在吞吐量至关重要的场景下。

当前状态 SGLang 集成通过拉取请求 #20547 已激活。vLLM 集成正在进行中。模型需要特定的环境变量（SGLANG_ENABLE_SPEC_V2、SGLANG_ENABLE_DFLASH_SPEC_V2、SGLANG_ENABLE_OVERLAP_PLAN_STREAM）以激活算法。评估使用 torch==2.9.0 和 transformers==4.57.3 进行。需要 Qwen/Qwen3-8B 作为目标模型。

开放问题 vLLM 集成完成的时间表未定。草案模型的量化支持未记录。在高负载下推测解码回路的稳定性尚未验证。除 SGLang 和 vLLM 之外的其他推理运行时兼容性未知。

连接此模型在推测解码基础设施层内运行。它依赖 sglang 进行活跃的运行时支持，并依赖 vllm 进行未来兼容性。它通过提供机制降低硬件依赖（依靠算法效率而非仅靠模型蒸馏），契合 local-inference-baseline 回路。

译注

流 (liú) vs 流通 (liú tōng)：本条目类型为 current，在 Openflows 体系中属于“流”，即生态系统中流动的单个信号；而“流通”指代整个货币/知识层。此处“流”强调动态性与瞬时性，区别于静态的“库”。
理 (lǐ) 与推理 (tuī lǐ)：推理 (Inference) 一词在中文里与“理”（自然 grain）同源。在技术语境下，推理不仅是计算，更是顺应模型内部结构之“理”的过程。
回路 (huí lù)：在“连接”部分，将 circuit 译为“回路”，强调这是一个闭合的、稳定的模式（如 Zhuangzi 中的“环中”），而非单向路径。它暗示了效率优化是一个闭环的验证过程。

Openflows

Qwen3-8B-DFlash-b16 模型

关联

被这些条目引用

调解说明