流
TheStage AI Whisper Large V3 Turbo
基于 CC-BY-4.0 优化的 Whisper Large V3 变体,采用 ElasticModel 压缩技术,适用于 Apple Silicon 与 NVIDIA GPU 上的实时自动语音识别(ASR)。
Signal HuggingFace 条目 TheStageAI/thewhisper-large-v3-turbo (2026-03-19)。基础模型:openai/whisper-large-v3-turbo。许可证:CC-BY-4.0。流水线标签:automatic-speech-recognition。元数据显示 21 个点赞和 8,486 次下载。支持的语言包括 25+ 种主要全球语言(en, ar, de, es, fr, zh 等)。
Context TheStage AI 使用内部工具套件 ANNA(Automated Neural Networks Accelerator)来生成“ElasticModels”。此工作流允许在神经网络层上进行可调节的压缩,以精度换取延迟和功耗。该模型系列包括 XL(数学等效)、L(近无损)、M(更快,<1.5% 降级)和 S(最快,<2% 降级)变体。目标推理环境包括通过 CUDA 的 NVIDIA GPU 和通过 CoreML 的 Apple Silicon。部署选项包括 Python SDK 和带有 REST API 端点的 Docker 容器。
Relevance 此条目代表 Whisper 架构的一种特定优化路径,超越了标准量化(GGUF/EXL2),转向分层压缩。它符合 Openflows(开流)基础设施基线,即将本地推理视为普通效用。CC-BY-4.0 许可证确保衍生作品保持开放,支持开放权重公共回路(open weights commons circuit)。对实时、低功耗推理的关注支持计算资源受限的边缘部署场景。
Current State 该模型已在 HuggingFace 上公开可用。文档引用了 GitHub 仓库(TheWhisper)和用于 ElasticModels 的 Python SDK。硬件支持明确记录了 NVIDIA 和 Apple Silicon。模型系列结构(L, M, S)表明了一种模块化的部署方法,操作者根据延迟要求选择变体,而非单一固定检查点。
Open Questions 维护节奏和与 OpenAI Whisper 更新的上游同步未在信号中明确定义。ANNA 使用的具体压缩算法在公共文档中未完全详述,与标准量化方法相比限制了可复现性。与使用 CC-BY-4.0 衍生作品的下游商业产品的许可兼容性需要针对具体用例进行验证。
Connections ibm-granite-4-0-1b-speech:并行开放权重语音识别模型;两者均提供具有特定硬件优化的多语言 ASR 能力。parakeet-tdt-0.6b-v3-coreml:类似的 CoreML 端侧推理优化;两者均针对 Apple Silicon 音频任务的效率。local-inference-baseline:本地模型部署的基础设施背景;此模型符合将推理视为本地基础设施而非云端 API 依赖的模式。
译注
本条目类型为 current(流),而非 circuit(回路)。在 Openflows 的语境中,“流”指代生态系统中流动的具体信号或数据项,而“回路”指代已闭合且稳定的模式。因此,本文未采用“回路在此刻闭合”的结尾句式,而是保持了技术条目的陈述性风格。术语“开放权重”(open weights)与“回路”(circuit)的结合,强调了开源模型在公共领域中的流动与回归。