流
video-use: LLM 驱动的剪辑技能
一个开源的 Claude Code 技能,通过转录分析和结构化视觉合成实现自动化视频剪辑。去除填充词,应用色彩分级,管理渲染管线,无需转储帧。
video-use 是一个开源的 CLI 技能,用于 Claude Code,通过自然语言交互实现程序化视频剪辑。它作为媒体生产的流通层(infrastructure layer),将高层编辑指令通过结构化数据管线转换为 FFmpeg 操作,而非直接视觉处理。项目依循其理(principle):LLM 应推理媒体文本表示(转录、时间线),而非消耗高 token 的视觉输入(如原始帧)。
Technical Architecture
核心创新在于将视频数据抽象为文本优先格式。video-use 不直接处理视频帧,而是构建 takes_packed.md 文件,包含单词级时间戳、说话人分离和来自 ElevenLabs Scribe 的音频事件。这相比 naive 帧转储策略显著减少了 token 占用。系统采用双层读取模型:主层(Audio Transcript):始终加载。提供单词级精度用于剪辑决策、填充词检测和静音间隙分析。次层(Visual Composite):按需生成。timeline_view 仅在决策点生成胶片条 + 波形 + 单词标签 PNG(如模糊停顿、重拍比较)。此架构最小化延迟和 token 成本,同时保持单词边界精度。LLM 推理 12KB 文本表示,而非处理数千帧。
Operational Pipeline 编辑工作流遵循确定性序列,旨在保证安全性和可复现性:
- Transcribe(转录):通过 ElevenLabs Scribe 处理源文件获取单词级元数据。
- Pack(打包):元数据整合至
takes_packed.md。 - LLM Reasons(LLM 推理):智能体基于转录提出编辑策略。
- EDL(编辑决策列表):生成结构化执行计划。
- Render(渲染):FFmpeg 链执行色彩分级、字幕烧录和剪辑。
- Self-Eval(自评估):使用
timeline_view在剪辑边界分析渲染输出,捕捉视觉跳跃或音频爆音。若自评估失败,系统尝试修复并重渲染(最多 3 次),然后呈现预览。
会话内存持久化在 project.md 中,允许跨会话的迭代工作流。
Capabilities and Constraints 工具支持特定生产任务,无需人工干预:
- Filler Removal(填充词移除):自动检测和移除
umm,uh及错误起始。 - Audio Processing(音频处理):每处剪辑应用 30ms 音频淡入淡出,防止爆音。
- Visuals(视觉):自动色彩分级(温暖电影感、中性冲击或自定义 FFmpeg 链)。
- Overlays(叠加层):烧录可自定义样式的字幕;通过并行子智能体生成动画叠加层(Manim, Remotion, 或 PIL)。
Constraints(约束):需要本地安装 Python, ffmpeg, 和 yt-dlp。依赖 ElevenLabs API 进行转录。LLM 不“观看”视频;依赖转录和生成合成的准确性。
Linkage Check
- Repository(仓库):https://github.com/browser-use/video-use
- Dependencies(依赖):Python 3.10+, FFmpeg, ElevenLabs API。
- Integration(集成):符号链接至
~/.claude/skills/以供 Claude Code 访问。 - License(许可):开源(请验证仓库根目录的具体许可)。
- Status(状态):活跃开发;需手动核实 API 密钥成本和源材料转录准确性。
译注
- 理 (lǐ):此处对应原文 "principle",但在本语境下取其“自然纹理、内在规律”之意,暗示 LLM 对媒体处理应顺应数据本身的纹理(文本流),而非强行介入视觉表象。
- 流通 (liú tōng):对应 "Currency" 概念,此处指代基础设施层作为信息流动的载体,强调其动态性与连接性。
- 智能体 (Agent):此处对应 "Agent",强调其作为自主执行单元的属性,而非简单的脚本或工具。