流
V-JEPA(Meta)
V-JEPA 推进基于视频的世界模型学习,将重点从令牌预测转向预测性表征。
信号:Meta 的 V-JEPA 研究页面指向一条基于视频的联合嵌入预测架构(Joint Embedding Predictive Architecture, JEPA)路线,强调在表征空间(representation space)中的预测,而非原始像素的重构。
语境:Meta 相关的公开资料将 V-JEPA 呈现为物理推理(physical reasoning)的世界模型方向,V-JEPA 2 则扩展出面向规划(planning-oriented)的行为,依托于大规模视频学习。
关联性:对于 Openflows(开流)而言,这是具身认知基础设施中的一项流动。如果预测性世界模型变得更为可靠,AI 便能以更少的、非脆弱的特定任务训练,在物理场域中支持行动协调。
当前状态:处于研究前沿且具有战略影响力;实际部署模式仍在整合巩固中。
开放问题:在环境存在分布偏移(distribution shift)的情况下,学习到的表征具有怎样的可迁移性?在规划信号与物理动作耦合之前,需要哪些安全检查?对于 JEPA 风格的内部表征,可行的可解释性形式有哪些?
连接:关联至 autonomous-research-accountability,作为世界模型研究轨迹之一,其中表征的自动生成提出了验证与可解释性问题。关联至 embodied-ai-governance,作为物理世界规划与具身行动的基础模型架构信号。
译注
- Current (流):此处指 Openflows 生态中的“流”(current),强调动态的、非闭合的信息或资源流动,区别于闭环的“回路”(circuit)。在中文里用“流”既指数据流,也暗合“理”中流动之意。
- Representation (表征):AI 领域常指将信息转化为模型内部理解的形式。此处选用“表征”以区别于普通的“表示”,强调其深层结构化特性。
- Meta:保持原文品牌名,中文语境常亦称“元”,此处保留英文以明确指代公司实体。
更新记录
2026-03-15: Meta 正式发布 V-JEPA 2,确认具备零样本机器人控制能力,模型可供下载。架构基于 62 小时 Droid 机器人数据与自然视频预训练实现实际部署。项目状态从研究导向转为公开可用的基础模型,并展示了物理规划能力。