最新下载
热门教程
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
NEWTON:Agentic规划攻克视频生成物理常识瓶颈
时间:2026-06-02 11:09:01 编辑:袖梨 来源:一聚教程网
视频生成模型虽然画面逼真,却总是打破物理常识——顶尖模型在VideoPhy-2基准上,联合准确率只有32.6%。日前,NEWTON团队在arXiv发布论文,直接指出症结在于“规范瓶颈”:文本提示其实是物理世界的有损压缩,漏掉了决定动态的关键参数。他们提出Agentic规划方法,试图从根源上攻克这一物理常识瓶颈。
规范瓶颈:文本提示为何漏掉物理参数?

为什么提示词总是说不清物体怎么动、力怎么传?NEWTON团队诊断发现,文字描述天然省略了质量、摩擦、弹性等能够完整决定动态的变量。模型缩放再多像素,也无法恢复从未写进文本的东西。这可不是小问题——VideoPhy-2的成绩单摆在那里:最好模型才32.6%的联合准确率,普通人类看一眼就能判断的物理错误,模型照犯不误。
从诊断到方案:充分性、动态性与可验证性

基于这个诊断,NEWTON推导出物理条件必须满足的三个属性:充分性——条件要包含所有决定运动的关键参数;动态性——条件不能是静态快照,必须随时间演化;可验证性——生成结果能用真实物理规则来检验。Agentic规划正是围绕这三条来设计的,算是给视频生成模型补上物理常识的“必修课”。
其实,文本提示的有损压缩早就被诟病,但之前没人把它当作瓶颈来分析。NEWTON团队的做法挺直接:承认文字本身不够用,那就用Agentic规划来主动补全缺失的物理细节。这难道不是一种更务实的解决思路吗?
再说数据:VideoPhy-2的测试集中,32.6%的准确率说明超过三分之二的场景里模型都是错的。凭什么认为靠更大的模型、更多的数据就能自动学会重力?NEWTON指出,只要条件本身就不完整,后训练阶段根本学不到未指定的信息。
咱们得重新审视视频生成的条件输入方式。NEWTON提出的Agentic规划,本质上是在生成过程中加入一个物理决策层,让模型自己规划出符合现实运动规则的中间参数。听起来挺合理,但具体效果还得看后续的完整实验报告。
一篇论文就把老问题的新痛点暴露出来,确实值得视频生成领域好好反思。下一步,就看Agentic规划能不能真正把VideoPhy-2上的32.6%拉高到及格线以上了。
相关文章
- 网易MuMu模拟器怎么设置能流畅 06-02
- win10电脑开机速度慢-5个实用提速优化技巧 06-02
- 为了吾王猎人装备推荐指南 06-02
- Google IO 2026:Gmail接入Gemini语音对话,支持语音搜索邮件 06-02
- 为了吾王:人物解锁条件有哪些 06-02
- OPPO 提出 Bayesian Value Recursion 实现 LLM 推理逐 Token 信用分配 06-02