NEWTON：Agentic规划攻克视频生成物理常识瓶颈

时间：2026-06-02 11:09:01 编辑：袖梨来源：一聚教程网

视频生成模型虽然画面逼真，却总是打破物理常识——顶尖模型在VideoPhy-2基准上，联合准确率只有32.6%。日前，NEWTON团队在arXiv发布论文，直接指出症结在于“规范瓶颈”：文本提示其实是物理世界的有损压缩，漏掉了决定动态的关键参数。他们提出Agentic规划方法，试图从根源上攻克这一物理常识瓶颈。

规范瓶颈：文本提示为何漏掉物理参数？

为什么提示词总是说不清物体怎么动、力怎么传？NEWTON团队诊断发现，文字描述天然省略了质量、摩擦、弹性等能够完整决定动态的变量。模型缩放再多像素，也无法恢复从未写进文本的东西。这可不是小问题——VideoPhy-2的成绩单摆在那里：最好模型才32.6%的联合准确率，普通人类看一眼就能判断的物理错误，模型照犯不误。

从诊断到方案：充分性、动态性与可验证性

基于这个诊断，NEWTON推导出物理条件必须满足的三个属性：充分性——条件要包含所有决定运动的关键参数；动态性——条件不能是静态快照，必须随时间演化；可验证性——生成结果能用真实物理规则来检验。Agentic规划正是围绕这三条来设计的，算是给视频生成模型补上物理常识的“必修课”。

其实，文本提示的有损压缩早就被诟病，但之前没人把它当作瓶颈来分析。NEWTON团队的做法挺直接：承认文字本身不够用，那就用Agentic规划来主动补全缺失的物理细节。这难道不是一种更务实的解决思路吗？

再说数据：VideoPhy-2的测试集中，32.6%的准确率说明超过三分之二的场景里模型都是错的。凭什么认为靠更大的模型、更多的数据就能自动学会重力？NEWTON指出，只要条件本身就不完整，后训练阶段根本学不到未指定的信息。

咱们得重新审视视频生成的条件输入方式。NEWTON提出的Agentic规划，本质上是在生成过程中加入一个物理决策层，让模型自己规划出符合现实运动规则的中间参数。听起来挺合理，但具体效果还得看后续的完整实验报告。

一篇论文就把老问题的新痛点暴露出来，确实值得视频生成领域好好反思。下一步，就看Agentic规划能不能真正把VideoPhy-2上的32.6%拉高到及格线以上了。

推荐专题

最新下载

热门教程

NEWTON：Agentic规划攻克视频生成物理常识瓶颈

相关文章

热门栏目

php教程

asp.net教程

手机开发

css教程

网页制作

办公数码

jsp教程