一聚教程网:一个值得你收藏的教程网站

最新下载

热门教程

NEWTON:Agentic规划攻克视频生成物理常识瓶颈

时间:2026-06-02 11:09:01 编辑:袖梨 来源:一聚教程网

视频生成模型虽然画面逼真,却总是打破物理常识——顶尖模型在VideoPhy-2基准上,联合准确率只有32.6%。日前,NEWTON团队在arXiv发布论文,直接指出症结在于“规范瓶颈”:文本提示其实是物理世界的有损压缩,漏掉了决定动态的关键参数。他们提出Agentic规划方法,试图从根源上攻克这一物理常识瓶颈。

规范瓶颈:文本提示为何漏掉物理参数?

为什么提示词总是说不清物体怎么动、力怎么传?NEWTON团队诊断发现,文字描述天然省略了质量、摩擦、弹性等能够完整决定动态的变量。模型缩放再多像素,也无法恢复从未写进文本的东西。这可不是小问题——VideoPhy-2的成绩单摆在那里:最好模型才32.6%的联合准确率,普通人类看一眼就能判断的物理错误,模型照犯不误。

从诊断到方案:充分性、动态性与可验证性

基于这个诊断,NEWTON推导出物理条件必须满足的三个属性:充分性——条件要包含所有决定运动的关键参数;动态性——条件不能是静态快照,必须随时间演化;可验证性——生成结果能用真实物理规则来检验。Agentic规划正是围绕这三条来设计的,算是给视频生成模型补上物理常识的“必修课”。

其实,文本提示的有损压缩早就被诟病,但之前没人把它当作瓶颈来分析。NEWTON团队的做法挺直接:承认文字本身不够用,那就用Agentic规划来主动补全缺失的物理细节。这难道不是一种更务实的解决思路吗?

再说数据:VideoPhy-2的测试集中,32.6%的准确率说明超过三分之二的场景里模型都是错的。凭什么认为靠更大的模型、更多的数据就能自动学会重力?NEWTON指出,只要条件本身就不完整,后训练阶段根本学不到未指定的信息。

咱们得重新审视视频生成的条件输入方式。NEWTON提出的Agentic规划,本质上是在生成过程中加入一个物理决策层,让模型自己规划出符合现实运动规则的中间参数。听起来挺合理,但具体效果还得看后续的完整实验报告。

一篇论文就把老问题的新痛点暴露出来,确实值得视频生成领域好好反思。下一步,就看Agentic规划能不能真正把VideoPhy-2上的32.6%拉高到及格线以上了。

热门栏目