Learning Action-Conditional and Object-Centric Gaussian Splatting World Models f

时间：2026-06-02 20:20:01 编辑：袖梨来源：一聚教程网

一项来自arXiv的新研究正式提出了Multi Rigid Object Gaussian World Model（MRO-GWM），这是一种能够学习动作条件动力学的世界模型，专门针对3D场景中的刚体物体。论文编号2606.01950v1，核心思路是用物体中心的高斯分布来表示任意形状的物体与多物体场景，再结合一套新颖的时空transformer架构，从历史的高斯物体状态与未来动作输入预测后续的刚体运动。

世界模型这东西，说白了就是让智能体提前“脑补”自己动作的后果——比如机器人伸手去抓杯子，它得知道杯子会怎么动、会不会撞到旁边的碗。传统世界模型往往把场景当成整体像素或体素来处理，计算量巨大不说，还很难单独建模每个物体的物理属性。MRO-GWM想解决的就是这个痛点：把场景拆成以物体为中心的小单元，每个单元用一组高斯椭圆来描形状，这样既保留了细节，又让模型能独立处理每个物体的运动。

它的做法挺巧妙：先对每一帧的物体扫描，生成对应的物体中心高斯表示——这些高斯不是固定的，而是随着动作输入不断更新位置、旋转和缩放。然后模型把过去几步的物体高斯状态和当前的动作指令一起喂给时空transformer，transformer内部通过自注意力机制捕捉物体之间的交互规律，最后输出未来几帧的物体状态。举个例子，你推一下桌面上的魔方，模型就能根据推的方向和力度，预测魔方接下来会往哪翻、怎么转。

这套架构之所以值得关注，是因为它算是一种“端到端”的刚体动力学学习器。以往要预测多个物体碰撞后的轨迹，往往得手工设计物理引擎或者依赖近似的粒子模拟，而MRO-GWM直接从数据里学习物体之间的因果关系。这不就是咱们想要的“傻瓜式”物理建模吗？模型不依赖预定义物体模板，碰到任何形状的刚体都能适配——一个螺丝刀、一个球、甚至一堆杂乱的乐高积木，都能用同一套高斯表示搞定。

当然，目前研究还停留在论文层面，但它的潜在应用场景确实不少。机器人抓取、自动驾驶中预测其他车辆的运动、虚拟现实里的实时物理交互，这些都需要快速且准确的刚体运动预测。MRO-GWM给出的思路等于提供了一种“数据驱动+几何表示”的混合解法，既不用手写物理公式，又比纯神经网络预测更稳定。读者可能会问：这个模型真的能处理复杂多物体碰撞吗？论文里展示的实验场景相对简单，但理论上，只要训练数据足够丰富，它完全能推广到更乱的桌面环境——毕竟高斯表示本身对遮挡和重叠并不敏感。

最后提一句，这篇论文的完整版已经在arXiv公开，对世界模型、机器人控制或者3D视觉感兴趣的朋友可以先去翻翻原文。从技术路线看，物体中心高斯加上时空transformer的组合，确实是一条值得跟进的方向——凭什么非得用网格或者点云呢？换成更灵活的高斯椭圆，不是更贴合真实物体的连续形变吗？

推荐专题

最新下载

热门教程

Learning Action-Conditional and Object-Centric Gaussian Splatting World Models f

相关文章

热门栏目

php教程

asp.net教程

手机开发

css教程

网页制作

办公数码

jsp教程