硬核解决Sora的物理bug！美国四所顶尖高校联合发布：给视频生成器装个物理引擎 - 科技前沿 - 科技动向

硬核解决Sora的物理bug！美国四所顶尖高校联合发布：给视频生成器装个物理引擎

2024/5/6 11:21:55 ｜浏览：812 ｜评论：0

PhysDreamer利用材质点法（MPM）对物体的各个物理属性进行估计，实现了逼真的交互式响应结果，在视频生成领域向更真实的物理模拟迈出了重要一步。

Sora刚发布后没多久，火眼金睛的网友们就发现了不少bug，比如模型对物理世界知之甚少，小狗在走路的时候，两条前腿就出现了交错问题，让人非常出戏。

对于生成视频的真实感来说，物体的交互非常重要，但目前来说，合成真实3D物体在交互中的动态行为仍然非常困难。

与无条件或文本条件的动力学不同的是，以动作为条件的动力学（action-conditioned dynamics）需要感知对象的物理材料属性，并将3D运动预测建立在这些属性（例如物体刚度）的基础上。

但由于缺乏材料的真实数据，估计物理材料属性仍然是一个悬而未决的问题，因为测量真实物体的物理材料属性非常困难。

最近，来自MIT、斯坦福大学、哥伦比亚大学和康奈尔大学联合提出了一种基于物理的方法模型PhysDreamer，利用视频生成模型学习到的对象动力学先验，为静态3D对象赋予交互式动力学。

硬核解决Sora的物理bug！美国四所顶尖高校联合发布：给视频生成器装个物理引擎

论文链接：https://arxiv.org/pdf/2404.13026.pdf

项目主页：https://physdreamer.github.io/

通过提炼上述先验知识，PhysDreamer 能够合成现实物体对全新交互的响应，例如外力或智能体操作，并且通过在弹性物体的不同示例上展现了该方法的效果，利用用户研究评估了合成交互的真实性。

硬核解决Sora的物理bug！美国四所顶尖高校联合发布：给视频生成器装个物理引擎

模型架构

PhysDreamer可以估计静态3D对象的材质场，其关键想法在于生成运动中物体的可信视频，然后优化材料场E（x）以匹配合成运动。

给定一个表示为3D高斯的对象，首先从某个视点进行渲染（带背景），然后使用图像到视频生成模型来生成运动中物体的参考视频，再使用可微分材质点方法（MPM，Material Point Methods）和可微分渲染，对空间变化的材质场和初始速度场进行优化，旨在最小化渲染视频和参考视频之间的差异。

硬核解决Sora的物理bug！美国四所顶尖高校联合发布：给视频生成器装个物理引擎

1. 基础知识

3D高斯采用一组各向异性的3D高斯核来表示3D场景的辐射场，虽然其主要是作为3D新视图合成方法引入的，但由于3D高斯具有拉格朗日性质，所以能够直接适用于粒子的物理模拟器。

与PhysGaussian方法类似，研究人员使用材质点方法（MPM，Material Point Methods）直接在高斯粒子上模拟物体动力学。

由于3D高斯分布主要位于物体表面，因此可以应用可选的内部填充过程来提高模拟真实感。

硬核解决Sora的物理bug！美国四所顶尖高校联合发布：给视频生成器装个物理引擎

具体来说，模型使用K-Means聚类算法在t=0时刻创建一组驱动粒子，其中每个驱动粒子由一组物理属性表示，包括位置、速度、形变梯度、局部速度场梯度、杨氏模量、质量、泊松比和体积。

硬核解决Sora的物理bug！美国四所顶尖高校联合发布：给视频生成器装个物理引擎

驱动粒子的初始位置是其所有聚类成员位置的平均值，其中驱动粒子的数量远小于三维高斯粒子的数量。

在渲染过程中，通过插值驱动粒子的位置和旋转来计算每个三维高斯粒子的位置和旋转：对于每个三维高斯粒子，首先找到它在t=0时刻的八个最近邻驱动粒子，然后拟合这些八个驱动粒子在t=0时刻和当前时间戳之间的刚体变换T，以确定粒子的当前位置和旋转。

实验结果

数据集

通过捕捉多视角图像，研究人员收集了八个真实世界的静态场景，其中每个场景包括一个物体和一个背景，物品包括五朵花（一朵红玫瑰、一朵康乃馨、一朵橙玫瑰、一朵郁金香和一朵白玫瑰）、一株海芋、一根电话线和一顶无檐帽；然后捕捉四个交互视频来说明其在交互后的自然运动，例如戳或拖，再使用真实视频作为额外的对比参考。

硬核解决Sora的物理bug！美国四所顶尖高校联合发布：给视频生成器装个物理引擎

在用户研究中，与基线方法和真实世界捕捉的视频对比后可以看到，有超过80%的参与者在两项选择实验（2AFC）中更倾向于PhysDreamer模型，认为其在运动的真实性上更胜一筹；在视觉质量方面，也有65%的参与者更偏好PhysDreamer

需要注意的是，由于比较的静态场景本身是一致的，因此视觉质量的评估也在一定程度上也依赖于生成物体的运动效果。

硬核解决Sora的物理bug！美国四所顶尖高校联合发布：给视频生成器装个物理引擎

从运动模式在不同时间点上的切片中可以观察到，PhysGaussian由于缺少对材料属性进行原理性估计，导致其生成的运动幅度过大且速度过慢，与现实不符。

而与DreamGaussian4D相比，有70%和63.5%的2AFC样本在视觉质量和运动真实性上更倾向于PhysDreamer模型，从上图中可以看到，DreamGaussian4D生成的运动是周期性的，且幅度保持在一个较小的恒定值，相比之下，PhysDreamer能够模拟出运动中的衰减效果。

参考资料：
https://twitter.com/_akhaliq/status/1782273198551097389
https://huggingface.co/papers/2404.13026

相关栏目：『科技前沿』

重大发现！“超级地球”	2025-06-12	[424]
如果AI已经无法阻挡，我们还能做些什么？	2025-06-11	[413]
十五年技术突破，重新定义机器人精度与寿命，开启定制化机器人、超低温、耐腐蚀机器人新时代。	2025-06-03	[791]
为何物理学能给数学带来更多突破的灵感？	2025-05-28	[765]
DeepSeek推荐：能养你一辈子的9个好习惯	2025-05-06	[1459]
构造“姚-李”量子自旋液体 \| Ising专栏	2025-04-28	[1510]
【科技参考】英国战略科学家培养及使用机制分析	2025-04-27	[1609]
联合国人居署发布的《2024 全球城市人工智能评估报告：利用 AI 构建以人为本的智慧城市》	2025-04-02	[2437]
为躲避花粉过敏，海森堡逃到一个小岛，却意外掀起量子革命	2025-03-27	[2527]
他的公司被稱作黑匣子-他希望矽谷為美國而戰	2025-03-27	[2517]