用户名:  密码:   
网站首页即时通讯活动公告最新消息科技前沿学人动向两岸三地人在海外历届活动关于我们联系我们申请加入
栏目导航 — 美国华裔教授专家网科技动向科技前沿
关键字  范围   
 
硬核解决Sora的物理bug!美国四所顶尖高校联合发布:给视频生成器装个物理引擎
2024/5/6 11:21:55 | 浏览:341 | 评论:0

PhysDreamer利用材质点法(MPM)对物体的各个物理属性进行估计,实现了逼真的交互式响应结果,在视频生成领域向更真实的物理模拟迈出了重要一步。


Sora刚发布后没多久,火眼金睛的网友们就发现了不少bug,比如模型对物理世界知之甚少,小狗在走路的时候,两条前腿就出现了交错问题,让人非常出戏。

对于生成视频的真实感来说,物体的交互非常重要,但目前来说,合成真实3D物体在交互中的动态行为仍然非常困难。

与无条件或文本条件的动力学不同的是,以动作为条件的动力学(action-conditioned dynamics)需要感知对象的物理材料属性,并将3D运动预测建立在这些属性(例如物体刚度)的基础上。


但由于缺乏材料的真实数据,估计物理材料属性仍然是一个悬而未决的问题,因为测量真实物体的物理材料属性非常困难。


最近,来自MIT、斯坦福大学、哥伦比亚大学和康奈尔大学联合提出了一种基于物理的方法模型PhysDreamer,利用视频生成模型学习到的对象动力学先验,为静态3D对象赋予交互式动力学。


硬核解决Sora的物理bug!美国四所顶尖高校联合发布:给视频生成器装个物理引擎

论文链接:https://arxiv.org/pdf/2404.13026.pdf

项目主页:https://physdreamer.github.io/

通过提炼上述先验知识,PhysDreamer 能够合成现实物体对全新交互的响应,例如外力或智能体操作,并且通过在弹性物体的不同示例上展现了该方法的效果,利用用户研究评估了合成交互的真实性。

硬核解决Sora的物理bug!美国四所顶尖高校联合发布:给视频生成器装个物理引擎

模型架构


PhysDreamer可以估计静态3D对象的材质场,其关键想法在于生成运动中物体的可信视频,然后优化材料场E(x)以匹配合成运动。


给定一个表示为3D高斯的对象,首先从某个视点进行渲染(带背景),然后使用图像到视频生成模型来生成运动中物体的参考视频,再使用可微分材质点方法(MPM,Material Point Methods)和可微分渲染,对空间变化的材质场和初始速度场进行优化,旨在最小化渲染视频和参考视频之间的差异。

硬核解决Sora的物理bug!美国四所顶尖高校联合发布:给视频生成器装个物理引擎

1. 基础知识


3D高斯采用一组各向异性的3D高斯核来表示3D场景的辐射场,虽然其主要是作为3D新视图合成方法引入的,但由于3D高斯具有拉格朗日性质,所以能够直接适用于粒子的物理模拟器。


与PhysGaussian方法类似,研究人员使用材质点方法(MPM,Material Point Methods)直接在高斯粒子上模拟物体动力学。


由于3D高斯分布主要位于物体表面,因此可以应用可选的内部填充过程来提高模拟真实感。

硬核解决Sora的物理bug!美国四所顶尖高校联合发布:给视频生成器装个物理引擎

硬核解决Sora的物理bug!美国四所顶尖高校联合发布:给视频生成器装个物理引擎

硬核解决Sora的物理bug!美国四所顶尖高校联合发布:给视频生成器装个物理引擎

硬核解决Sora的物理bug!美国四所顶尖高校联合发布:给视频生成器装个物理引擎


具体来说,模型使用K-Means聚类算法在t=0时刻创建一组驱动粒子,其中每个驱动粒子由一组物理属性表示,包括位置、速度、形变梯度、局部速度场梯度、杨氏模量、质量、泊松比和体积。

硬核解决Sora的物理bug!美国四所顶尖高校联合发布:给视频生成器装个物理引擎

驱动粒子的初始位置是其所有聚类成员位置的平均值,其中驱动粒子的数量远小于三维高斯粒子的数量。


在渲染过程中,通过插值驱动粒子的位置和旋转来计算每个三维高斯粒子的位置和旋转:对于每个三维高斯粒子,首先找到它在t=0时刻的八个最近邻驱动粒子,然后拟合这些八个驱动粒子在t=0时刻和当前时间戳之间的刚体变换T,以确定粒子的当前位置和旋转。


实验结果


数据集


通过捕捉多视角图像,研究人员收集了八个真实世界的静态场景,其中每个场景包括一个物体和一个背景,物品包括五朵花(一朵红玫瑰、一朵康乃馨、一朵橙玫瑰、一朵郁金香和一朵白玫瑰)、一株海芋、一根电话线和一顶无檐帽;然后捕捉四个交互视频来说明其在交互后的自然运动,例如戳或拖,再使用真实视频作为额外的对比参考。

硬核解决Sora的物理bug!美国四所顶尖高校联合发布:给视频生成器装个物理引擎

在用户研究中,与基线方法和真实世界捕捉的视频对比后可以看到,有超过80%的参与者在两项选择实验(2AFC)中更倾向于PhysDreamer模型,认为其在运动的真实性上更胜一筹;在视觉质量方面,也有65%的参与者更偏好PhysDreamer


需要注意的是,由于比较的静态场景本身是一致的,因此视觉质量的评估也在一定程度上也依赖于生成物体的运动效果。

硬核解决Sora的物理bug!美国四所顶尖高校联合发布:给视频生成器装个物理引擎

从运动模式在不同时间点上的切片中可以观察到,PhysGaussian由于缺少对材料属性进行原理性估计,导致其生成的运动幅度过大且速度过慢,与现实不符。

而与DreamGaussian4D相比,有70%和63.5%的2AFC样本在视觉质量和运动真实性上更倾向于PhysDreamer模型,从上图中可以看到,DreamGaussian4D生成的运动是周期性的,且幅度保持在一个较小的恒定值,相比之下,PhysDreamer能够模拟出运动中的衰减效果。


参考资料:
https://twitter.com/_akhaliq/status/1782273198551097389
https://huggingface.co/papers/2404.13026

相关栏目:『科技前沿
OpenAI前首席科学家Ilya创立新公司,瞄准超越AGI的“超级人工智能”和绝对的AI安全 2024-06-21 [35]
2024年最新影响因子(完整版)已更新!2024年最新影响因子(完整版)已更新! 2024-06-21 [85]
苹果AI一夜颠覆所有!Siri史诗级进化,内挂ChatGPT-4o,奥特曼来了,马斯克怒了 2024-06-13 [102]
Transformer结合U-Net登上Nature子刊!最新成果让精度和效率都很美丽 2024-06-13 [75]
大撕裂理论:220亿年后宇宙终结,地球将在宇宙终结前几分钟毁灭 2024-06-08 [239]
我们看见暗物质了吗? 2024-06-07 [203]
如果不流浪地球,能直接住在流浪行星上吗? 2024-06-07 [189]
宇宙大爆炸并不存在?量子模型预测宇宙无始无终 2024-06-04 [304]
人类夜视力大突破?澳洲发明超薄薄膜,贴眼镜上昼夜视物两不误! 2024-06-04 [324]
生成技术在时空数据挖掘中的应用 2024-06-04 [280]
相关栏目更多文章
最新图文:
:日本政府《氢能利用进度表》 :美国《2016-2045年新兴科技趋势报告》 :天津工业大学“经纬英才”引进计划 :浙江财经大学国际青年学者论坛的邀请函 (10/31-11/1) :美国加大审查范围 北大多名美国留学生遭联邦调查局质询 :天安门广场喜迎“十一”花团锦簇的美丽景象 马亮:做院长就能够发更多论文?论文发表是不是一场“权力的游戏”? :印裔人才在美碾压华裔:我们可以从印度教育中学到什么?
更多最新图文
更多《即时通讯》>>
 
打印本文章
 
您的名字:
电子邮件:
留言内容:
注意: 留言内容不要超过4000字,否则会被截断。
未 审 核:  是
  
关于我们联系我们申请加入后台管理设为主页加入收藏
美国华裔教授专家网版权所有,谢绝拷贝。如欲选登或发表,请与美国华裔教授专家网联系。
Copyright © 2024 ScholarsUpdate.com. All Rights Reserved.