用户名:  密码:   
网站首页即时通讯活动公告最新消息科技前沿学人动向两岸三地人在海外历届活动关于我们联系我们申请加入
栏目导航 — 美国华裔教授专家网科技动向科技前沿
关键字  范围   
 
硬核解决Sora的物理bug!美国四所顶尖高校联合发布:给视频生成器装个物理引擎
2024/5/6 11:21:55 | 浏览:479 | 评论:0

PhysDreamer利用材质点法(MPM)对物体的各个物理属性进行估计,实现了逼真的交互式响应结果,在视频生成领域向更真实的物理模拟迈出了重要一步。


Sora刚发布后没多久,火眼金睛的网友们就发现了不少bug,比如模型对物理世界知之甚少,小狗在走路的时候,两条前腿就出现了交错问题,让人非常出戏。

对于生成视频的真实感来说,物体的交互非常重要,但目前来说,合成真实3D物体在交互中的动态行为仍然非常困难。

与无条件或文本条件的动力学不同的是,以动作为条件的动力学(action-conditioned dynamics)需要感知对象的物理材料属性,并将3D运动预测建立在这些属性(例如物体刚度)的基础上。


但由于缺乏材料的真实数据,估计物理材料属性仍然是一个悬而未决的问题,因为测量真实物体的物理材料属性非常困难。


最近,来自MIT、斯坦福大学、哥伦比亚大学和康奈尔大学联合提出了一种基于物理的方法模型PhysDreamer,利用视频生成模型学习到的对象动力学先验,为静态3D对象赋予交互式动力学。


硬核解决Sora的物理bug!美国四所顶尖高校联合发布:给视频生成器装个物理引擎

论文链接:https://arxiv.org/pdf/2404.13026.pdf

项目主页:https://physdreamer.github.io/

通过提炼上述先验知识,PhysDreamer 能够合成现实物体对全新交互的响应,例如外力或智能体操作,并且通过在弹性物体的不同示例上展现了该方法的效果,利用用户研究评估了合成交互的真实性。

硬核解决Sora的物理bug!美国四所顶尖高校联合发布:给视频生成器装个物理引擎

模型架构


PhysDreamer可以估计静态3D对象的材质场,其关键想法在于生成运动中物体的可信视频,然后优化材料场E(x)以匹配合成运动。


给定一个表示为3D高斯的对象,首先从某个视点进行渲染(带背景),然后使用图像到视频生成模型来生成运动中物体的参考视频,再使用可微分材质点方法(MPM,Material Point Methods)和可微分渲染,对空间变化的材质场和初始速度场进行优化,旨在最小化渲染视频和参考视频之间的差异。

硬核解决Sora的物理bug!美国四所顶尖高校联合发布:给视频生成器装个物理引擎

1. 基础知识


3D高斯采用一组各向异性的3D高斯核来表示3D场景的辐射场,虽然其主要是作为3D新视图合成方法引入的,但由于3D高斯具有拉格朗日性质,所以能够直接适用于粒子的物理模拟器。


与PhysGaussian方法类似,研究人员使用材质点方法(MPM,Material Point Methods)直接在高斯粒子上模拟物体动力学。


由于3D高斯分布主要位于物体表面,因此可以应用可选的内部填充过程来提高模拟真实感。

硬核解决Sora的物理bug!美国四所顶尖高校联合发布:给视频生成器装个物理引擎

硬核解决Sora的物理bug!美国四所顶尖高校联合发布:给视频生成器装个物理引擎

硬核解决Sora的物理bug!美国四所顶尖高校联合发布:给视频生成器装个物理引擎

硬核解决Sora的物理bug!美国四所顶尖高校联合发布:给视频生成器装个物理引擎


具体来说,模型使用K-Means聚类算法在t=0时刻创建一组驱动粒子,其中每个驱动粒子由一组物理属性表示,包括位置、速度、形变梯度、局部速度场梯度、杨氏模量、质量、泊松比和体积。

硬核解决Sora的物理bug!美国四所顶尖高校联合发布:给视频生成器装个物理引擎

驱动粒子的初始位置是其所有聚类成员位置的平均值,其中驱动粒子的数量远小于三维高斯粒子的数量。


在渲染过程中,通过插值驱动粒子的位置和旋转来计算每个三维高斯粒子的位置和旋转:对于每个三维高斯粒子,首先找到它在t=0时刻的八个最近邻驱动粒子,然后拟合这些八个驱动粒子在t=0时刻和当前时间戳之间的刚体变换T,以确定粒子的当前位置和旋转。


实验结果


数据集


通过捕捉多视角图像,研究人员收集了八个真实世界的静态场景,其中每个场景包括一个物体和一个背景,物品包括五朵花(一朵红玫瑰、一朵康乃馨、一朵橙玫瑰、一朵郁金香和一朵白玫瑰)、一株海芋、一根电话线和一顶无檐帽;然后捕捉四个交互视频来说明其在交互后的自然运动,例如戳或拖,再使用真实视频作为额外的对比参考。

硬核解决Sora的物理bug!美国四所顶尖高校联合发布:给视频生成器装个物理引擎

在用户研究中,与基线方法和真实世界捕捉的视频对比后可以看到,有超过80%的参与者在两项选择实验(2AFC)中更倾向于PhysDreamer模型,认为其在运动的真实性上更胜一筹;在视觉质量方面,也有65%的参与者更偏好PhysDreamer


需要注意的是,由于比较的静态场景本身是一致的,因此视觉质量的评估也在一定程度上也依赖于生成物体的运动效果。

硬核解决Sora的物理bug!美国四所顶尖高校联合发布:给视频生成器装个物理引擎

从运动模式在不同时间点上的切片中可以观察到,PhysGaussian由于缺少对材料属性进行原理性估计,导致其生成的运动幅度过大且速度过慢,与现实不符。

而与DreamGaussian4D相比,有70%和63.5%的2AFC样本在视觉质量和运动真实性上更倾向于PhysDreamer模型,从上图中可以看到,DreamGaussian4D生成的运动是周期性的,且幅度保持在一个较小的恒定值,相比之下,PhysDreamer能够模拟出运动中的衰减效果。


参考资料:
https://twitter.com/_akhaliq/status/1782273198551097389
https://huggingface.co/papers/2404.13026

相关栏目:『科技前沿
工信部:未来产业六大方向聚焦人形机器人、脑机接口、量子科技等领域 2024-11-06 [288]
Gartner 公布2025年十大战略技术趋势 2024-10-31 [444]
这样图解Transformer应该没人看不懂了吧——Transformer工作原理 2024-10-16 [813]
Nature:智能体涌现出语言 2024-10-16 [789]
50个顶级ChatGPT论文指令 2024-10-10 [1003]
推荐五种简单有效的数据可视化方式 2024-10-10 [932]
这么有深度的文章是ChatGPT写的? 2024-10-10 [929]
讲透一个强大的算法模型,CNN!! 2024-10-10 [921]
人类与 AI 协同的三种模式 2024-10-10 [555]
11 种经典时间序列预测方法! 2024-10-09 [488]
相关栏目更多文章
最新图文:
:阿尔茨海默病预防与干预核心讯息图解 :引力波天文台或有助搜寻暗物质粒子 :Sail Through the Mist - SoCal Innovation Forum 2019(10/5) 游天龙:《唐人街》是如何炼成的:UCLA社会学教授周敏的学术之路 :“为什么海外华人那么爱国,但是让他回国却不愿意?...“ :学术出版巨头Elsevier 彻查433名审稿人“强迫引用”黑幕 :中国336个国家重点实验室布局 :中澳政府联合出手打击洗钱和逃税漏税 大量中国居民海外账户遭冻结
更多最新图文
更多《即时通讯》>>
 
打印本文章
 
您的名字:
电子邮件:
留言内容:
注意: 留言内容不要超过4000字,否则会被截断。
未 审 核:  是
  
关于我们联系我们申请加入后台管理设为主页加入收藏
美国华裔教授专家网版权所有,谢绝拷贝。如欲选登或发表,请与美国华裔教授专家网联系。
Copyright © 2024 ScholarsUpdate.com. All Rights Reserved.