李飞飞：人类具备空间智能；真正的下一个前沿、难以攻克的挑战，是将AI带入三维世界 - 科技前沿 - 科技动向

李飞飞：人类具备空间智能；真正的下一个前沿、难以攻克的挑战，是将AI带入三维世界

2024/10/8 19:38:30 ｜浏览：1366 ｜评论：0

李飞飞：人类具备空间智能；真正的下一个前沿、难以攻克的挑战，是将AI带入三维世界

Z Highlights
AI“教母”李飞飞为一家名为World Labs的AI初创公司筹集了2.3亿美元，该公司将于周五正式启动。World Labs旨在开发能够利用图像和其他数据对三维世界进行决策的软件，打造所谓的“世界大模型”。这笔融资表明，投资者对推动人工智能边界的技术依然充满兴趣，同时也显示了该领域顶尖人物的吸引力。
李飞飞博士指出，空间智能是她继ImageNet之后的下一个“北极星问题”。通过理解和处理三维世界的能力，空间智能将对人工智能的发展方向产生深远影响。这一领域不仅是计算机视觉研究的延续，也是推动人工智能进一步发展的关键。
李飞飞强调，人工智能领域的许多开创性工作最初都来自公共部门，而私营部门在提供计算资源和支持方面也扮演着重要角色。她呼吁政府继续投资于公共部门，支持学术界进行基础科学研究，以确保整个AI生态系统的平衡与发展。
Caroline：您作为一名学者，如今进入私营领域并筹集资金的经历是怎样的？您之前也有过私营领域的经验，但这次筹集资金感觉如何？从这份星光熠熠的投资者名单上融资是否容易？
李飞飞：早上好，Caroline。非常高兴能来到这里。其实，没有什么事情是容易的，但真正难的是实现空间智能。我很兴奋能够汇聚一批优秀的像素AI人才，共同攻克我们现在称为空间智能的这一极具挑战的问题。

Caroline：请向我们解释一下您所说的空间智能是什么，具体是在构建什么？

李飞飞：人类具备空间智能能力。这实际上是一项非常古老的能力，是我们经过数百万年的进化所具备的。这种能力让我们能够理解、推理、生成三维世界，甚至与其进行互动。无论是欣赏一朵美丽的花朵，还是试图触摸一只蝴蝶，亦或是建造一座城市，所有这些都是空间智能能力的一部分。

Caroline：根据您的描述，我们在人类和动物身上都看到了这种能力，那么您认为我们会在计算机上看到这样的能力吗？

李飞飞：这正是我们正在攻克的问题。我们已经开始取得巨大的进展。过去十年的人工智能发展非常振奋人心，大家最近都听说了很多关于语言方面的进展。但实际上，在像素、视觉和空间智能领域，我们也在不断取得进展，比如理解图像中的内容、讲述图像中的故事，甚至能够通过一句话提示生成相应的图像。但真正的下一个前沿，极其难以攻克的挑战，是将这些AI技术带入三维世界。因为现实世界是三维的，而人类的空间智能正是建立在对三维世界的原生理解和操作能力之上的。

Caroline：那么这项与3D相关的技术将会如何应用到现实场景中？是用于机器人技术，制造业，还是当我们戴上AI功能眼镜时帮助我们与现实世界互动？

李飞飞：Caroline，你的理解都不太准确。空间智能是一项非常基础的技术，也是对计算机来说非常核心的能力，具有广泛的应用场景。首先，它对于创作者有着深远的影响。创作者不仅包括艺术家和特效创作者，还包括设计师、开发者和建设者。当然，从长远来看，机器人技术、制造业、AR和VR等领域也会受益。苹果将他们的Vision Pro称为 “空间计算” 不是没有理由的。但在我看来，空间计算需要空间智能，很多其他应用场景也是如此。

李飞飞：人类具备空间智能；真正的下一个前沿、难以攻克的挑战，是将AI带入三维世界
图片来源：Bloomberg

Caroline：为什么空间计算需要风险投资这些私营部门的行动？在学术界不能实现什么？

李飞飞：这其实是一个完整的生态系统。我们在人工智能领域已经看到了这一点，并且已经持续多年了。这种模式可以追溯到我们社会、国家正在建设的任何技术。这个生态系统需要上游的基础性、好奇心驱动的研究——这也是我多年来投入的领域，但它同样需要在行业内的强大推动力。我们有大型科技公司在解决相关问题，但我们生态系统中最美妙的部分是那些拥有远大梦想的初创公司，它们能够吸引那些相信能够攻克这一艰难问题的支持者。我们汇聚在一起，将所有精力专注于解决这个真正复杂的问题，并将其规模化、量产化，最终交付到用户和客户手中。

Rachel Metz（彭博社AI记者）：李博士，您最为人熟知的成就之一是ImageNet，一个包含数百万张图像的大型数据库，它极大推动了物体识别和图像领域的发展。我很好奇，您在ImageNet上的工作是如何影响您创办World Labs的决策的？您如何看待这两者之间的联系？

李飞飞：谢谢你的提问。我认为至少有两点关联。首先，ImageNet是计算机视觉领域较早的工作之一，属于像素空间。当然，那是在十多年前，ImageNet和相关算法的应用还局限在二维空间，主要是识别照片中的物体，最终讲述图片中的故事。但现在，这是早期计算机视觉研究的一个智力延续。我们正进入下一个真正困难的篇章，也就是空间智能。所以从学术角度来说，我认为这是我一生研究的延续。

如果放大来看，15年前的ImageNet，是我对一个巨大“北极星问题”的智力押注，而这个问题确实改变了人工智能的进程。我相信，空间智能是我和我的团队的下一个“北极星问题”，它同样会改变人工智能的发展方向。

Rachel：我想了解一下贵公司融资的情况，尤其是有许多人工智能领域的大人物参与了投资。我们看到有Jeff Dean、Jeffrey Hinton、Andrej Karpathy等，其中有些是您之前的合作伙伴。我知道你们有几位是在谷歌时的同事。您是如何向他们推介这个项目的？

李飞飞：这就是我们领域的魅力所在。首先，这些人和我们是多年的朋友、同事，或者是我以前的学生。我认为他们和我有相同的信念，他们也认为这是一个巨大的挑战。当他们听到我的联合创始人Ben Mildenhall、Christoph Laster、Justin Johnson以及整个创始团队的想法时，他们意识到，虽然这个问题很难，但需要真正有能力和信念去解决它的人。我想这就是他们支持我们的原因。

Caroline：您还获得了知名风投的投资，比如Andreessen Horowitz。我更感兴趣的是，您一直呼吁将资金用于学术界。您甚至向拜登总统提出，研发领域需要更多公共部门和私营部门的资金支持，这样大学才能获得GPU和计算资源。您是否仍然认为公共部门需要资金，还是已经放弃并转向私营领域了？

李飞飞：事实上，我现在更加坚信公共部门的重要性。我正同时在私营和公共领域中穿梭，看到了在私营领域获得的计算资源和支持，我认为如果没有公共部门的支持，我们在私营领域是无法走到今天这一步的。你知道，ImageNet、卷积神经网络、反向传播算法、Transformer模型等许多人工智能领域的开创性工作，最初都是来自公共部门。所以，我认为这个生态系统至关重要，任何部分的缺失或不平衡都会对整个生态系统造成伤害。现在，我亲身体验到我们所拥有的资源，更让我相信我们的国家需要更多地投资于公共部门，特别是在学术界，秉持“登月”般的远大目标，支持学生、教授和科研人员进行基础科学研究。

相关栏目：『科技前沿』

JNS 2026年高峰會議精彩摘要（二）【以色列的高科技时代】	2026-07-13	[19]
黄仁勋说，2—3年内90%的新知识可能由AI生成：真正可怕的不是AI会写，而是人不会判断	2026-06-20	[748]
独家对话：AI正改变数学研究，一名中国本科生站在前沿	2026-06-20	[637]
一个月烧掉5亿美元Token，多家美国科技巨头紧急叫停	2026-06-17	[723]
2026年企业AI发展趋势研究报告：五大拐点信号表明，规模化落地的窗口已经打开	2026-05-28	[1622]
深度解读Anthropic创始人提出的人类第0世界	2026-05-28	[1428]
Globant：2026年技术趋势报告	2026-05-28	[1324]
两台车，改变了一个时代	2026-05-28	[1356]
AI不是思维的替代品，而是思辨能力的放大器	2026-05-05	[2137]
刚刚，美国AI霸主换了！Anthropic年收300亿，碾压OpenAI	2026-05-05	[2091]