李飞飞和杨立昆,看中了这个AI新风口

时间:2026-06-29 03:00作者:

计算机科学家路易斯·卡斯特里卡托在深耕大语言模型研究的第八个年头,开始感到自己的研究仿佛走入了瓶颈。大语言模型正是驱动ChatGPT、Claude等聊天机器人的AI技术。

卡斯特里卡托表示:“我们基本上已经过了做真正大语言模型底层研究的阶段,现在只剩下应用层面的工作。”

这位研究人员放弃了在布朗大学的博士学业,创办了一家名为Overworld的新公司。公司的名字便暗藏雄心:打造不仅能读懂文字,更能理解和探索现实世界的AI。

AI聊天机器人仍然蕴藏着巨大的商业价值。投资者正是因为看好这一前景,才向Anthropic、OpenAI等头部开发商豪掷巨额资金。但越来越多AI创业者正在转换赛道,全力押注下一个前沿领域——“世界模型”。这类模型旨在让AI系统甚至机器人,学会在真实的物理环境中作出反应。

多位该领域最具影响力的科学家也投身这一浪潮,比如被誉为“AI教母”的李飞飞。她将“世界模型”描述为“当今AI领域最重要、也最容易被滥用的术语之一”。

科学家正借助“世界模型”将AI推向新维度

世界模型研究的核心理念是:如果AI只能读懂书面文字,那它还称不上真正的智能,它还必须能够“理解现实环境”。

李飞飞创办了初创公司WorldLabs,总部位于旧金山。她本月撰文指出:“大语言模型学习的是文本的统计结构,而世界模型学习的是空间与时间的统计结构:比如光线如何投射在物体表面;一个花园在从未被镜头拍下的角度会呈现何种景象;以及物体如何受力并遵循物理定律等。”

杨立昆同样是世界模型的拥趸。去年他辞去了Meta首席AI科学家的职务,在巴黎创办了AdvancedMachineIntelligenceLabs。

杨立昆近日在播客节目《UnsupervisedLearning》中表示:“世界模型正迅速成为AI领域的一个热门词汇。”在他看来,世界模型能够让AI智能体“预测自身行为可能产生的后果”。

行业对“世界模型”尚无统一定义。无论是用于机器人,还是打造互动性更强的电子游戏,研究者往往会根据自己希望借助这项技术实现的目标,赋予它不同的含义。

只靠文本训练的AI模型,无法让机器人进化

和现有的大语言模型一样,通过消化人类的海量书籍、新闻报道和视觉媒体内容进行训练,已经催生出各类AI助手,它们正在改变办公室工作和部分创意行业的本质。但一些研究者看到了生成式AI模型的局限性,它们的工作原理,无非是反复预测下一个词或像素,从而生成新的对话、图像或代码。

美国卡内基梅隆大学算机学院院长马夏尔·埃贝尔指出,“聊天机器人连一个咖啡杯都拿不起来。”

埃贝尔说:“端起咖啡杯这个动作,涉及现实世界的几何结构、手部的运动机制,以及手与杯子接触时产生的物理交互,复杂性远超预测一句话中的下一个词。”

埃贝尔从事机器人研究已有40多年。对他这样的科学家而言,世界模型最有价值的应用,是为“物理AI”开辟一条更快速、更廉价的落地捷径。“物理AI”同样是当下科技行业的热门概念。

谈及对物理AI的定义,埃贝尔表示:“不同的人可能有不同的定义,但物理AI或具身智能,可以看作是传统机器人技术的演进。”他还表示,那些让聊天机器人大放异彩的AI技术突破,也可以用来构建对环境有充分感知能力的AI,充当机器人的“大脑”。

“在你的身体和脊髓里,有一套非常通用的模型,负责如何保持平衡、如何行走。比如当早晨膝盖疼痛时,你就会换个姿势走路,无需刻意思考,”他说,“因为你的神经系统和大脑中的通用模型,能够让身体迅速适应变化。”

模拟世界正吸引更多投资者的目光

更智能的机器人并非世界模型的终极目标。卡斯特里卡托去年创办了Overworld,这家位于罗德岛的小型初创公司正在构建能够动态变化的游戏世界。例如,一片阴森的森林场景,会随着虚拟角色不断移动和与场景内物体的互动而实时变化。

“放眼现有的世界模型,都无法做到让角色直接穿门而过,或者与一个细节如此丰富的环境进行互动,”他在一次采访中说,“我们的优化核心就是交互。”

尽管世界模型的短期应用场景不像AI编程工具那样直观清晰,但该领域依然吸引了风险资本的关注,KindredVentures联合创始人兼管理合伙人史蒂夫·张就是其中之一。

KindredVentures已投资了Overworld等多家专注于世界模型的企业,包括开发天气预测AI模型的CausalLabs,以及专攻适配世界模型专用芯片的Extropic。

史蒂夫·张认为,未来会同时存在多种不同类型、不同理念和架构的模型。“我不认为最终会出现一个庞大而臃肿的单一模型包揽一切。”

在最近发表的文章中,李飞飞尝试建立一套“世界模型分类体系”,帮助厘清当前各种不同理念所造成的混淆。

她写道:“一个视频模型,能够生成绚丽却违背物理规律的火焰;一个大语言模型,能够即兴编出一个可玩的游戏;一个物理引擎,能够真实模拟燃烧过程,这三者都被冠以‘世界模型’的名号。”

她将世界模型划分为三类。目前最具商业化潜力的是“渲染器”,它们追求虚拟世界视觉效果的高度逼真,但并不足以真正训练机器人。

另外两类分别是“模拟器”和“规划器”,模拟器用于构建能够真实反映现实世界物理结构的虚拟训练环境;规划器的目标是在非结构化开放环境中推演AI智能体或机器人的下一步行动方案。

“具备规划能力的机器人,才能真正投入使用。整个行业都在争夺率先实现这一目标的机会。”李飞飞写道。(财富中文网)

·从“预测下一个词”到“预测自身行为在现实中产生的后果”,AI正在向行动智能延伸,科技企业可以重新思考,利用在物理世界中“知行合一”的AI,所在行业将迎来怎样的重构。

·尽管风险资本正加速涌入,但相比直观清晰的AI编程工具,世界模型的短期应用场景并不明确。投资者需要厘清新风口背后的“分类体系”,避免盲目追逐概念。

·从天气预测模型到适配世界模型的专用芯片,创投机构正围绕“多样化架构”展开全面布局。未来不会是单一巨型模型统治一切,而是多种架构并存。这暗示着留给科技公司的生态机会远比想象中丰富。

展开全部内容
最新文章
推荐文章
本类排行