李飞飞和杨立昆，看中了这个AI新风口

时间：2026-06-29 03:00作者：

计算机科学家路易斯·卡斯特里卡托在深耕大语言模型研究的第八个年头，开始感到自己的研究仿佛走入了瓶颈。大语言模型正是驱动ChatGPT、Claude等聊天机器人的AI技术。

卡斯特里卡托表示：“我们基本上已经过了做真正大语言模型底层研究的阶段，现在只剩下应用层面的工作。”

这位研究人员放弃了在布朗大学的博士学业，创办了一家名为Overworld的新公司。公司的名字便暗藏雄心：打造不仅能读懂文字，更能理解和探索现实世界的AI。

AI聊天机器人仍然蕴藏着巨大的商业价值。投资者正是因为看好这一前景，才向Anthropic、OpenAI等头部开发商豪掷巨额资金。但越来越多AI创业者正在转换赛道，全力押注下一个前沿领域——“世界模型”。这类模型旨在让AI系统甚至机器人，学会在真实的物理环境中作出反应。

多位该领域最具影响力的科学家也投身这一浪潮，比如被誉为“AI教母”的李飞飞。她将“世界模型”描述为“当今AI领域最重要、也最容易被滥用的术语之一”。

科学家正借助“世界模型”将AI推向新维度

世界模型研究的核心理念是：如果AI只能读懂书面文字，那它还称不上真正的智能，它还必须能够“理解现实环境”。

李飞飞创办了初创公司WorldLabs，总部位于旧金山。她本月撰文指出：“大语言模型学习的是文本的统计结构，而世界模型学习的是空间与时间的统计结构：比如光线如何投射在物体表面；一个花园在从未被镜头拍下的角度会呈现何种景象；以及物体如何受力并遵循物理定律等。”

杨立昆同样是世界模型的拥趸。去年他辞去了Meta首席AI科学家的职务，在巴黎创办了AdvancedMachineIntelligenceLabs。

杨立昆近日在播客节目《UnsupervisedLearning》中表示：“世界模型正迅速成为AI领域的一个热门词汇。”在他看来，世界模型能够让AI智能体“预测自身行为可能产生的后果”。

行业对“世界模型”尚无统一定义。无论是用于机器人，还是打造互动性更强的电子游戏，研究者往往会根据自己希望借助这项技术实现的目标，赋予它不同的含义。

只靠文本训练的AI模型，无法让机器人进化

和现有的大语言模型一样，通过消化人类的海量书籍、新闻报道和视觉媒体内容进行训练，已经催生出各类AI助手，它们正在改变办公室工作和部分创意行业的本质。但一些研究者看到了生成式AI模型的局限性，它们的工作原理，无非是反复预测下一个词或像素，从而生成新的对话、图像或代码。

美国卡内基梅隆大学算机学院院长马夏尔·埃贝尔指出，“聊天机器人连一个咖啡杯都拿不起来。”

埃贝尔说：“端起咖啡杯这个动作，涉及现实世界的几何结构、手部的运动机制，以及手与杯子接触时产生的物理交互，复杂性远超预测一句话中的下一个词。”

埃贝尔从事机器人研究已有40多年。对他这样的科学家而言，世界模型最有价值的应用，是为“物理AI”开辟一条更快速、更廉价的落地捷径。“物理AI”同样是当下科技行业的热门概念。

谈及对物理AI的定义，埃贝尔表示：“不同的人可能有不同的定义，但物理AI或具身智能，可以看作是传统机器人技术的演进。”他还表示，那些让聊天机器人大放异彩的AI技术突破，也可以用来构建对环境有充分感知能力的AI，充当机器人的“大脑”。

“在你的身体和脊髓里，有一套非常通用的模型，负责如何保持平衡、如何行走。比如当早晨膝盖疼痛时，你就会换个姿势走路，无需刻意思考，”他说，“因为你的神经系统和大脑中的通用模型，能够让身体迅速适应变化。”

模拟世界正吸引更多投资者的目光

更智能的机器人并非世界模型的终极目标。卡斯特里卡托去年创办了Overworld，这家位于罗德岛的小型初创公司正在构建能够动态变化的游戏世界。例如，一片阴森的森林场景，会随着虚拟角色不断移动和与场景内物体的互动而实时变化。

“放眼现有的世界模型，都无法做到让角色直接穿门而过，或者与一个细节如此丰富的环境进行互动，”他在一次采访中说，“我们的优化核心就是交互。”

尽管世界模型的短期应用场景不像AI编程工具那样直观清晰，但该领域依然吸引了风险资本的关注，KindredVentures联合创始人兼管理合伙人史蒂夫·张就是其中之一。

KindredVentures已投资了Overworld等多家专注于世界模型的企业，包括开发天气预测AI模型的CausalLabs，以及专攻适配世界模型专用芯片的Extropic。

史蒂夫·张认为，未来会同时存在多种不同类型、不同理念和架构的模型。“我不认为最终会出现一个庞大而臃肿的单一模型包揽一切。”

在最近发表的文章中，李飞飞尝试建立一套“世界模型分类体系”，帮助厘清当前各种不同理念所造成的混淆。

她写道：“一个视频模型，能够生成绚丽却违背物理规律的火焰；一个大语言模型，能够即兴编出一个可玩的游戏；一个物理引擎，能够真实模拟燃烧过程，这三者都被冠以‘世界模型’的名号。”

她将世界模型划分为三类。目前最具商业化潜力的是“渲染器”，它们追求虚拟世界视觉效果的高度逼真，但并不足以真正训练机器人。

另外两类分别是“模拟器”和“规划器”，模拟器用于构建能够真实反映现实世界物理结构的虚拟训练环境；规划器的目标是在非结构化开放环境中推演AI智能体或机器人的下一步行动方案。

“具备规划能力的机器人，才能真正投入使用。整个行业都在争夺率先实现这一目标的机会。”李飞飞写道。（财富中文网）

·从“预测下一个词”到“预测自身行为在现实中产生的后果”，AI正在向行动智能延伸，科技企业可以重新思考，利用在物理世界中“知行合一”的AI，所在行业将迎来怎样的重构。

·尽管风险资本正加速涌入，但相比直观清晰的AI编程工具，世界模型的短期应用场景并不明确。投资者需要厘清新风口背后的“分类体系”，避免盲目追逐概念。

·从天气预测模型到适配世界模型的专用芯片，创投机构正围绕“多样化架构”展开全面布局。未来不会是单一巨型模型统治一切，而是多种架构并存。这暗示着留给科技公司的生态机会远比想象中丰富。

展开全部内容