过去两年,大语言模型(LLM)几乎定义了整个 AI 行业的想象力边界。但在语言模型高速进化的同时,另一条更“慢”、却可能更根本的路线,正在被重新推到台前。
这条路线的代表人物之一,就是 李飞飞(Fei-Fei Li)。
她反复强调一个观点:
真正的智能,不只是会“说”和“想”,而是要能在真实世界中理解、预测和行动。
这正是她提出并持续推动的——世界模型(World Model)/ 空间智能(Spatial Intelligence)。
一、李飞飞的世界模型是什么?
简单说,李飞飞的世界模型不是某一个具体模型名字,而是一整套 AI 建模范式的转变。
它关注的不是:
- “这张图里有什么?”
- “这句话什么意思?”
而是:
- 这个世界是什么结构?
- 它如何随时间变化?
- 我在其中行动,会发生什么?
核心定义一句话版:世界模型,是在模型内部构建一个可被感知、推理、预测和交互的三维世界。
这个“世界”具备几个关键特征:
- 是 三维的(3D)
- 是 连续的(随时间演化)
- 是 物理一致的
- 是 可被行动影响的
视觉、语言、动作,并不是终点,而只是进入和读取这个世界的不同接口。
二、李飞飞的世界模型和大语言模型的主要是什么?
如果只用一句话区分两者:
大语言模型学习的是“世界如何被描述”,而世界模型学习的是“世界如何运作”。
更直观一点的对比
| 维度 | 大语言模型(LLM) | 李飞飞的世界模型 |
| 核心建模对象 | 文本与符号 | 真实/虚拟世界本身 |
| 内部是否有“世界” | ❌ 没有 | ✅ 有 |
| 时间与因果 | 统计相关 | 连续演化 |
| 空间结构 | 隐式 | 显式或半显式 |
| 是否可执行 | 不可 | 可模拟、可行动 |
LLM 非常擅长总结人类已有知识,但它的“世界”是写在书里的世界。
而世界模型关心的是:即使没有人写下来,我也要知道世界会怎么变。
三、李飞飞的世界模型主要有哪些技术路线?
从当前研究与产业实践来看,世界模型并不是单一技术,而是多条路线并行演进。
1️⃣ 神经隐式 3D 表示(NeRF / Neural Fields)
- 用神经网络表示连续三维空间
- 能从多视角图像重建完整场景
- 是“从视觉走向世界”的重要基础
👉 优点:几何表达强👉 局限:物理与因果较弱
2️⃣ 视频驱动的世界建模(Video World Models)
- 从长视频中学习世界状态与变化规律
- 把“视频”当作时间序列世界观测
👉 优点:时间连续性好👉 局限:可控性与交互性有限
3️⃣ 生成式世界模型(Generative World Models)
- 不只是重建世界,而是生成可交互世界
- 能“想象”未发生的状态
👉 优点:通向仿真、游戏、机器人👉 局限:训练与评估成本极高
4️⃣ 世界模型 + 行动闭环(Action-conditioned Models)
- 世界状态 + 行动 → 下一个世界状态
- 是机器人与自动驾驶的核心路径
👉 优点:真正可执行👉 局限:真实数据昂贵、风险高
四、李飞飞的世界模型当前成熟度如何?
一个现实判断是:
世界模型仍处在“前期工程化 + 中期科研”的阶段。
当前状态可以概括为:
- 感知层(视觉 → 3D):相对成熟
- 预测层(时间 / 因果):部分突破
- 通用行动层(像人一样行动):尚未成熟
它远没有 LLM 那样:
- 可快速 scale
- 可通用部署
- 可直接商业爆发
但它的难度和上限,也远高于语言模型。
五、李飞飞的世界模型主要应用场景是哪些?
世界模型不是“通用对话 AI”,而是通用行动智能的基础设施。
最典型的应用场景包括:
🚗 自动驾驶
- 世界理解、轨迹预测、极端场景模拟
🤖 机器人
- 家庭机器人、工业机器人、具身智能
🕶️ XR / 数字孪生
- 可交互的真实世界映射
🎮 游戏与虚拟世界
- 自动生成、可持续演化的世界
🏭 工业仿真
- 工厂、能源、城市级模拟与优化
一句话总结:凡是“需要在空间中行动”的场景,都离不开世界模型。
六、总结:李飞飞世界模型的未来
如果用一句稍微“有野心”的话来总结:
大语言模型定义了“AI 如何思考”,而世界模型将定义“AI 如何存在”。
李飞飞反复强调的一点是:
- 语言是人类智能的高层接口
- 空间与行动,才是智能的地基
未来很可能不是:
- LLM 取代世界模型而是:
- 世界模型作为底座
- LLM 作为认知与沟通层
真正的下一代 AI,不只是“能聊天”,而是能在世界里理解、预测、行动、并承担后果。而这,正是世界模型真正的价值所在。
文章来自:51CTO
