世界模型：大语言模型的终结者，还是资本叙事的下一幕？

AI 数据通道：JSON·Markdown

一、元认知：世界模型到底在解决什么问题 #

智能的本质不是”能说会道”，而是”能想象未来”。

当你闭上眼睛想象明天的面试场景——面试官可能问什么、你如何回答、对方的表情会如何变化——你的大脑正在进行一次”世界模拟”。你不需要真的去面试，就能在脑中预演数百种可能。这种能力，认知科学家称之为心理模拟（mental simulation），而AI领域给它起了一个更宏大的名字：世界模型（World Model）。

世界模型的核心命题只有一句话：构建一个内部的环境表示，用它来预测未来状态的变化，从而在行动之前先”想清楚”。 这与大语言模型（LLM）的”预测下一个token”有着本质区别——LLM预测的是文本序列，世界模型预测的是物理世界的状态转移。

这里有一个根本矛盾需要先理解：我们所处的物理世界是连续的、高维的、因果驱动的，而语言是离散的、低维的、相关性驱动的。 LLM通过海量文本学会了”语言的统计规律”，但它从未见过一个球从桌上滚落的物理过程，也从未理解过”推”这个动作的力学含义。它能描述这个过程，但不能模拟这个过程。

这正是世界模型试图填补的空白。

二、搭积木：从概念到工程的三十五年 #

2.1 远古时代：Schmidhuber的RNN世界模型（1990） #

“世界模型”这个词并非新造。1990年，Jürgen Schmidhuber就提出了用循环神经网络（RNN）构建世界模型的设想：让网络从观测中学习环境的内部表示，然后用这个表示来预测未来状态，并基于预测来训练智能体（agent）的策略。

这个想法超前了三十年。当时的算力、数据和算法都不足以支撑它。但它种下了一颗种子：智能体不应该在真实环境中反复试错，而应该先在”脑中”模拟，再付诸行动。

2.2 复兴：Ha & Schmidhuber的World Models（2018） #

2018年，David Ha和Schmidhuber发表了论文《Recurrent World Models Facilitate Policy Evolution》。他们的智能体学会了在虚拟赛车游戏和3D迷宫中驾驶——完全通过在自生成的”梦境”中训练，而非直接与真实环境交互。

关键工程创新：用变分自编码器（VAE）将高维像素压缩为低维潜在表示，再用RNN在潜在空间中预测未来。智能体在”梦中”学会了转弯、避障、加速。

2.3 LeCun的JEPA架构（2022-2026） #

2022年6月，Yann LeCun发表了一篇92页的立场论文《A Path Towards Autonomous Machine Intelligence》。这篇论文不是在描述一个模型，而是在勾勒一条通往通用人工智能的技术路线。其核心主张：

LLM只学了文本，而世界是高维连续空间。要实现真正的智能，必须学会在嵌入空间（embedding space）中做预测，而非在像素空间或文本空间。

他提出的架构叫JEPA（Joint Embedding Predictive Architecture，联合嵌入预测架构）：

组件	功能
编码器（Encoder）	将观测（视频帧、传感器数据）压缩为嵌入向量
预测器（Predictor）	根据当前嵌入和动作，预测未来的嵌入
正则化器（Regularizer）	保持嵌入空间的良好结构

JEPA的关键洞察：预测嵌入而非预测像素。生成模型（如扩散模型）试图还原每一个像素细节，计算代价极高。JEPA只预测”重要的东西”——物体的位置、运动方向、因果关系——忽略纹理、光照等无关细节。

到2025年6月，Meta发布了V-JEPA 2，在视频理解和物理推理基准上达到了当时的SOTA（Something-Something、Epic-Kitchens-100等），并支持零样本机器人控制。2026年3月，LeWorldModel进一步实现了从原始像素的端到端稳定训练。同年，LeCun创立了AMI Labs（Advanced Machine Intelligence Labs），首轮融资10.3亿美元，估值35亿美元。

三、案例即原理：主流世界模型的技术路线 #

3.1 Meta路线：JEPA系列——嵌入空间预测派 #

核心理念：不生成像素，只预测嵌入。

V-JEPA 2的技术架构：

视觉编码器将视频帧编码为嵌入
预测器根据动作序列预测未来嵌入
训练目标：最小化嵌入空间的预测误差

工程优势：不依赖像素级重建，计算效率高；能处理不完整观测（如部分遮挡）。

工程缺陷：在IntPhys 2基准测试上，V-JEPA 2检测物理违规的能力仅略好于随机猜测（人类接近100%）。这暴露了一个根本问题：在嵌入空间中预测，可能丢失了某些关键的物理细节。

3.2 DeepMind路线：Genie系列——交互式世界生成派 #

核心理念：从视频中学习可交互的3D世界。

Genie的技术演进：

Genie（2024）：从无标注互联网视频中学习交互环境
Genie 2（2024年末）：增加了3D生成能力
Genie 3（2025年8月）：从文本/图像提示生成照片级逼真的实时交互世界，24fps实时渲染

Genie 3的突破在于通用性：它不是一个专门的物理引擎，而是一个从视频数据中学会”世界如何运作”的通用模型。2026年2月，Waymo采用Genie 3构建了自动驾驶专用世界模型，能生成同步的摄像头和激光雷达输出，模拟龙卷风、异常行人行为等罕见场景。

3.3 NVIDIA路线：Cosmos——物理AI基础模型派 #

核心理念：为物理AI（机器人、自动驾驶）构建统一的世界基础模型。

2026年6月发布的Cosmos 3：

参数规模：Nano（16B）到Super（64B）
架构：混合Transformer（MoT）——自回归Transformer做推理，扩散Transformer做多模态生成
输入输出：文本、图像、视频、音频、动作序列
定位：开源权重，面向机器人和自动驾驶的物理推理

NVIDIA的策略是基础设施思维：不做最聪明的模型，做最通用的平台。

3.4 中国路线：从追赶到并行 #

阿里 Happy Oyster（2026年4月）：实时流畅的世界模型，支持”导演模式”（文本/图像构建世界）和”漫游模式”（自由探索），可生成3分钟连续视频
李飞飞 World Labs：发布Spark 2.0，开源3D高斯渲染引擎，面向手机级设备

3.5 资本涌入：信号还是噪声？ #

公司	融资	时间	方向
AMI Labs（LeCun）	10.3亿美元（估值35亿）	2026.03	世界模型基础研究
World Labs（李飞飞）	未公开（传闻数亿美元）	2024-2025	3D空间智能
General Intuition	1.34亿美元种子轮	2025.10	用游戏视频训练空间推理

仅AMI Labs和General Intuition两个公开项目，已披露资本投入就超过11亿美元。这不是一个实验室级别的研究方向，这是一个产业级别的赌注。

四、缺陷与批判：世界模型为什么还不是答案 #

4.1 物理理解的鸿沟 #

IntPhys 2基准测试揭示了一个令人不安的事实：当前最先进的世界模型（V-JEPA 2）在检测物理违规方面接近随机猜测。一个球穿过固体墙壁、一个物体悬浮在空中——这些人类婴儿都能感知的”不合理”，世界模型却视而不见。

这说明什么？当前的世界模型可能只是学会了”视频的统计规律”，而非”物理世界的因果规律”。 它知道球通常会往下落，但不知道为什么——因为它没有理解重力、质量、碰撞等物理概念。它学到的是相关性，不是因果性。

4.2 计算代价的现实 #

生成式世界模型（如Genie 3）需要实时渲染24fps的3D场景。这需要的算力远超文本生成。NVIDIA Cosmos 3 Super有64B参数，推理成本惊人。世界模型要真正部署到机器人和自动驾驶上，必须在边缘设备上实时运行——这在当前硬件条件下仍然极具挑战。

4.3 评估标准的缺失 #

LLM有标准化的基准（MMLU、HumanEval、MATH等）。世界模型呢？IntPhys 2、MVPBench、Something-Something、Epic-Kitchens-100——这些测试各自为政，没有统一的”世界模型智商测试”。DeepMind的交互评估、Waymo的生成质量指标也都是私有的。

没有标准，就无法比较；无法比较，就无法判断谁在真正进步，谁在讲故事。

4.4 从”能看”到”能做”的鸿沟 #

世界模型在视频生成上已经令人印象深刻。但从”生成逼真视频”到”让机器人在真实世界中可靠操作”，中间隔着一个巨大的工程鸿沟：

能生成一段”机器人抓杯子”的视频 ≠ 能让真实机器人成功抓起一个杯子。

sim-to-real gap（仿真到现实的差距）是机器人学的老问题。世界模型能缩小这个差距，但不能消除它。

五、回到根本：世界模型与LLM，谁颠覆谁 #

5.1 LeCun的”LLM末日论” #

LeCun在2025年接受Newsweek采访时直言：

LLMs are nearing the end. Because they are trained only on text, they have no ability to predict anything beyond text, such as real-world events.

他的论证链条：

LLM只在文本上训练
文本是低维离散的，物理世界是高维连续的
因此LLM无法理解物理世界
世界模型在传感器数据（视频、激光雷达等）上训练
因此世界模型能理解物理世界
所以世界模型将取代LLM

这个论证有一个关键漏洞：前提4和5之间的跳跃。 在传感器数据上训练 ≠ 理解物理世界。IntPhys 2的测试结果已经证明了这一点。V-JEPA 2在大量视频上训练后，仍然无法可靠地检测物理违规。

5.2 另一种可能：共生而非颠覆 #

更现实的图景可能是混合系统：

层次	负责者	例子
语言理解与规划	LLM	理解指令”去厨房拿一杯水”
物理推理与模拟	世界模型	预测杯子的重量、水的晃动、行走路径
低级控制	强化学习策略	控制电机力矩、保持平衡

LLM擅长抽象推理和语言理解，世界模型擅长物理模拟和空间推理，强化学习策略擅长精细控制。三者各司其职，而非互相替代。

5.3 “GPT时刻”会来吗 #

要回答这个问题，先拆解GPT时刻的本质：GPT-3/ChatGPT的突破不在于某个单独的技术（Transformer、自回归训练都不是新东西），而在于规模效应（scaling law）的突然显现——当模型参数和数据量跨过某个临界点，涌现出了远超预期的能力。

世界模型的”GPT时刻”需要满足三个条件：

统一的架构：目前JEPA、扩散模型、自回归模型各走各路，没有一个架构像Transformer统治NLP那样统治世界建模
规模效应的验证：需要证明”模型越大、数据越多，物理理解能力就越好”——目前没有这样的证据
杀手级应用：ChatGPT让普通人第一次感受到AI的力量。世界模型的”ChatGPT时刻”可能是一个能实时生成可交互3D世界的消费级产品

当前状态：三个条件都不满足。 但这不代表永远不会满足。LeCun创立AMI Labs拿了10.3亿美元，NVIDIA开源了Cosmos 3，DeepMind的Genie 3已经能实时生成交互世界——这些投入正在加速条件的成熟。

5.4 资本叙事 vs 真实研究 #

诚实地说：两者兼有。

真实研究的部分：

JEPA架构有扎实的理论基础（嵌入空间预测比像素生成更高效）
自动驾驶领域已有真实需求（Waymo使用Genie 3）
机器人学的sim-to-real transfer是被验证过的有效方法

资本叙事的部分：

已披露的融资规模（仅AMI Labs和General Intuition就超11亿美元）远超当前技术成熟度
“世界模型取代LLM”的叙事恰好迎合了投资者寻找”下一个风口”的心理
许多公司的demo效果远超实际产品能力
LeCun既是顶级研究者，也是AMI Labs的创始人——他有动机夸大世界模型的前景

总结：世界模型是什么 #

世界模型不是骗局，但它也不是答案——至少现在不是。

它是AI从”语言的统计学”走向”物理的因果推理”的必要路径。任何一个想要在真实世界中行动的智能体——无论是机器人、自动驾驶汽车，还是具身智能——都需要某种形式的世界模型。这个需求是真实的，不可替代的。

但当前的技术离”理解物理世界”还很远。V-JEPA 2检测物理违规接近随机猜测，Genie 3生成的世界虽然好看但不可控，NVIDIA Cosmos 3的推理成本仍然高不可攀。世界模型目前更像一个”视频生成器”，而非”物理推理引擎”。

GPT时刻不会在2026年到来，但资本已经提前入场。这既是信心的表现，也是泡沫的前兆。最终的赢家，不会是喊口号最响的公司，而是在三个关键问题上取得突破的团队：

如何让模型真正理解因果关系，而非统计相关性？
如何在边缘设备上实时运行世界模型？
如何建立统一的评估标准，让”世界模型能力”可以被量化和比较？

这三个问题的答案，将决定世界模型是成为AI的下一个基石，还是成为资本叙事的又一个注脚。