AI 数据通道:JSON·Markdown

一、元认知:世界模型到底在解决什么问题 #

智能的本质不是”能说会道”,而是”能想象未来”。

当你闭上眼睛想象明天的面试场景——面试官可能问什么、你如何回答、对方的表情会如何变化——你的大脑正在进行一次”世界模拟”。你不需要真的去面试,就能在脑中预演数百种可能。这种能力,认知科学家称之为心理模拟(mental simulation),而AI领域给它起了一个更宏大的名字:世界模型(World Model)。

世界模型的核心命题只有一句话:构建一个内部的环境表示,用它来预测未来状态的变化,从而在行动之前先”想清楚”。 这与大语言模型(LLM)的”预测下一个token”有着本质区别——LLM预测的是文本序列,世界模型预测的是物理世界的状态转移

这里有一个根本矛盾需要先理解:我们所处的物理世界是连续的、高维的、因果驱动的,而语言是离散的、低维的、相关性驱动的。 LLM通过海量文本学会了”语言的统计规律”,但它从未见过一个球从桌上滚落的物理过程,也从未理解过”推”这个动作的力学含义。它能描述这个过程,但不能模拟这个过程。

这正是世界模型试图填补的空白。


二、搭积木:从概念到工程的三十五年 #

2.1 远古时代:Schmidhuber的RNN世界模型(1990) #

“世界模型”这个词并非新造。1990年,Jürgen Schmidhuber就提出了用循环神经网络(RNN)构建世界模型的设想:让网络从观测中学习环境的内部表示,然后用这个表示来预测未来状态,并基于预测来训练智能体(agent)的策略。

这个想法超前了三十年。当时的算力、数据和算法都不足以支撑它。但它种下了一颗种子:智能体不应该在真实环境中反复试错,而应该先在”脑中”模拟,再付诸行动。

2.2 复兴:Ha & Schmidhuber的World Models(2018) #

2018年,David Ha和Schmidhuber发表了论文《Recurrent World Models Facilitate Policy Evolution》。他们的智能体学会了在虚拟赛车游戏和3D迷宫中驾驶——完全通过在自生成的”梦境”中训练,而非直接与真实环境交互。

关键工程创新:用变分自编码器(VAE)将高维像素压缩为低维潜在表示,再用RNN在潜在空间中预测未来。智能体在”梦中”学会了转弯、避障、加速。

2.3 LeCun的JEPA架构(2022-2026) #

2022年6月,Yann LeCun发表了一篇92页的立场论文《A Path Towards Autonomous Machine Intelligence》。这篇论文不是在描述一个模型,而是在勾勒一条通往通用人工智能的技术路线。其核心主张:

LLM只学了文本,而世界是高维连续空间。要实现真正的智能,必须学会在嵌入空间(embedding space)中做预测,而非在像素空间或文本空间。

他提出的架构叫JEPA(Joint Embedding Predictive Architecture,联合嵌入预测架构):

组件功能
编码器(Encoder)将观测(视频帧、传感器数据)压缩为嵌入向量
预测器(Predictor)根据当前嵌入和动作,预测未来的嵌入
正则化器(Regularizer)保持嵌入空间的良好结构

JEPA的关键洞察:预测嵌入而非预测像素。生成模型(如扩散模型)试图还原每一个像素细节,计算代价极高。JEPA只预测”重要的东西”——物体的位置、运动方向、因果关系——忽略纹理、光照等无关细节。

到2025年6月,Meta发布了V-JEPA 2,在视频理解和物理推理基准上达到了当时的SOTA(Something-Something、Epic-Kitchens-100等),并支持零样本机器人控制。2026年3月,LeWorldModel进一步实现了从原始像素的端到端稳定训练。同年,LeCun创立了AMI Labs(Advanced Machine Intelligence Labs),首轮融资10.3亿美元,估值35亿美元。


三、案例即原理:主流世界模型的技术路线 #

3.1 Meta路线:JEPA系列——嵌入空间预测派 #

核心理念:不生成像素,只预测嵌入。

V-JEPA 2的技术架构:

  • 视觉编码器将视频帧编码为嵌入
  • 预测器根据动作序列预测未来嵌入
  • 训练目标:最小化嵌入空间的预测误差

工程优势:不依赖像素级重建,计算效率高;能处理不完整观测(如部分遮挡)。

工程缺陷:在IntPhys 2基准测试上,V-JEPA 2检测物理违规的能力仅略好于随机猜测(人类接近100%)。这暴露了一个根本问题:在嵌入空间中预测,可能丢失了某些关键的物理细节。

3.2 DeepMind路线:Genie系列——交互式世界生成派 #

核心理念:从视频中学习可交互的3D世界。

Genie的技术演进:

  • Genie(2024):从无标注互联网视频中学习交互环境
  • Genie 2(2024年末):增加了3D生成能力
  • Genie 3(2025年8月):从文本/图像提示生成照片级逼真的实时交互世界,24fps实时渲染

Genie 3的突破在于通用性:它不是一个专门的物理引擎,而是一个从视频数据中学会”世界如何运作”的通用模型。2026年2月,Waymo采用Genie 3构建了自动驾驶专用世界模型,能生成同步的摄像头和激光雷达输出,模拟龙卷风、异常行人行为等罕见场景。

3.3 NVIDIA路线:Cosmos——物理AI基础模型派 #

核心理念:为物理AI(机器人、自动驾驶)构建统一的世界基础模型。

2026年6月发布的Cosmos 3:

  • 参数规模:Nano(16B)到Super(64B)
  • 架构:混合Transformer(MoT)——自回归Transformer做推理,扩散Transformer做多模态生成
  • 输入输出:文本、图像、视频、音频、动作序列
  • 定位:开源权重,面向机器人和自动驾驶的物理推理

NVIDIA的策略是基础设施思维:不做最聪明的模型,做最通用的平台。

3.4 中国路线:从追赶到并行 #

  • 阿里 Happy Oyster(2026年4月):实时流畅的世界模型,支持”导演模式”(文本/图像构建世界)和”漫游模式”(自由探索),可生成3分钟连续视频
  • 李飞飞 World Labs:发布Spark 2.0,开源3D高斯渲染引擎,面向手机级设备

3.5 资本涌入:信号还是噪声? #

公司融资时间方向
AMI Labs(LeCun)10.3亿美元(估值35亿)2026.03世界模型基础研究
World Labs(李飞飞)未公开(传闻数亿美元)2024-20253D空间智能
General Intuition1.34亿美元种子轮2025.10用游戏视频训练空间推理

仅AMI Labs和General Intuition两个公开项目,已披露资本投入就超过11亿美元。这不是一个实验室级别的研究方向,这是一个产业级别的赌注


四、缺陷与批判:世界模型为什么还不是答案 #

4.1 物理理解的鸿沟 #

IntPhys 2基准测试揭示了一个令人不安的事实:当前最先进的世界模型(V-JEPA 2)在检测物理违规方面接近随机猜测。一个球穿过固体墙壁、一个物体悬浮在空中——这些人类婴儿都能感知的”不合理”,世界模型却视而不见。

这说明什么?当前的世界模型可能只是学会了”视频的统计规律”,而非”物理世界的因果规律”。 它知道球通常会往下落,但不知道为什么——因为它没有理解重力、质量、碰撞等物理概念。它学到的是相关性,不是因果性。

4.2 计算代价的现实 #

生成式世界模型(如Genie 3)需要实时渲染24fps的3D场景。这需要的算力远超文本生成。NVIDIA Cosmos 3 Super有64B参数,推理成本惊人。世界模型要真正部署到机器人和自动驾驶上,必须在边缘设备上实时运行——这在当前硬件条件下仍然极具挑战。

4.3 评估标准的缺失 #

LLM有标准化的基准(MMLU、HumanEval、MATH等)。世界模型呢?IntPhys 2、MVPBench、Something-Something、Epic-Kitchens-100——这些测试各自为政,没有统一的”世界模型智商测试”。DeepMind的交互评估、Waymo的生成质量指标也都是私有的。

没有标准,就无法比较;无法比较,就无法判断谁在真正进步,谁在讲故事。

4.4 从”能看”到”能做”的鸿沟 #

世界模型在视频生成上已经令人印象深刻。但从”生成逼真视频”到”让机器人在真实世界中可靠操作”,中间隔着一个巨大的工程鸿沟:

能生成一段”机器人抓杯子”的视频 ≠ 能让真实机器人成功抓起一个杯子。

sim-to-real gap(仿真到现实的差距)是机器人学的老问题。世界模型能缩小这个差距,但不能消除它。


五、回到根本:世界模型与LLM,谁颠覆谁 #

5.1 LeCun的”LLM末日论” #

LeCun在2025年接受Newsweek采访时直言:

LLMs are nearing the end. Because they are trained only on text, they have no ability to predict anything beyond text, such as real-world events.

他的论证链条:

  1. LLM只在文本上训练
  2. 文本是低维离散的,物理世界是高维连续的
  3. 因此LLM无法理解物理世界
  4. 世界模型在传感器数据(视频、激光雷达等)上训练
  5. 因此世界模型能理解物理世界
  6. 所以世界模型将取代LLM

这个论证有一个关键漏洞:前提4和5之间的跳跃。 在传感器数据上训练 ≠ 理解物理世界。IntPhys 2的测试结果已经证明了这一点。V-JEPA 2在大量视频上训练后,仍然无法可靠地检测物理违规。

5.2 另一种可能:共生而非颠覆 #

更现实的图景可能是混合系统

层次负责者例子
语言理解与规划LLM理解指令”去厨房拿一杯水”
物理推理与模拟世界模型预测杯子的重量、水的晃动、行走路径
低级控制强化学习策略控制电机力矩、保持平衡

LLM擅长抽象推理和语言理解,世界模型擅长物理模拟和空间推理,强化学习策略擅长精细控制。三者各司其职,而非互相替代。

5.3 “GPT时刻”会来吗 #

要回答这个问题,先拆解GPT时刻的本质:GPT-3/ChatGPT的突破不在于某个单独的技术(Transformer、自回归训练都不是新东西),而在于规模效应(scaling law)的突然显现——当模型参数和数据量跨过某个临界点,涌现出了远超预期的能力。

世界模型的”GPT时刻”需要满足三个条件:

  1. 统一的架构:目前JEPA、扩散模型、自回归模型各走各路,没有一个架构像Transformer统治NLP那样统治世界建模
  2. 规模效应的验证:需要证明”模型越大、数据越多,物理理解能力就越好”——目前没有这样的证据
  3. 杀手级应用:ChatGPT让普通人第一次感受到AI的力量。世界模型的”ChatGPT时刻”可能是一个能实时生成可交互3D世界的消费级产品

当前状态:三个条件都不满足。 但这不代表永远不会满足。LeCun创立AMI Labs拿了10.3亿美元,NVIDIA开源了Cosmos 3,DeepMind的Genie 3已经能实时生成交互世界——这些投入正在加速条件的成熟。

5.4 资本叙事 vs 真实研究 #

诚实地说:两者兼有。

真实研究的部分:

  • JEPA架构有扎实的理论基础(嵌入空间预测比像素生成更高效)
  • 自动驾驶领域已有真实需求(Waymo使用Genie 3)
  • 机器人学的sim-to-real transfer是被验证过的有效方法

资本叙事的部分:

  • 已披露的融资规模(仅AMI Labs和General Intuition就超11亿美元)远超当前技术成熟度
  • “世界模型取代LLM”的叙事恰好迎合了投资者寻找”下一个风口”的心理
  • 许多公司的demo效果远超实际产品能力
  • LeCun既是顶级研究者,也是AMI Labs的创始人——他有动机夸大世界模型的前景

总结:世界模型是什么 #

世界模型不是骗局,但它也不是答案——至少现在不是。

它是AI从”语言的统计学”走向”物理的因果推理”的必要路径。任何一个想要在真实世界中行动的智能体——无论是机器人、自动驾驶汽车,还是具身智能——都需要某种形式的世界模型。这个需求是真实的,不可替代的。

但当前的技术离”理解物理世界”还很远。V-JEPA 2检测物理违规接近随机猜测,Genie 3生成的世界虽然好看但不可控,NVIDIA Cosmos 3的推理成本仍然高不可攀。世界模型目前更像一个”视频生成器”,而非”物理推理引擎”。

GPT时刻不会在2026年到来,但资本已经提前入场。这既是信心的表现,也是泡沫的前兆。最终的赢家,不会是喊口号最响的公司,而是在三个关键问题上取得突破的团队:

  1. 如何让模型真正理解因果关系,而非统计相关性?
  2. 如何在边缘设备上实时运行世界模型?
  3. 如何建立统一的评估标准,让”世界模型能力”可以被量化和比较?

这三个问题的答案,将决定世界模型是成为AI的下一个基石,还是成为资本叙事的又一个注脚。