特斯拉再添一把火，「世界模型」如何重塑自动驾驶？-工信会

> 自媒体 > 科技科学 > 特斯拉再添一把火，「世界模型」如何重塑自动驾驶？

特斯拉再添一把火，「世界模型」如何重塑自动驾驶？

来源：钛媒体APP

2026-01-11 10:18:32

146

管理

文 | HiEV大蒜粒车研所，作者 | 肖恩，编辑 | 德新

两年一度的计算机视觉顶会ICCV 10月在美国檀香山闭幕，今年的最佳论文颁给了卡内基梅隆大学团队的BrickGPT，一种能从文本描述直接生成物理结构稳定并可实际搭建的积木机构模型，这个成果展示了生成式AI在物理世界应用的潜力。

对自动驾驶从业者而言，这次会议上还有一个更令人瞩目的消息——特斯拉AI部门副总裁Ashok Elluswamy在“基础模型蒸馏与自动驾驶”论坛中，分享了FSD的最新进展。

自2022年在AI Day上分享了占用格栅网络之后，特斯拉几乎没有在任何公开场合透露过FSD的内幕，特别是进入到端到端架构之后，FSD的表现进步神速，但是特斯拉对背后的技术始终讳莫如深。

Elluswamy此次分享给出了关键信息：系统以视频为主的多模态输入进入端到端模型，直接输出控制指令，感知 - 预测 - 决策 - 控制在同一神经网络中耦合回传；这一整体框架与近期热议的“世界模型”思想高度相似。同时，在仿真侧，世界模型被用于生成对抗性场景，以实现闭环评测与迭代。

在此之前，围绕VLA与世界模型的路线分歧已争论不休，特斯拉的最新表态无疑又添一把火。无论最终范式如何定型，能够“想象未来”的世界模型，几乎注定将成为当下自动驾驶技术演进的关键支点。

一、特斯拉FSD：端到端基础模型与世界模型的融合

Elluswamy以“构建未来的自动化”为主题，首先阐述了FSD最近的一些进展，包括Robotaxi的上线以及实现了从工厂到交付中心的全程自动驾驶。

随后，他介绍了特斯拉的端到端架构，多摄像头图像、导航地图、车辆运动信息和音频信号等输入到一个端到端的神经网络内，这个模型经过海量的数据训练，支持长序列的输入，最后直接输出控制信号。

这部分和国内的技术方向基本一致，唯一的区别是增加了音频信号的输入。

为什么要使用端到端的架构，他给出了几点理由：

人类的驾驶行为很难用函数去描述，规则算法很容易顾此失彼；

传统的感知 - 规划 - 控制的结构会有大量的信息损失；

端到端的扩展性更强，更适合解决长尾问题；

时延稳定；

不需要依赖人类的经验，而是依靠算力和数据；

如果要构建一套出色的端到端系统，会遇到什么困难？Elluswamy提到了三大难题：

维度灾难

FSD需要处理高帧率、高分辨率、长时上下文的多模态输入：在以“5×5 像素块”为输入token的假设下，仅视觉就相当于7个摄像头×36 FPS×500万像素×30秒；同时还要结合未来数英里的导航地图与路径、100 Hz的速度/IMU/里程计等运动学数据，以及48kHz的音频数据。综合起来约有20亿个token，如果直接输入到Transformer，token数量会在时间窗内爆炸，无法满足车端的时延要求。

特斯拉的做法是利用海量的车队数据，从中总结出“关键token”，通过稀疏化和聚合保留最有用的信息，可在不显著影响精度的情况下大幅降低推理的时延。

同时，特斯拉利用数据引擎从中抽取高质量的数据样本用于训练，让系统能在各种极端或罕见场景中实现出色的泛化能力。

可解释性与安全验证

为了避免“黑箱”AI，特斯拉在车端模型中加入了可解释的中间输出，既有全景分割和3D占据网络，也有基于三维高斯渲染的场景重建和语言化输出，从而辅助工程师审视推理过程。

图片来源：World Models for Autonomous Driving: An Initial Survey

世界模型并没有一个标准的定义，但业内逐渐形成了对它的共识，世界模型是一个生成式时空神经系统，它将来自摄像头、激光雷达、雷达和导航地图等多模态输入压缩成潜在状态，该状态不仅编码了几何、语义信息，还携带因果上下文。

世界模型可以在潜在空间内推演环境未来，并让智能体在执行动作前“演练”整个轨迹。正因如此，有人将世界模型形象地称为能够在脑海里“想象未来”的模型。

世界模型通常覆盖三类任务：

未来物理世界生成：基于传感器数据和车辆历史，生成场景的未来演化（包括物体运动、占据概率、点云或图像级视频）。

行为规划与决策：结合预测结果为自车生成轨迹或动作建议，实现决策与控制。

联合预测与规划：在潜在空间内同时建模多主体交互，利用生成的未来对候选动作进行评估，从而实现闭环的行为优化。

它不仅是感知或预测模块的简单堆叠，而是一个统一的大脑：它将现实世界压缩成可演化的内部表示，并通过生成式推演支撑规划与决策。它需要具备以下核心能力：

潜在时空表示

世界模型首先要将高维、多模态感知输入映射到一个低维的潜在状态。这一潜在表示既要包含环境中的几何、语义信息，又要随时间更新，使模型能够在此空间内捕捉环境状态的转移。该能力意味着模型不再依赖显示的BEV或占据栅格，而是以更加抽象但富含语义的形式表示“世界”。

动作条件的未来推演

在潜在状态获得之后，世界模型必须能够在给定候选动作（加速、制动、变道等）的条件下，生成多步未来场景。这种生成不仅仅是时间上的外推，更是“假如我采取这个动作，其他道路参与者会如何反应、场景会如何变化”的因果推理。换言之，它不只是预测“将会发生什么”，更要回答“如果我这样做，会发生什么”。

与规划和控制的闭环耦合

世界模型的重要特征在于预测与规划的深度耦合。模型生成的未来场景不仅提供参考，而是直接用于评估不同动作的风险和收益，从而在潜在空间中完成候选动作的比较—筛选—决策。这种闭环能力使世界模型能够在端到端框架中直接输出控制信号，就像特斯拉的“神经世界模拟器”那样，能在闭环仿真中评估新模型、生成对抗场景，并进行大规模强化学习来获得超越人类的性能。

多主体交互与不确定性建模

真实的道路中不仅有自车，还有别的车和行人，大家的运动状态会互相影响。世界模型要在“脑海里的状态空间”里，把这些参与者的位置、速度、意图表示出来，并且随着时间跟踪他们彼此之间的互动。

同时，现实中的未来不是只有唯一的答案：前车可能并线，也可能减速。所以模型不能只给一条“最可能的轨迹”，而要给出一组可能的未来，让系统在安全、效率、舒适之间做权衡。

长期记忆与自我演化

世界模型应当具有长期记忆和自我进化能力——能够积累驾驶经验、持续扩充其内部世界，并在不同任务和场景间迁移。这使它不仅适用于某条路线或某种条件，而是可在多种条件下泛化。

正是世界模型强大的能力，让它成为现在自动驾驶领域最热门的研究方向之一，很多人相信世界模型是通往L3和L4级别自动驾驶的关键钥匙。

三、中国的世界模型之路

作为自动驾驶技术应用最广泛的中国，世界模型已经生根发芽，既有像商汤这样专注于云端，为自动驾驶补充合成数据的技术公司，也有像蔚来和华为这样坚定的让世界模型上车的整车厂。在中国，世界模型正扮演着越来越重要的角色。

蔚来NWM世界模型

蔚来汽车是较早公开将世界模型作为核心技术路线的公司之一。在2024年“NIO IN”发布会上，蔚来宣布了中国首个驾驶世界模型“NWM（Nio World Model）”，蔚来将其定义为“能够全量理解多模态信息、生成新场景并预测未来的多元自回归生成模型”。

图片来源：蔚来

它在空间上完成“想象重建”（将感知到的物理世界逼真地重建为可编辑的虚拟世界），在时间上完成“想象推演”（在内部时空中滚动预演不同未来），进而输出可执行的轨迹与动作。并展示了其在车端的应用。NWM可在100毫秒内推理216种可能的驾驶场景并选取最优决策。蔚来官方表示，模型可以用3秒的历史视频提示生成长达20秒的未来视频；世界模型通过生成式推演形成所谓“平行世界”，在这些想象出的未来中评估不同动作的后果。除了纯视觉输入，NWM还融合激光雷达、地图和自车运动信息，并能理解驾驶员的语言指令。

图片来源：华为

华为智能汽车解决方案BU总裁靳玉志公开表示，公司不会追随VLA的潮流，而是坚持以传感器信号直接驱动动作的世界‑行动模型。

在华为看来，VLA利用大语言模型将视频转化为“语言 token”再生成控制命令，看似是捷径，实则不能提供真正的自主能力；只有跳过语言层，直接从视觉、声音等多模态感知信息生成驾驶指令，才能在空间感知和实时性上满足高级自动驾驶要求。

华为的ADS 4平台基于WA原则进一步演化出 WEWA（World Engine World Action）架构：

World Engine（云端世界引擎）在云端通过海量仿真与实车数据训练世界模型，并生成用于升级的模型参数。

World Action（车端世界行动模型）在车辆侧运行，将感知数据直接映射为控制动作，跳过语言解析过程。

WEWA省略了语言层避免了抽象化损失，并通过多颗激光雷达和高性能硬件确保模型获得尽可能完整的环境信息。这样虽然硬件成本更高，但靳玉志认为这是实现安全可靠自动驾驶的唯一道路。

华为强调，真正的世界模型不仅限于仿真，而是支撑车辆实时决策的核心。在WEWA架构中，云端的World Engine使用大量仿真和实车数据对模型进行“梦境训练”，学习环境的演化规律并生成优化后的参数；这些参数通过OTA下发到车端的World Action模型，使车辆在物理一致的“世界表示”上直接规划和控制。为了获得尽可能完整的环境感知，华为在车端使用多颗激光雷达和高性能硬件，在最新的问界M9和尊界S800上，已经开始使用4个激光雷达的方案。

靳玉志强调，这条路线虽然成本更高，但能够提供更强的空间理解和决策可靠性，是华为走向高级自动驾驶的唯一道路。

商汤绝影：“开悟”世界模型与生成式仿真平台

商汤科技旗下的自动驾驶品牌绝影智驾推出了世界模型“开悟”并用于大规模仿真数据生成。2025年世界人工智能大会（WAIC）上，绝影发布了升级版的交互式世界模型产品平台，以及业内最大规模的生成式驾驶数据集WorldSim‑Drive。这一平台基于先进世界模型技术，具备对物理规律的理解和对场景元素的控制能力，是面向车企和开发者开放试用的可交互产品。

图片来源：商汤绝影

与蔚来的车端世界模型不同，绝影的“开悟”主要用于生成高保真仿真数据。开悟可在仿真场景中生成11个摄像头视角的时空一致视频，时长可达150秒，分辨率达到专业级1080p。用户可以在平台上自由编辑场景的道路布局、参与体、天气和光照等元素，一键生成风险极高的场景或多样化组合。当前，绝影正与上汽旗下的智己汽车合作，利用这个平台构建端到端数据工厂，针对加塞、追尾等高价值场景批量生成训练数据，并计划推出覆盖数百万合成片段的场景库。

在数据规模和效率方面，WorldSim‑Drive数据集包含超过100万段生成式驾驶片段，覆盖50多种天气与光照条件、200类交通标识和300种道路连接场景，是迄今最大的自动驾驶生成数据集之一。这些合成数据保持多视角时空一致性，时长可达数分钟，画质与真实数据一致。开悟的日生产能力仅用一块A100 GPU就相当于10辆真实车辆或100台道路测试车辆的数据采集能力。目前，绝影已有20%的训练数据来自世界模型生成。

商汤绝影通过“开悟”世界模型搭建了数字世界到真实世界的桥梁：一方面在仿真平台上支持文本或图像提示，快速生成特定场景；另一方面与车企合作打造闭环数据工厂，用合成数据弥补长尾场景不足。

开悟的成功展示了世界模型在仿真数据生成中的力量，不仅降低数据采集成本，还能针对高风险场景进行定制化训练，为自动驾驶提供可靠、安全的测试和训练环境。

四、世界模型 VS VLA：自动驾驶终局路线之争

随着大模型时代的到来，以语言大模型LLM为核心的视觉-语言-行动（VLA）模型开始在自动驾驶领域崭露头角，理想、小米和元戎都是坚定的VLA路线拥护者，在今年7月理想已经开始率先推送量产的VLA版本。

VLA倡导将视觉输入、自然语言理解与行动生成融为一个大模型，通过语言增强情境理解和推理能力。和世界模型相比存在显著差异：

结构与表示

世界模型采用潜在时空表示，核心是一个可以随时间演化的物理世界模拟器。它通过自监督压缩器将感知数据编码为潜在状态，并依靠生成式预测模块在该状态上演化未来

VLA模型则以视觉—语言—行动统一架构为特征。它引入大型语言模型为大脑，将高维视觉感知映射为自然语言表述，并利用语言链式推理来生成决策或动作指令。VLA模型能够在车辆控制前进行语言层面的推理和解释，使系统兼具快速反射和慢速思考的双系统。

推理路径

世界模型的推理依赖动作条件的内在仿真：模型将候选动作注入潜在世界，生成不同未来场景，再用代价函数或风险评价选择最佳动作。这种推理方式像是在脑海中做实验，因此非常适合物理世界中的对抗和长期评估。

VLA的推理则依赖语言链路：VLA利用大型语言模型的常识和逻辑推理能力，通过自然语言对观察到的场景进行解释、制定规则，然后输出控制信号。这赋予系统更强的可解释性，但其物理推理通常依赖外部模块。。

能力与应用

世界模型着重于长时域、多主体和物理一致性。它可以生成复杂环境的长期演化，捕捉稀有事件、他车互动和路况变化，并在潜在空间中形成真实动作反馈。由于这种闭环特性，世界模型成为评估和优化自动驾驶策略的核心，如特斯拉的神经世界模拟器通过闭环仿真生成对抗场景、进行强化学习训练。

VLA模型更强调语义推理与高层交互。它通过语言接口理解自然语言指令、交通规则和场景描述，具备链式思考能力。VLA可以利用互联网规模的语言数据注入常识，支持复杂推理和解释。

“世界模型VS VLA”的路线之争仍将持续。世界模型更贴近自动驾驶的物理本质，VLA则凭借通识能力在长尾场景上具优势。最终的产业答案，很可能来自两者的互补与融合。

最近AI领域的先驱李飞飞发表长文讨论空间智能，她认为今天的大语言模型擅长抽象知识处理，但在物理世界上仍像“黑暗中的文字匠”，缺乏对三维环境、因果与动力学的扎实理解，难以安全地在现实世界中行动。通过想象、推理、创造与互动来理解世界，而非仅仅依赖语言描述，这正是空间智能的力量。

实现空间智能的答案是“世界模型”，能够在语义、物理、几何与动态等多重复杂世界（无论虚拟还是现实）中进行理解、推理、生成与交互。

她的观点再次将世界模型推向AI领域的前沿，无论最终实现自动驾驶的技术路径是什么，在通往终点的路上，世界模型一定会留下浓墨重彩的一笔。

赏礼

赏钱

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

特斯拉上海超级工厂第400万辆整车下线

3个月前

AI早报 | 智元第5000台通用具身机器人量产下线交付；特斯拉机器人演示中意外摔倒，暴露远程操控依赖

3个月前