特斯拉再添一把火，「世界模型」如何重塑自动驾驶？-工信会

> 自媒体 > 科技科学 > 特斯拉再添一把火，「世界模型」如何重塑自动驾驶？

特斯拉再添一把火，「世界模型」如何重塑自动驾驶？

来源：钛媒体APP

2026-01-06 12:49:34

128

管理

文 | HiEV大蒜粒车研所，作者 | 肖恩，编辑 | 德新

两年一度的计算机视觉顶会ICCV 10月在美国檀香山闭幕，今年的最佳论文颁给了卡内基梅隆大学团队的BrickGPT，一种能从文本描述直接生成物理结构稳定并可实际搭建的积木机构模型，这个成果展示了生成式AI在物理世界应用的潜力。

对自动驾驶从业者而言，这次会议上还有一个更令人瞩目的消息——特斯拉AI部门副总裁Ashok Elluswamy在“基础模型蒸馏与自动驾驶”论坛中，分享了FSD的最新进展。

自2022年在AI Day上分享了占用格栅网络之后，特斯拉几乎没有在任何公开场合透露过FSD的内幕，特别是进入到端到端架构之后，FSD的表现进步神速，但是特斯拉对背后的技术始终讳莫如深。

Elluswamy此次分享给出了关键信息：系统以视频为主的多模态输入进入端到端模型，直接输出控制指令，感知 - 预测 - 决策 - 控制在同一神经网络中耦合回传；这一整体框架与近期热议的“世界模型”思想高度相似。同时，在仿真侧，世界模型被用于生成对抗性场景，以实现闭环评测与迭代。

在此之前，围绕VLA与世界模型的路线分歧已争论不休，特斯拉的最新表态无疑又添一把火。无论最终范式如何定型，能够“想象未来”的世界模型，几乎注定将成为当下自动驾驶技术演进的关键支点。

一、特斯拉FSD：端到端基础模型与世界模型的融合

Elluswamy以“构建未来的自动化”为主题，首先阐述了FSD最近的一些进展，包括Robotaxi的上线以及实现了从工厂到交付中心的全程自动驾驶。

随后，他介绍了特斯拉的端到端架构，多摄像头图像、导航地图、车辆运动信息和音频信号等输入到一个端到端的神经网络内，这个模型经过海量的数据训练，支持长序列的输入，最后直接输出控制信号。

这部分和国内的技术方向基本一致，唯一的区别是增加了音频信号的输入。

为什么要使用端到端的架构，他给出了几点理由：

人类的驾驶行为很难用函数去描述，规则算法很容易顾此失彼；

传统的感知 - 规划 - 控制的结构会有大量的信息损失；

端到端的扩展性更强，更适合解决长尾问题；

时延稳定；

不需要依赖人类的经验，而是依靠算力和数据；

如果要构建一套出色的端到端系统，会遇到什么困难？Elluswamy提到了三大难题：

维度灾难

FSD需要处理高帧率、高分辨率、长时上下文的多模态输入：在以“5×5 像素块”为输入token的假设下，仅视觉就相当于7个摄像头×36 FPS×500万像素×30秒；同时还要结合未来数英里的导航地图与路径、100 Hz的速度/IMU/里程计等运动学数据，以及48kHz的音频数据。综合起来约有20亿个token，如果直接输入到Transformer，token数量会在时间窗内爆炸，无法满足车端的时延要求。

特斯拉的做法是利用海量的车队数据，从中总结出“关键token”，通过稀疏化和聚合保留最有用的信息，可在不显著影响精度的情况下大幅降低推理的时延。

同时，特斯拉利用数据引擎从中抽取高质量的数据样本用于训练，让系统能在各种极端或罕见场景中实现出色的泛化能力。

可解释性与安全验证

为了避免“黑箱”AI，特斯拉在车端模型中加入了可解释的中间输出，既有全景分割和3D占据网络，也有基于三维高斯渲染的场景重建和语言化输出，从而辅助工程师审视推理过程。

图片来源：特斯拉

其中Elluswamy重点介绍了特斯拉的生成式高斯喷溅（Generative Gaussian Splatting），和传统的高斯喷溅相比，特斯拉GGS具有更强的泛化能力，生成场景仅需要220毫秒，无需初始化，可建模动态物体，并能与端到端AI模型联合训练。

闭环评测与仿真

最后、也是最具挑战性的一步，是模型评估。

即使拥有高质量的数据集，开环预测的损失函数下降，也未必意味着在真实世界中能有良好表现。评估体系必须多样化且覆盖不同模式，以支持快速的开发迭代。

为此，特斯拉开发了一个神经世界模拟器（Neural World Simulator）。该模拟器基于特斯拉自建的海量数据集进行训练，但与常规模型不同，它不是预测动作，而是根据当前状态与下一步动作生成未来状态。从而与车端的端到端基础模型闭环，做真实效果的评估。

图片来源：特斯拉

神经世界模拟器在驾驶策略的指令下，按因果关系生成可交互的未来：不仅能基于历史数据重放并验证新的驾驶模型，还能系统地合成对抗性/极端场景，用于长尾覆盖与安全边界测试。

在工程实现上，特斯拉也强调该模拟器可实时或近实时地产生高分辨率、因果一致的响应，用于研发环节的快速验证。除此之外，这类视频生成能力还可在闭环环境中进行大规模强化学习，以实现超越人类水平的表现。

图片来源：特斯拉

尽管特斯拉并未在分享中明确使用“世界模型”这一称呼，但从其神经世界模拟器的能力与用法来看，它本质上就是一个极其强大的世界模型。

与传统云端世界模型不同，特斯拉的系统不仅具备高保真场景生成能力，更关键的是，它能够在给定候选动作的条件下，预测未来几秒内的世界演化，从而实现决策前瞻与安全验证。

模型不再只是“生成环境”，而是能“想象并评估行动结果”的因果预测系统。

从特斯拉将“预测未来几秒的世界演化”作为决策前瞻核心这一点出发，车端基础模型很可能走的也是世界模型路线：在车端进行实时的动作条件未来预测，在云端以神经世界模拟器进行大规模场景重现与回归验证，两者在目标与表征层面高度对齐，从而形成训练—评估—上线的一体化闭环。

二、何为世界模型?

端到端架构能为自动驾驶带来更高的上限，这已经是行业的共识。但是如何在端到端的框架下让自动驾驶达到甚至超越人类的驾驶水平，实现真正的无人驾驶，目前还没有一个明确的方向，在多种技术路线中，世界模型无疑是其中重要的一支。

图片来源：华为

华为智能汽车解决方案BU总裁靳玉志公开表示，公司不会追随VLA的潮流，而是坚持以传感器信号直接驱动动作的世界‑行动模型。

在华为看来，VLA利用大语言模型将视频转化为“语言 token”再生成控制命令，看似是捷径，实则不能提供真正的自主能力；只有跳过语言层，直接从视觉、声音等多模态感知信息生成驾驶指令，才能在空间感知和实时性上满足高级自动驾驶要求。

华为的ADS 4平台基于WA原则进一步演化出 WEWA（World Engine World Action）架构：

World Engine（云端世界引擎）在云端通过海量仿真与实车数据训练世界模型，并生成用于升级的模型参数。

World Action（车端世界行动模型）在车辆侧运行，将感知数据直接映射为控制动作，跳过语言解析过程。

WEWA省略了语言层避免了抽象化损失，并通过多颗激光雷达和高性能硬件确保模型获得尽可能完整的环境信息。这样虽然硬件成本更高，但靳玉志认为这是实现安全可靠自动驾驶的唯一道路。

华为强调，真正的世界模型不仅限于仿真，而是支撑车辆实时决策的核心。在WEWA架构中，云端的World Engine使用大量仿真和实车数据对模型进行“梦境训练”，学习环境的演化规律并生成优化后的参数；这些参数通过OTA下发到车端的World Action模型，使车辆在物理一致的“世界表示”上直接规划和控制。为了获得尽可能完整的环境感知，华为在车端使用多颗激光雷达和高性能硬件，在最新的问界M9和尊界S800上，已经开始使用4个激光雷达的方案。

靳玉志强调，这条路线虽然成本更高，但能够提供更强的空间理解和决策可靠性，是华为走向高级自动驾驶的唯一道路。

商汤绝影：“开悟”世界模型与生成式仿真平台

商汤科技旗下的自动驾驶品牌绝影智驾推出了世界模型“开悟”并用于大规模仿真数据生成。2025年世界人工智能大会（WAIC）上，绝影发布了升级版的交互式世界模型产品平台，以及业内最大规模的生成式驾驶数据集WorldSim‑Drive。这一平台基于先进世界模型技术，具备对物理规律的理解和对场景元素的控制能力，是面向车企和开发者开放试用的可交互产品。

图片来源：商汤绝影

与蔚来的车端世界模型不同，绝影的“开悟”主要用于生成高保真仿真数据。开悟可在仿真场景中生成11个摄像头视角的时空一致视频，时长可达150秒，分辨率达到专业级1080p。用户可以在平台上自由编辑场景的道路布局、参与体、天气和光照等元素，一键生成风险极高的场景或多样化组合。当前，绝影正与上汽旗下的智己汽车合作，利用这个平台构建端到端数据工厂，针对加塞、追尾等高价值场景批量生成训练数据，并计划推出覆盖数百万合成片段的场景库。

在数据规模和效率方面，WorldSim‑Drive数据集包含超过100万段生成式驾驶片段，覆盖50多种天气与光照条件、200类交通标识和300种道路连接场景，是迄今最大的自动驾驶生成数据集之一。这些合成数据保持多视角时空一致性，时长可达数分钟，画质与真实数据一致。开悟的日生产能力仅用一块A100 GPU就相当于10辆真实车辆或100台道路测试车辆的数据采集能力。目前，绝影已有20%的训练数据来自世界模型生成。

商汤绝影通过“开悟”世界模型搭建了数字世界到真实世界的桥梁：一方面在仿真平台上支持文本或图像提示，快速生成特定场景；另一方面与车企合作打造闭环数据工厂，用合成数据弥补长尾场景不足。

开悟的成功展示了世界模型在仿真数据生成中的力量，不仅降低数据采集成本，还能针对高风险场景进行定制化训练，为自动驾驶提供可靠、安全的测试和训练环境。

四、世界模型 VS VLA：自动驾驶终局路线之争

随着大模型时代的到来，以语言大模型LLM为核心的视觉-语言-行动（VLA）模型开始在自动驾驶领域崭露头角，理想、小米和元戎都是坚定的VLA路线拥护者，在今年7月理想已经开始率先推送量产的VLA版本。

VLA倡导将视觉输入、自然语言理解与行动生成融为一个大模型，通过语言增强情境理解和推理能力。和世界模型相比存在显著差异：

结构与表示

世界模型采用潜在时空表示，核心是一个可以随时间演化的物理世界模拟器。它通过自监督压缩器将感知数据编码为潜在状态，并依靠生成式预测模块在该状态上演化未来

VLA模型则以视觉—语言—行动统一架构为特征。它引入大型语言模型为大脑，将高维视觉感知映射为自然语言表述，并利用语言链式推理来生成决策或动作指令。VLA模型能够在车辆控制前进行语言层面的推理和解释，使系统兼具快速反射和慢速思考的双系统。

推理路径

世界模型的推理依赖动作条件的内在仿真：模型将候选动作注入潜在世界，生成不同未来场景，再用代价函数或风险评价选择最佳动作。这种推理方式像是在脑海中做实验，因此非常适合物理世界中的对抗和长期评估。

VLA的推理则依赖语言链路：VLA利用大型语言模型的常识和逻辑推理能力，通过自然语言对观察到的场景进行解释、制定规则，然后输出控制信号。这赋予系统更强的可解释性，但其物理推理通常依赖外部模块。。

能力与应用

世界模型着重于长时域、多主体和物理一致性。它可以生成复杂环境的长期演化，捕捉稀有事件、他车互动和路况变化，并在潜在空间中形成真实动作反馈。由于这种闭环特性，世界模型成为评估和优化自动驾驶策略的核心，如特斯拉的神经世界模拟器通过闭环仿真生成对抗场景、进行强化学习训练。

VLA模型更强调语义推理与高层交互。它通过语言接口理解自然语言指令、交通规则和场景描述，具备链式思考能力。VLA可以利用互联网规模的语言数据注入常识，支持复杂推理和解释。

“世界模型VS VLA”的路线之争仍将持续。世界模型更贴近自动驾驶的物理本质，VLA则凭借通识能力在长尾场景上具优势。最终的产业答案，很可能来自两者的互补与融合。

最近AI领域的先驱李飞飞发表长文讨论空间智能，她认为今天的大语言模型擅长抽象知识处理，但在物理世界上仍像“黑暗中的文字匠”，缺乏对三维环境、因果与动力学的扎实理解，难以安全地在现实世界中行动。通过想象、推理、创造与互动来理解世界，而非仅仅依赖语言描述，这正是空间智能的力量。

实现空间智能的答案是“世界模型”，能够在语义、物理、几何与动态等多重复杂世界（无论虚拟还是现实）中进行理解、推理、生成与交互。

她的观点再次将世界模型推向AI领域的前沿，无论最终实现自动驾驶的技术路径是什么，在通往终点的路上，世界模型一定会留下浓墨重彩的一笔。

赏礼

赏钱

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

特斯拉上海超级工厂第400万辆整车下线

3个月前

AI早报 | 智元第5000台通用具身机器人量产下线交付；特斯拉机器人演示中意外摔倒，暴露远程操控依赖

3个月前