对话小马智行楼天城：行业过去十年最大认知纠偏，是世界模型

过去十年，自动驾驶行业最大的认知纠偏就是世界模型。”

4月24日，北京车展媒体日第一天，小马智行宣布了两大新产品动向：2027版Robotaxi成本降至23万元以内、全球首款全车规全冗余L4级无人轻卡发布。与此同时，它还在技术上进行了迭代：世界模型1.0跃升至世界模型2.0，构建精度飞轮。

发布会后，创始人兼CTO楼天城坐下来跟媒体聊了起来。他说，2020年小马智行就开始做世界模型，但当时被认为是另类，更多公司选择采集真实数据做模仿学习。“今天所有人都在说世界模型，大家意识到人的不足，意识到人跟AI的配合应该怎么做。”

一个半小时的对话里，楼天城把世界模型2.0拆得很细。什么是“精度”？不是画面逼真，而是概率分布。什么是“意图层”？那是生成模型里可以制定的token，决定权在训练方。

至于，L2的车跑在路上采集的海量数据对L4有没有用？他说，过度依赖真实数据，甚至可能是负面的。高峰时段Robotaxi效率相对较低？他认为，这背后存在“双标”，大家更不愿意接受无人车犯错。

以下是楼天城在本次群访中的对话实录（略有删减）。

Q、世界模型的精度是不是和真实世界越接近越好，它有没有限制？

楼天城：世界模型精度最直接的表现，就是它训练出来的AI司机表现的好坏，这就是判断它精度的标准，本质确实是跟世界越接近越好。但是这个接近不光是极端场景能够跟真实世界一样，更多的是概率分布，就是一件事情出现的概率要和真实世界很接近。

还有大家的交互，开车是一个交互行为，互相之间挤一下车这种行为也要和真实世界很接近，这个我们叫精度高，是一个非常全面的定义。

其实2.0的本质是说这个世界模型精度有一些不太好的地方，人有的时候判断不出来，但是AI可以做准确的判断。比如说你的世界模型里其他车变道都太激进了，你应该稍微收一点，它能做出这样的判断，这是2.0日常工作的一部分，就是它自我判断出哪里不好，然后改进。

它的限制其实也很明显，比如说我要收集一下这个版本路上的情况，这件事情必须要人来做，因为它自己没有办法拥有这个车，不掌握车钥匙，我要帮他做好这些测试，包括收集反馈的过程，他自己并没有办法完全完成，他是在人的辅助之下完成一些事。

这其实一开始对我有冲击，但我已经接受很久了，各位可能还会有冲击，就是说我们很多研发的关键部分是AI驱动的，它给我安排任务。当然这个更多只是在研发上，它需要在人的帮助下解决各种case，让case跟实际情况完全一样。它的上限至少我还没有完全看到，它的上限是非常高的。

问：精度更多指什么？

楼天城：世界模型2.0强调的精度更多指：“世界模型1.0”的精度，即虚拟世界里面的驾驶环境能否跟真实世界一样，比如其他车辆跟AI司机的交互是否真实。至于intention，这个是生成模型的中可以制定的token，决定权在训练方。

Q：世界模型加了一个意图层，这在架构方面是怎么做到的？

楼天城：意图层指的是训练过程当中的意图层，而不是开车过程当中的意图层，开车过程当中有在线强化学习，这也是新的技术，但是这个各家都会用一些，不是我们宣传的主要内容，简单来说是有的，但是亮点不在这。

我们的意图层是一个生成型的意图，因为在某些场景上，有很多其他的车、甚至是其他的人，我先强制说这些人、这些车是什么意图，然后开始开。在这个场景当中，我可以穷举所有其他物体的意图组合，让车在所有组合当中一个判断，这个是我们世界模型做意图层的关键。

这个好处有点像多元宇宙，就是人开车的时候我会对人周围每个物体的意图做一个判断。但是其实我们自动驾驶车不是这样开的，而是对所有的意图组合做一个综合评价，然后判断怎么开。它脑子里会做组合，然后看哪些组合是我需要小心的，然后它去开，这也是它开的比人安全的另外一个表示。

但是有一点，这个意图必须要在虚拟世界生成，因为我可以先生成意图，然后反向说这个意图下其他车要怎么开。

Q：如何理解“旁边那辆车到底是要加塞还是让行”这种模糊意图的？

楼天城：可能要退一步。有3个模型，"车载模型"负责开车，"世界模型1.0"负责训练"车载模型"，"世界模型2.0"负责驱动研发团队改进"世界模型1.0"。理解和处理“旁边那辆车到底是要加塞还是让行”，指的是"车载模型"的能力。生成加塞或让行用于训练，是"世界模型1.0"的任务。"世界模型2.0"的任务是让这个过程更符合实际道路上的情况。

Q：意图是在训练层，落到车端的执行层会有延迟吗？

楼天城：车在执行的时候，只有车辆模型本身。它会以训练时同样的方式，估计出其他车的意图分布，然后做出判断。因为在训练阶段，系统也并不会被告知唯一确定的意图，同样是基于意图分布来决策，所以两者状态是一致的。

我们觉得，意图才是开车的更核心层面。人开车，其实就是靠意图来决定怎么开，这一点大家根据日常开车习惯都能体会到。相比之下，语言并不是驾驶过程中最核心的东西。我相信很多年以后回过头看，如果真的只能留下一个layer，那一定保留的是意图层，而不是语言。因为人在开车的时候，并不会想着语言。—这也是意图之所以重要的一个体现。意图层本质上就是一个多元宇宙概念。

Q：如何看待，把稍大模型（几千TOPS算力芯片）放车端，还是选择小参数模型、用云端算力？

楼天城：我先抛开L4 和 L2 的差别，单说模型本身。对于自动驾驶来说，如果模型大小只差 3 到 5 倍，完全可以通过最顶尖的蒸馏技术，基本上做到看不出差别。大家觉得 DeepSeek 做得非常极致，它减少了 20 倍。也就是说，如果算力只差三五倍，本质上是一个“钱花在哪里”的问题，你是愿意多买芯片，还是愿意投入蒸馏。换句话说，你是选择多招一些工程师把模型蒸馏好，还是索性把钱省下来直接买芯片。

如果真的差100 倍，那肯定有区别，因为蒸馏没办法蒸100 倍。算力差距在100倍这个量级上，会有质的差别；但如果只是三五倍，其实就是预算分配的问题。这个结论在各个领域都是如此。

Q：有用户反馈，高峰时段Robotaxi效率相对低一些。这是一个技术问题还是其他？

楼天城：这正是我们过去半年到一年重点提升的方向。在上个季度财报中我们也提到，比如在广州和深圳，单车盈利模型已经实现了转正。这里最关键的一点是：在高峰期、市中心区域，用户对车辆感到满意，才愿意打我们的车。车辆的满意度非常关键，因为它直接影响到单量，也就是大家愿不愿意选择我们的车。这是我们近期最重要的提升方向之一。

简单来说，这确实是一个需要技术攻克的点。最终在通行效率方面，不可能做到像安全性那样远超人类，基本上也就是达到差不多的水平，甚至有时会稍微差一点点。这是因为有一个因素，路上的人对无人车和有人车是存在“双标”的，大家更不愿意接受无人车犯错。因此无人车必须开得稍微谨慎一些，而这种谨慎可能会影响到通行效率。同样一种开法，人开没问题，但换成自动驾驶，可能就会被骂。所以效率确实会略微低一点，但不会低到让大家感到不满意。这也是为什么很多人都说能做自动驾驶、有几辆车、能运营，但真实差距在商业层面就是巨大的差别。

Q：物理AI和自动驾驶差别？

楼天城：物理AI就是训练具身的环境。目前具身相关的很多应用还处在早期阶段，大家看到的很多机器人仍然停留在DEMO状态。如果有一天它们要真正走向实际应用，具身同样需要一个物理世界模型来进行训练，最终也会发展到那一步。

你可以把自动驾驶看作最早期的具身应用之一，它更早地进入了应用世界模型的状态。相比之下，具身的世界模型需要融入更多的物理定律。大家知道，自动驾驶只要保证车不发生碰撞就行，基本上不用太操心“撞了之后会怎样”。但在具身场景中，物理接触要复杂得多，而且明显是多维度的。除了视觉，还包括听觉等多种感知方式。因此，具身的发展需要更长时间，这也完全符合当前具身所处的发展阶段。

Q：怎么看待英伟达年初开源了一个世界模型？

楼天城：世界模型也是不同的意思，世界模型也分为以生成为主的，以交互训练为主和物理世界为主的，英伟达是生成为主的世界模型，而我们应用是用于训练，所以我们不会直接买来用，但是有其他用于生成的人还是很有用的，还是因为它有不同的用途，它不是我们这一支的用途。

Q：越来越多了车企布局Robotaxi，他们会不会很快上量，会影响到小马节奏吗？

楼天城：首先，我们拥有多款车型也是平台的一大优势。同一套技术方案可以部署在不同车型上。大家也知道，Robotaxi 在不同地区会有一些本地化特点，比如本地用户更倾向于乘坐本地品牌的车辆，这也是我们考虑的因素之一。

关于“量”的问题，确实现在有很多玩家开始进入 Robotaxi 市场。但从另一方面看，各家的技术路线其实很相似，大家都在提基于世界模型的强化学习，相信各位也听过不少类似的说法。从发展路径来看，大家走的也是传统 Robotaxi 公司走过的路。换句话说，至少 L2 阶段积累的经验，并没有为 L4 提供太多帮助。比如 L2 说有更多真实数据，但实际上，大家都在按照真正 L4 的发展路径往前走。反过来说，即使是不做 L4 的公司，也可以走这条路。

另外，在当前L4 领域，真正决定能否大规模铺开的关键是车的驾驶能力、AI能力以及安全性。造车的能力，我并不是说它容易，但从Knowhow 来看，它是一个相对更宽泛的领域。我认为造车本身可以通过合作来实现，造车能力并不是影响车队规模能做多大的关键因素。

Q：它的关键因素是什么？

楼天城：真正决定能否部署大量车辆的关键，是车的AI驾驶能力以及安全性。而要提升安全驾驶能力，就必须走L4级别的强化学习，或者说世界模型这条技术路线。

大家都愿意往这个方向走，一方面说明行业得到了很多关注，但另一方面，所有玩家已有的积累其实帮不上太多忙，大家都要沿着这条路慢慢摸索。这是我们看到的趋势。

换句话说，没有任何道理能够省略从0到1000之间的任何一个步骤。任何一家L4公司从0走到1000所必须经历的所有阶段，L2公司也全都得走一遍。

Q：Robotaxi什么时候能够走进我们日常？

楼天城：这正是Robotaxi最有意义的特点。它和传统APP、以及ChatGPT最大的不同在于，用户的体验需要通过物理接触来完成。我说某个APP很好用，你打开网页聊聊天就能感受到；但我说一辆车开得好不好，你必须真正坐上去体验一下。这是所有物理世界应用的共性，并不会因为自动驾驶就有所不同。

这个特点带来的结果，就像您提到的：占领用户心智需要非常长的时间，不是一铺开所有人就会立刻使用。所以我们才要一个一个城市去铺，一步一步接触用户，这个过程是必须的。同时，这也意味着后来者想要进入这个领域，同样需要经历这个过程，无法像互联网产品那样一夜之间传播到所有人面前。这是物理AI应用的一个典型特征，需要更长的时间来达到更大规模，但好处是一旦达到了，它的护城河也会更强。这本身就是它的特点。

我们所说的Robotaxi，都是指真正的无人驾驶。问题不在于你能不能生产出1000辆车，而是究竟有没有本事做到几百辆、几千辆上路。根本还是在于你的车安全性够不够，放这么多车上路，能不能不出事故，能不能不被用户和路人诟病，这才是关键。

Q：您还认为从底层技术来说L2和L4是不同的物种吗？

楼天城：刚刚我是从产品角度来解释的，说明了L2和L4在产品上的区别，以及L2做得好了反而容易出现的问题。下面我再从技术层面谈谈这两者之间的差别。

技术上，大家只需要关注一点：很多人以为L2对L4的帮助，主要体现在数据上，L2车辆能采集大量真实数据，用来辅助L4。但问题也很明显：到了L4后期，真正依赖的反而是虚拟数据、合成数据。在这种情况下，过度依赖真实数据反而可能带来负面影响。这就导致L2积累的最关键优势，其实帮助不到L4真正的进展。

如果你要做L4，就必须按照L4的方式，比如构建世界模型、做强化学习，把这些步骤完整走一遍。这一点上，任何一家公司来做，并没有本质差别。

对话小马智行楼天城：行业过去十年最大认知纠偏，是世界模型

凯迪拉克更多>>

特斯拉更多>>

比亚迪更多>>

奔驰汽车更多>>

奥迪汽车更多>>

宝马汽车更多>>