登录
首页 > 宝马汽车 > 对话小马智行楼天城:行业过去十年最大认知纠偏,是世界模型

对话小马智行楼天城:行业过去十年最大认知纠偏,是世界模型

发布时间:2026-04-26 15:48:01 发布用户: 19911111100
过去十年,自动驾驶行业最大的认知纠偏就是世界模型。”
 
4月24日,北京车展媒体日第一天,小马智行宣布了两大新产品动向:2027版Robotaxi成本降至23万元以内、全球首款全车规全冗余L4级无人轻卡发布。与此同时,它还在技术上进行了迭代:世界模型1.0跃升至世界模型2.0,构建精度飞轮。
 
发布会后,创始人兼CTO楼天城坐下来跟媒体聊了起来。他说,2020年小马智行就开始做世界模型,但当时被认为是另类,更多公司选择采集真实数据做模仿学习。“今天所有人都在说世界模型,大家意识到人的不足,意识到人跟AI的配合应该怎么做。”
 
一个半小时的对话里,楼天城把世界模型2.0拆得很细。什么是“精度”?不是画面逼真,而是概率分布。什么是“意图层”?那是生成模型里可以制定的token,决定权在训练方。
 
至于,L2的车跑在路上采集的海量数据对L4有没有用?他说,过度依赖真实数据,甚至可能是负面的。高峰时段Robotaxi效率相对较低?他认为,这背后存在“双标”,大家更不愿意接受无人车犯错。
 
以下是楼天城在本次群访中的对话实录(略有删减)。
 
Q、世界模型的精度是不是和真实世界越接近越好,它有没有限制?
 
楼天城:世界模型精度最直接的表现,就是它训练出来的AI司机表现的好坏,这就是判断它精度的标准,本质确实是跟世界越接近越好。但是这个接近不光是极端场景能够跟真实世界一样,更多的是概率分布,就是一件事情出现的概率要和真实世界很接近。
 
还有大家的交互,开车是一个交互行为,互相之间挤一下车这种行为也要和真实世界很接近,这个我们叫精度高,是一个非常全面的定义。
 
 
其实2.0的本质是说这个世界模型精度有一些不太好的地方,人有的时候判断不出来,但是AI可以做准确的判断。比如说你的世界模型里其他车变道都太激进了,你应该稍微收一点,它能做出这样的判断,这是2.0日常工作的一部分,就是它自我判断出哪里不好,然后改进。
 
它的限制其实也很明显,比如说我要收集一下这个版本路上的情况,这件事情必须要人来做,因为它自己没有办法拥有这个车,不掌握车钥匙,我要帮他做好这些测试,包括收集反馈的过程,他自己并没有办法完全完成,他是在人的辅助之下完成一些事。
 
这其实一开始对我有冲击,但我已经接受很久了,各位可能还会有冲击,就是说我们很多研发的关键部分是AI驱动的,它给我安排任务。当然这个更多只是在研发上,它需要在人的帮助下解决各种case,让case跟实际情况完全一样。它的上限至少我还没有完全看到,它的上限是非常高的。
 
问:精度更多指什么?
 
楼天城:世界模型2.0强调的精度更多指:“世界模型1.0”的精度,即虚拟世界里面的驾驶环境能否跟真实世界一样,比如其他车辆跟AI司机的交互是否真实。至于intention,这个是生成模型的中可以制定的token,决定权在训练方。
 
Q:世界模型加了一个意图层,这在架构方面是怎么做到的?
 
楼天城:意图层指的是训练过程当中的意图层,而不是开车过程当中的意图层,开车过程当中有在线强化学习,这也是新的技术,但是这个各家都会用一些,不是我们宣传的主要内容,简单来说是有的,但是亮点不在这。
 
我们的意图层是一个生成型的意图,因为在某些场景上,有很多其他的车、甚至是其他的人,我先强制说这些人、这些车是什么意图,然后开始开。在这个场景当中,我可以穷举所有其他物体的意图组合,让车在所有组合当中一个判断,这个是我们世界模型做意图层的关键。
 
这个好处有点像多元宇宙,就是人开车的时候我会对人周围每个物体的意图做一个判断。但是其实我们自动驾驶车不是这样开的,而是对所有的意图组合做一个综合评价,然后判断怎么开。它脑子里会做组合,然后看哪些组合是我需要小心的,然后它去开,这也是它开的比人安全的另外一个表示。
 
但是有一点,这个意图必须要在虚拟世界生成,因为我可以先生成意图,然后反向说这个意图下其他车要怎么开。
 
Q:如何理解“旁边那辆车到底是要加塞还是让行”这种模糊意图的?
 
楼天城:可能要退一步。有3个模型,"车载模型"负责开车,"世界模型1.0"负责训练"车载模型","世界模型2.0"负责驱动研发团队改进"世界模型1.0"。理解和处理“旁边那辆车到底是要加塞还是让行”,指的是"车载模型"的能力。生成加塞或让行用于训练,是"世界模型1.0"的任务。"世界模型2.0"的任务是让这个过程更符合实际道路上的情况。
 
 
Q:意图是在训练层,落到车端的执行层会有延迟吗?
 
楼天城:车在执行的时候,只有车辆模型本身。它会以训练时同样的方式,估计出其他车的意图分布,然后做出判断。因为在训练阶段,系统也并不会被告知唯一确定的意图,同样是基于意图分布来决策,所以两者状态是一致的。
 
我们觉得,意图才是开车的更核心层面。人开车,其实就是靠意图来决定怎么开,这一点大家根据日常开车习惯都能体会到。相比之下,语言并不是驾驶过程中最核心的东西。我相信很多年以后回过头看,如果真的只能留下一个layer,那一定保留的是意图层,而不是语言。因为人在开车的时候,并不会想着语言。—这也是意图之所以重要的一个体现。意图层本质上就是一个多元宇宙概念。
 
Q:如何看待,把稍大模型(几千TOPS算力芯片)放车端,还是选择小参数模型、用云端算力?
 
楼天城:我先抛开L4 和 L2 的差别,单说模型本身。对于自动驾驶来说,如果模型大小只差 3 到 5 倍,完全可以通过最顶尖的蒸馏技术,基本上做到看不出差别。大家觉得 DeepSeek 做得非常极致,它减少了 20 倍。也就是说,如果算力只差三五倍,本质上是一个“钱花在哪里”的问题,你是愿意多买芯片,还是愿意投入蒸馏。换句话说,你是选择多招一些工程师把模型蒸馏好,还是索性把钱省下来直接买芯片。
 
如果真的差100 倍,那肯定有区别,因为蒸馏没办法蒸100 倍。算力差距在100倍这个量级上,会有质的差别;但如果只是三五倍,其实就是预算分配的问题。这个结论在各个领域都是如此。
 
Q:有用户反馈,高峰时段Robotaxi效率相对低一些。这是一个技术问题还是其他?
 
楼天城:这正是我们过去半年到一年重点提升的方向。在上个季度财报中我们也提到,比如在广州和深圳,单车盈利模型已经实现了转正。这里最关键的一点是:在高峰期、市中心区域,用户对车辆感到满意,才愿意打我们的车。车辆的满意度非常关键,因为它直接影响到单量,也就是大家愿不愿意选择我们的车。这是我们近期最重要的提升方向之一。
 
简单来说,这确实是一个需要技术攻克的点。最终在通行效率方面,不可能做到像安全性那样远超人类,基本上也就是达到差不多的水平,甚至有时会稍微差一点点。这是因为有一个因素,路上的人对无人车和有人车是存在“双标”的,大家更不愿意接受无人车犯错。因此无人车必须开得稍微谨慎一些,而这种谨慎可能会影响到通行效率。同样一种开法,人开没问题,但换成自动驾驶,可能就会被骂。所以效率确实会略微低一点,但不会低到让大家感到不满意。这也是为什么很多人都说能做自动驾驶、有几辆车、能运营,但真实差距在商业层面就是巨大的差别。
 
Q:物理AI和自动驾驶差别?
 
楼天城:物理AI就是训练具身的环境。目前具身相关的很多应用还处在早期阶段,大家看到的很多机器人仍然停留在DEMO状态。如果有一天它们要真正走向实际应用,具身同样需要一个物理世界模型来进行训练,最终也会发展到那一步。
 
你可以把自动驾驶看作最早期的具身应用之一,它更早地进入了应用世界模型的状态。相比之下,具身的世界模型需要融入更多的物理定律。大家知道,自动驾驶只要保证车不发生碰撞就行,基本上不用太操心“撞了之后会怎样”。但在具身场景中,物理接触要复杂得多,而且明显是多维度的。除了视觉,还包括听觉等多种感知方式。因此,具身的发展需要更长时间,这也完全符合当前具身所处的发展阶段。
 
Q:怎么看待英伟达年初开源了一个世界模型?
 
楼天城:世界模型也是不同的意思,世界模型也分为以生成为主的,以交互训练为主和物理世界为主的,英伟达是生成为主的世界模型,而我们应用是用于训练,所以我们不会直接买来用,但是有其他用于生成的人还是很有用的,还是因为它有不同的用途,它不是我们这一支的用途。
 
Q:越来越多了车企布局Robotaxi,他们会不会很快上量,会影响到小马节奏吗?
 
楼天城:首先,我们拥有多款车型也是平台的一大优势。同一套技术方案可以部署在不同车型上。大家也知道,Robotaxi 在不同地区会有一些本地化特点,比如本地用户更倾向于乘坐本地品牌的车辆,这也是我们考虑的因素之一。
 
关于“量”的问题,确实现在有很多玩家开始进入 Robotaxi 市场。但从另一方面看,各家的技术路线其实很相似,大家都在提基于世界模型的强化学习,相信各位也听过不少类似的说法。从发展路径来看,大家走的也是传统 Robotaxi 公司走过的路。换句话说,至少 L2 阶段积累的经验,并没有为 L4 提供太多帮助。比如 L2 说有更多真实数据,但实际上,大家都在按照真正 L4 的发展路径往前走。反过来说,即使是不做 L4 的公司,也可以走这条路。
 
另外,在当前L4 领域,真正决定能否大规模铺开的关键是车的驾驶能力、AI能力以及安全性。造车的能力,我并不是说它容易,但从Knowhow 来看,它是一个相对更宽泛的领域。我认为造车本身可以通过合作来实现,造车能力并不是影响车队规模能做多大的关键因素。
 
Q:它的关键因素是什么?
 
楼天城:真正决定能否部署大量车辆的关键,是车的AI驾驶能力以及安全性。而要提升安全驾驶能力,就必须走L4级别的强化学习,或者说世界模型这条技术路线。
 
大家都愿意往这个方向走,一方面说明行业得到了很多关注,但另一方面,所有玩家已有的积累其实帮不上太多忙,大家都要沿着这条路慢慢摸索。这是我们看到的趋势。
 
换句话说,没有任何道理能够省略从0到1000之间的任何一个步骤。任何一家L4公司从0走到1000所必须经历的所有阶段,L2公司也全都得走一遍。
 
Q:Robotaxi什么时候能够走进我们日常?
 
楼天城:这正是Robotaxi最有意义的特点。它和传统APP、以及ChatGPT最大的不同在于,用户的体验需要通过物理接触来完成。我说某个APP很好用,你打开网页聊聊天就能感受到;但我说一辆车开得好不好,你必须真正坐上去体验一下。这是所有物理世界应用的共性,并不会因为自动驾驶就有所不同。
 
这个特点带来的结果,就像您提到的:占领用户心智需要非常长的时间,不是一铺开所有人就会立刻使用。所以我们才要一个一个城市去铺,一步一步接触用户,这个过程是必须的。同时,这也意味着后来者想要进入这个领域,同样需要经历这个过程,无法像互联网产品那样一夜之间传播到所有人面前。这是物理AI应用的一个典型特征,需要更长的时间来达到更大规模,但好处是一旦达到了,它的护城河也会更强。这本身就是它的特点。
 
我们所说的Robotaxi,都是指真正的无人驾驶。问题不在于你能不能生产出1000辆车,而是究竟有没有本事做到几百辆、几千辆上路。根本还是在于你的车安全性够不够,放这么多车上路,能不能不出事故,能不能不被用户和路人诟病,这才是关键。
 
Q:您还认为从底层技术来说L2和L4是不同的物种吗?
 
楼天城:刚刚我是从产品角度来解释的,说明了L2和L4在产品上的区别,以及L2做得好了反而容易出现的问题。下面我再从技术层面谈谈这两者之间的差别。
 
技术上,大家只需要关注一点:很多人以为L2对L4的帮助,主要体现在数据上,L2车辆能采集大量真实数据,用来辅助L4。但问题也很明显:到了L4后期,真正依赖的反而是虚拟数据、合成数据。在这种情况下,过度依赖真实数据反而可能带来负面影响。这就导致L2积累的最关键优势,其实帮助不到L4真正的进展。
 
如果你要做L4,就必须按照L4的方式,比如构建世界模型、做强化学习,把这些步骤完整走一遍。这一点上,任何一家公司来做,并没有本质差别。 
Copyright 2016-2026 乐趣帮 版权所有  京ICP备18049689号-34