商汤绝影:求索端到端辅助驾驶(商汤 求雨)

商汤绝影:求索端到端辅助驾驶(商汤 求雨)

生成式辅助驾驶,是商汤绝影在业内首次提出的概念,通过世界模型和强化学习,推动端到端模型的演进,突破人类的驾驶能力上限。

文|钱丽娜

ID | BMR2004

当自动驾驶技术在全球范围内如火如荼地发展时,一个关键问题始终困扰着行业:如何在复杂多变的交通环境中实现安全、高效的自动驾驶?传统技术方案虽有进展,但始终难以突破数据瓶颈与复杂场景应对的难题。

针对行业尚未得到有效解决的难题,商汤绝影率先在业界提出了端到端辅助驾驶解决方案。

01

端到端辅助驾驶的求索之路

为了让辅助驾驶有更多处理极端情况的能力,构建仿真物理世界就是一座需要先行攀爬的高山。

商汤绝影是业内率先提出端到端辅助驾驶方案的企业,这一路线的提出主要源于2017年与本田汽车的合作。

当年,本田对中国合作伙伴的要求是,放弃激光雷达、高精度地图,在没有车道线的路口,根据图像的输入直接输出车辆行驶的轨迹。2017年3月,日本辅助驾驶测试场地大雨倾盆,那些基于激光雷达、惯导等昂贵且复杂的硬件辅助驾驶系统,连基本的正常启动都遇到了困难,而商汤绝影凭借摄像头感知的纯视觉方案,顺利完成了辅助驾驶的测试。正是这一纯视觉方案,成为了商汤绝影日后探索端到端辅助驾驶的起点。

商汤绝影CEO王晓刚告诉《商学院》杂志:“本田基于成本的考虑而放弃激光雷达。纯视觉方案因为信息丰富,理论上能达到的最高性能或能力的上限比较高,但要用好纯视觉方案,前提是需要大量的数据积累,而且模型要从成千上万的像素中识别语义信息,对模型训练的要求比较高。”

不过,2017年,多模态人工智能技术还不成熟,因而辅助驾驶方案中还是会融合激光雷达。行业在不同阶段采取的技术路线,多是出于安全性的考虑。

商汤绝影一直有做端到端辅助驾驶的想法。所谓端到端,就是输入图像后,直接输出行为轨迹,只是在当时,神经网络还不成熟。2022年年底,商汤绝影发表了端到端辅助驾驶的开山之作“UniAD”(Unified Autonomous Driving)。

UniAD是业界首个感知决策一体化的端到端辅助驾驶解决方案,开创了以全局任务为目标的辅助驾驶架构的先河,不仅能够感知周围环境,还能做出预测和规划,从而实现更高效的辅助驾驶。其提出的基于Transformer的完整端到端架构,为许多公司提供了重要的参考和基准,并获得了CVPR 2023最佳论文的殊荣。

随着多模态大模型的出现,2023年商汤绝影又提出“端到端+多模态”大模型结合的技术方案。多模态大模型能够较好地分析复杂的交通场景,从而做出判断。王晓刚举例说,这一组合方案结合了快思考和慢思考的优点。端到端如同人类的小脑,看到路况后立刻做出行为反应,而多模态大模型类似于人类的大脑,可以负责更为复杂的分析。

然而,端到端方案进一步推进时,行业又遇到了数据瓶颈,需要大量高质量、高难度的人类驾驶行为数据做模型训练。端到端的训练本质上是在模仿人类的驾驶行为,所以人类的驾驶水平就是它的上限。“高质量数据占比较少,大部分时间车辆行进时走的是直线,缺少变化的驾驶行为在模型训练时是没有价值的,只有类似刹停、避让、转弯的场景才有意义。另外,复杂场景下每个人的驾驶行为不同,如果有类似于遇到复杂场景停在原地的行为数据,混到模型训练数据中,反而会让模型能力变差。”王晓刚解释说,企业所能找到的人类在处理复杂场景的行为数据上限决定了模型能力的上限。

而DeepSeek的出现,再一次打开了商汤绝影的研发思路。DeepSeek-R1通过强化学习突破了数据的瓶颈,让大模型自行涌现出长思维链能力,显著提升推理效果,甚至可能超越人类的思维能力。强化学习突破了人类思考的上限,这个过程类似于AlphaGo下围棋:之前它学习的是人类的棋谱,而之后机器通过强化学习,下出了人类棋手从未有过的招数,并最终赢得了棋局。王晓刚说:“一道题如果有10种解法,人类可能只给出了一两种解法,而强化学习给出的其他八九种解法,极大地扩充了人类的知识库。”

AlphaGo是在棋盘的规则体系里下棋,借用同一思路,商汤绝影需要仿真出一个类似于棋盘的物理驾驶世界,在这个仿真世界中生成高质量的数据,结合强化学习框架,让端到端模型在世界模型中自我进化和成长。

但用于训练的生成视频面临巨大挑战。比如Sora的视频生成有大量不符合物理规律的图像,缺乏视频图像在时空上的一致性和连续性。包括“绝影开悟”在内的世界模型,在实验阶段生成的视频也都面临同样的问题,需要通过人工筛选与人工智能相结合,不断迭代,从而解决上述问题。

辅助驾驶的车辆配备有11个摄像头,每个摄像头观察到的视频必须保持时空一致。比如同一条车道线,不能在一个摄像头里观察到实线,而另一个摄像头里观察到虚线,摄像头本身也会有各种问题,鱼眼摄像头还会产生畸变。为了让辅助驾驶有更多处理极端情况的能力,构建仿真物理世界就是一座需要先行攀爬的高山。

回看商汤绝影面临的几次技术抉择,初时,在视觉和激光雷达的技术选择上,2018年,商汤绝影恰好从事大模型研究,当时的技术判断是增加模型的体量能让辅助驾驶的视觉能力变得更强。2025年,商汤绝影发布了当时全球最大的、拥有320亿参数的视觉模型,参数超过谷歌200多亿的视觉模型。商汤绝影做大模型时,正好需要千卡训练集群,但市场上没有这样的基础设施,于是商汤绝影在上海临港自建了一个超算集群(2022年1月正式启用),这与特斯拉自建超算集群(2025年8月)如出一辙。

王晓刚坦言:“每项技术发展到一定的阶段都会遇到瓶颈,但是如果没有端到端的技术,很难看清瓶颈在哪里。在发布世界模型前,我们发现增加更多的数据时,模型能力的提升依然非常有限,原因在于数据质量不够好,所以这才推动我们不断去思考和寻找解决方案。直到今天,形成‘端到端+世界模型’的生成式智驾方案。”

02

辅助驾驶“开悟”

目前“绝影开悟”世界模型基于1024类场景,能够泛化出更多的平行世界,打造千万级的生成场景库。

2024年11月,商汤绝影发布开悟1.0世界模型,2025年4月上海国际车展,又推出与强化学习结合的开悟2.0。今天行业逐渐形成了共识,世界模型加上强化学习,将是未来的趋势。

由此,业内辅助驾驶技术路线的发展经历了三个阶段。

第一阶段是规则式辅助驾驶,基于物理模型和预定义的逻辑去书写各项规则。第二阶段是端到端的辅助驾驶,核心基于大模型和大数据的驱动,类似于ChatGPT,本质是模仿人类的学习,但是有自身的数据瓶颈和性能上限。第三阶段是生成式辅助驾驶,也是商汤绝影在业内首次提出的概念,通过世界模型和强化学习,推动端到端模型的演进,突破人类的驾驶能力上限。

尽管商汤绝影率先提出端到端辅助驾驶方案,但在研究过程中面临着两个重要问题,首先是对海量数据的依赖,特别是对高质量数据的依赖。特斯拉拥有超过700万辆量产车,有工程化布局,还能够形成数据回流,具有闭环的天然优势,但是其中可用的数据不过1%。商汤绝影可用来数据回流的量产车数量远小于这一规模。面对极端复杂的场景,很多驾驶员的行为反馈并不好,而且采集各种极端危险场景数据的代价和风险也是非常高的。其次,端到端具有不确定性,因为问题场景是没有办法复现的,需大量采集类似场景来更新模型,但也不能保证模型更新后,特定场景的问题就能够得到解决,所以安全边界很难确定。

“R-UniAD”是商汤绝影提出的全新生成式辅助驾驶技术方案,基于一个强大的世界模型去重构世界,在其中进行强化学习训练,并且能够泛化生成各种复杂的场景。

从成本和效率上来看,通过融合3D高斯重建技术(一种利用人工智能技术进行三维场景重建和渲染的方法)与世界模型,构建高保真动态交互仿真闭环,商汤绝影可将复杂交通场景复现成本降低60%以上,算法迭代周期缩短50%。根据商汤绝影内部实测数据,基于一张A100的GPU,“绝影开悟”每天生成的数据相当于10辆真实车辆或100辆路测车的数据采集能力,其性能比得上500辆量产车。

目前,商汤绝影20%的数据是通过世界模型生产出来的,其生成数据数量预计将在今年快速提升至与真实数据数量1:1的均衡状态,构建起千万级可用数据池,加速迈向“生成式数据主导”(80%占比)。

辅助驾驶系统很容易出现比如因遇到施工占道而紧急刹停,甚至发生碰撞的紧急情况。对此,王晓刚介绍了商汤绝影R-UniAD是如何帮助辅助驾驶系统提升应对这一场景的能力。

第一个阶段,以路测的视频为输入,基于“绝影开悟”世界模型进行现场场景的仿真,用3D重建静态场景,同时对动态元素进行可控的编辑。世界模型对场景还原的一致性超过95%,重建场景的时间从以天为单位降到以小时为单位。

第二个阶段是强化学习。有了重建场景后,端到端模型生成在该场景下可以有各种不同的驾驶策略。有的驾驶行为很糟糕,会偏离到路边,需要通过反复的强化学习,与世界模型形成的环境进行交互,寻找最优路径,找到合适的变道,从而绕过施工场景。

第三个阶段,世界模型将生成大量的施工占道泛化场景,模拟不同天气条件、不同光线下的施工路段。在一段视频的基础上扩展出十段、百段或者千段场景,场景覆盖度呈几何级数的增加,显著提升端到端模型对于施工场景泛化交互的能力,大大加强了特定场景的确定性,从而降低数据获取成本。

王晓刚总结道,生成式辅助驾驶主要突破了三个瓶颈:一是突破数据瓶颈,创造无限的长尾场景;二是在仿真环境中验证技术的安全边界到底在哪里;三是通过自主进化超越人类的驾驶水平。

目前“绝影开悟”世界模型基于1024类场景,能够泛化出更多的平行世界,打造千万级的生成场景库。在真实的基础上,“绝影开悟”生成的场景视频,时间最长为150秒,分辨率可达1080P,视角可以实现11V,已经成为行业首个同时完成上述指标的辅助驾驶世界模型。

自2017年与本田汽车的合作起步,商汤绝影不仅在“端到端”辅助驾驶方案上取得了突破,其“绝影开悟”世界模型更为行业提供了一种全新的解决方案,通过生成式辅助驾驶技术,商汤绝影不仅突破了数据瓶颈,还实现了对复杂场景的高效处理和安全性能的显著提升。

来源 | 《商学院》杂志7月刊

特别声明:[商汤绝影:求索端到端辅助驾驶(商汤 求雨)] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

骨质增生应该吃钙片吗_骨质增生,维生素,阿仑,利塞膦酸钠(骨质增生应该吃什么营养品)

骨质增生患者可以适量食用钙片。骨质增生与年龄增长、长期劳损等因素有关,而钙是构成骨骼的重要元素之一,适当补钙有利于增强骨骼强度,预防骨质疏松。但是需要注意的是,如果过度补钙会导致血液中钙离子浓度过高,容易引起泌尿系结石等并发症,所以建议在医

骨质增生应该吃钙片吗_骨质增生,维生素,阿仑,利塞膦酸钠(骨质增生应该吃什么营养品)

“要命”的蚊子怎么防 三步走预防基孔肯雅热

基孔肯雅热是由基孔肯雅病毒引起的急性传染病,通过伊蚊叮咬传播,症状以发热、关节剧痛和皮疹为特征。尽管许多人对这种病毒不太熟悉,但基孔肯雅热并不是新出现的疾病。大约20年前,该病曾在印度洋区域大规模暴发,影响了约50万人

“要命”的蚊子怎么防 三步走预防基孔肯雅热

万万没想到,暖春“小花”结婚才两天,令人担心的事情还是发生了(万万没想到电影在线观看完整版免费)

每一条视频都刻意打上“暖春小花结婚”的标签,这无疑让一些网友觉得她过度消费自己的成名角色,用观众的情感来博取关注。更令人不满的是,有网友翻出了旧账,指出当年饰演爷爷的田成仁去世时,齐如意虽然发文悼念,却并未现…

万万没想到,暖春“小花”结婚才两天,令人担心的事情还是发生了(万万没想到电影在线观看完整版免费)

烤瓷牙上镜是啥样?嘴凸包不住,牙比灯还亮,演戏也不给力了(烤瓷牙上瓷过程)

还使她具备了另一种特征,那便是萎缩发黑的牙龈,这在女明星中绝无仅有。刘涛在娱乐圈中是一股清新的气息,她与丈夫王珂的爱情故事一直备受人们的喜爱。 其次,她那一口价值不菲的“烧瓷牙”,在众多女明星中也是独树一…

烤瓷牙上镜是啥样?嘴凸包不住,牙比灯还亮,演戏也不给力了(烤瓷牙上瓷过程)

徕芬、未野往复式剃须刀好不好用?怎么选?流量VS口碑测评决战

未野这款的舒适水平几乎是找不到对手的高度,我的肌肤很容易泛红、爆痘、敏感,之前剃须总是会有扯须、出血等情况,而使用未野这款时剃须是既轻松又舒适,根本没有什么摩擦感,更不存在扯须、夹肉等问题,哪怕处理红肿的痘…

徕芬、未野往复式剃须刀好不好用?怎么选?流量VS口碑测评决战