作者 | 书正
[摘要]本文深入分析智能驾驶系统安全问题,这需要放在一个场景里面、一个系统里面统一分析错误、事故和安全。这个世界的物理真相并不透明,主导这个世界运转的规律和这个世界的真实结构隐藏在微观物理世界里面,而微观世界运转方式是频率耦合、秩序适配、统计结果。但是我们的认知和经验必须在宏观的、看得见的时空域中寻找确定性、寻找逻辑。所以认识这个世界的真相需要一种变换,将错误的根因与错误的表现(事故)关联起来。本文也会从关键理念、交通场景、系统框架、安全保证、产业等维度对比安全系统和能力系统,希望读者能看到什么样的智能驾驶系统框架才能支撑产业走向成功。
关键词:实时校验机制,微观频域,宏观时空域,统计系统,状态对比,可量化。
前言
阅读本文需要先研读论文《智能驾驶系统实时校验机制的研究》(已在知网/汽车工程期刊2025.7刊出)和博文《全新的视角理解智能驾驶系统运行原理与安全(一)》、《全新的视角理解智能驾驶系统运行原理与安全(二)》,才能确保逻辑的连续和内容的完整。
论文和两篇博文中确实有不严谨的地方,比如“统计”一词在不同的位置代表的含义不一样,还有在论文中的“概念”与博文中“秩序”其实是相同的含义。交通场景的运转机理在不同文章中分别用本征信息、维度信息和存在状态、交通秩序描述,读者可以这样理解,“存在状态”隐藏在本征信息里面,“交通秩序”隐藏在维度信息里面。还有不少描述不一致的地方,会被读者陆续发现,会给阅读带来困扰,需要读者结合上下文仔细理解。
几篇文章都反复把电子系统、通信系统和智能驾驶为代表的AI系统放在一起对比,因为在作者看来它们是人类近代三次脉络清晰的信息革命。在时空域直观的理解它们分别解析了点信息、线信息和面信息,当然系统内部解析信息的组件能力也不一样,但是系统的结构完全一致。放在一起比较,希望读者能体会系统架构的合理性、安全机制的必然性,系统运行机理的普适性、唯一性。这需要必要的信息理论和系统理论基础知识。
关于读者的疑问,再次给出如下研读建议:
- 不能被当前智能驾驶系统架构和系统思想禁锢,和它不一样东西不一定是错误的;
- 一些行业白皮书、ISO26262/ISO PAS0800等行业标准都不是理论演绎或数学证明的,仅仅是经验归纳总结,即使指导工程实践也有局限性,更不能左右本研究结论;
- 要超越感观和经验“看”到这个物理世界的本质,要“看”到一些概念的过程属性、范围属性、物理客观属性等;
- 要“看”到系统的全部和系统的结构;
- 要相信正确的东西,一定是逻辑清晰、结构简洁优美、与人性诉求吻合,没有例外;
为了描述方便,本文把当前以AI为中心的智能驾驶系统称为能力系统,增加实时校验机制的智能驾驶系统称为安全系统。
说明:本文中一些观点、解释并不是业界共识,一定程度依赖作者“直觉”。所以,读者可以理性的质疑、批判。
1.安全对产业的意义在ISO 26262中L4级别的核心组件的安全等级要到达ASIL D,意味着智能驾驶系统的随机失效导致的危害事件发生概率的上限是10-8。虽然对车辆事故率要求到10-8不一定合理,但是能看出人们对交通事故的恐慌程度。从图1中对比一下这个目标值的严格程度。
图 1 事故率对比
分析商用电梯的故障率、事故率,电梯是怎么实现安全目标的,体会到安全对一个产业的意义。GBT10058-2009中4.1规定,电梯整机可靠性每运行60000次故障不超过5次,也就是说电梯平均故障率为运行12000次不能超过一次故障。比如上海市截止24年年底全市有349620台电梯在运营,24年因为电梯故障解救被困乘客多达22660人。但是电梯事故非常罕见,上海24年只有3起事故3人受伤0人死亡。全国范围能查到近年的电梯事故也非常少,典型的“10.18弥勒电梯坠落事故”,造成4人死亡、16人受伤。其事故的关键原因,轿厢距离一楼地坎约10m的高度附近以自由落体的方式加速坠落过程中,限速器下行机械动作失效,未能提拉安全钳,导致安全钳未动作,未能在轿厢下坠时制停轿厢,轿厢坠落底坑。关键是现代电梯都有安全应急机制:配备限速器-安全钳联动系统,能在钢丝绳断裂时0.1秒内刹停轿厢。
我们试想如果电梯没有安全应急机制,1/12000的故障就会有一部分转换成事故,而商场、写字楼的电梯每天有几百上千次的运行,每个月都有电梯事故造成生命伤害的事情。或者24年上海被困电梯的22660人有一部分会造成生命伤害。这样的状况人们还敢乘坐电梯吗?这个产业还成立吗?较大篇幅论述电梯的安全,就是说明:
- 即使运行原理、运行环境极其简单的电梯(与智能驾驶系统比较),其故障率也不低;
- 只要有安全机制保障不出事故,不会对人们的生命财产造成伤害,即使体验差一些,人们乘坐电梯还是有信心的,这个产业还是成立的;
其实,在我们生产生活中广泛应用的各种系统、甚至生命系统,都有应急机制(安全机制)来应对突发情况(系统故障),可以保障人的生命、财产安全。
我们也做过大量的调研,人们并不关注系统的具体故障率,但是在享受系统带来服务的过程中必须有确定性,即故障时候必须能保障人的生命、财产安全。即使目前的智能驾驶系统的事故率降低到人类驾驶的1/10,也未必能得到人们的普遍认可,因为大部分人驾驶车辆确实可以一辈子不出交通事故。让他们把生命交付一个不可解释的、不确定的工具上,自然会恐慌。这就是当前智能驾驶产业缺少公信力的根本原因。
如何能在智能驾驶系统故障的情况下规避交通事故保障乘客的生命安全,是智能驾驶产业无法回避的问题,否则很难说这个产业成立。
2.错误、事故与安全必须进一步论述系统内部解析信息的本质过程,为什么会产生错误,怎么能探测到错误,如何规避事故。关于错误的定义、分类等,读者阅读《全新视角理解智能驾驶系统运行原理与安全(一)》的2.5节。
2.1.信息解析的过程与原理
关于系统的工作原理在两篇博文中都有描述,尤其在《全新视角理解智能驾驶系统运行原理与安全(二)》的2.2节描述的很全面。关于部分读者讨论这样的示意图描述智能驾驶系统、或其他信息解析系统是否合理?作者认为,站在场景运转的角度,用这样的示意图描述系统的工作过程和是原理非常简洁、准确、完整的,应该有普适性。AI计算只是系统中的一个组件。其中统计和分类的思想是受哈耶克的《感觉的秩序》影响而产生。读者可以质疑、批判。
图2 能力系统的信息解析原理
本节用频域和时空域描述信息解析过程、原理和性质,看到微观世界的本质。如图2,图中蓝色点划线左侧是一个具体的交通场景,我们看到的是交通参与者的实时变化、确定的事件,如果发生了交通事故也可以通过明确的因果关系找到问题原因、划分责任。
蓝色点划线右侧本质是一个信息解析单元,包括光波和智能系统内部的各种要素,内部的计算、概念、属性和结构都在频域世界中体现。进入系统的光波呈现特定的排列组合;在AI模型里面埋藏着所谓的各种交通要素模版、交通秩序、时空位置理解,本质都是信道/滤波器(开关电路、触发电路等,可以让特定的频率组合的波通过)组成有意义的复杂秩序;所谓数字世界,体现在特定排列组合的脉冲信息驱动形成一定结构属性的功能单元中(与现实交通场景呈现对称性),或者体现在结构化数组中。工作过程所谓的统计、分类本质都是频率的耦合、秩序的适配,最终的结果(数字世界)遵守统计属性。
你必须整体看待信息解析单元功能,任何微小局部的频率耦合都没有确定的意义;即使本文所提的AI模型中的交通秩序,或业界所谓的注意力机制、思维链、专家模型等,也是一个局部有意义的秩序,可以和场景(物理世界)中某些关联的、结构的信息呈现出整体的适配性;你也别固执地寻找内部的逻辑、原理、流程,因为在微观的频域世界计算过程,根本没有我们理解意义的逻辑判断、数学计算、精确的函数描述。也没有时间的概念,只有事件的序列。当然也没有正确与错误的概念,只有统计结果的分布。这就是微观频域世界的真相。
事情总是一体两面的,正是由于能力系统中是一个频域的统计系统,才能应对复杂的、随机的、不确定的交通场景;但是,微观频域和宏观时空域之间没有逻辑关系、因果关系,也没有时间对应关系。
2.2.“错误”的真相
错误的一般理解,认为是基于个人经验或直觉形成与客观事实、科学真理相悖的理解。作者认为在信息解析系统中,错误就是系统两侧信息单元结构属性对比偏差超过特定的阈值,或者是数字世界和物理世界的状态属性对比偏差超过特定阈值,关于错误详细解释可以看《全新视角理解智能驾驶系统运行原理与安全(一)》2.5节。关键要理解:
- 错误是一种对比的结果,是一种逻辑的结果;
- 对比系统两侧的状态值(不是过程、规律的对比),或者真实物理世界和数字世界的状态值。假设是理想系统,则两侧的值一定是一致的,因为理想系统遵守守恒和对称法则;
结合图3,梳理错误产生的过程、原因和结果呈现。产生错误的原因就是在信息统计和分类过程中丢失(也有可能外部干扰增加)了一些单元内部要素,具体描述如下:
- 光波在专递过程受外界噪声影响而失真,秩序无法完美耦合必要的频率要素;
- 系统中的秩序并不完美,无法适配特定的频率要素(信息单元);
- 系统中的秩序并不完美,无法分类出与物理世界对称、协调的数字世界;
关键问题,系统内部的秩序不可能完美,统计信息一定会有要素丢失,分类数字世界也一定会有错配,丢失和错配到什么程度就会产生错误,阈值在哪里?图2所示的系统解析信息遵守统计属性,如何判断错误是无解的问题。其实这种系统没有错误的概念,就是一种统计结果分布,当统计结果分布到“错误”的范围,传递到物理世界就是事故(或违规)。
图3 错误与事故
实时校验机制,本质就是在数字世界和物理世界之间建立一个独立的逻辑通道,实时对比系统两侧的状态值,论文和本文统一定义为净空对比,具体可以看论文《智能驾驶系统实时校验机制的研究》中的2.5节描述(暂且认为AI计算包括感知、预测、规划模块,不是端到端模式)。当这种对比的偏差超过一定的阈值,就是错误。关键理解:
- 错误是系统层面的概念;
- 状态值对比产生的错误,可量化;
正是由于这个对比通道,使得微观频域和宏观时空域之间有了逻辑关系、因果关系、时间对应关系。
2.3.安全机制设计和工程实现
本节对比安全系统和能力系统实现安全的途径和工程落地。作者不是功能安全专家,简略梳理安全系统的功能安全落地的基本逻辑和理论,体现安全系统的合理性、正确性。
2.3.1.安全系统的安全机制设计
作者认可ISO26262的方法论和思想。熟悉ISO26262标准的工程师都了解,其方法论大概如下图3。
图4 ISO26262的方法论
其关键思想:
- 主要解决系统的随机失效①故障(错误)。理论上,系统性失效通过成熟的设计和完整的验证可以解决;
- 必须探测到系统的故障(错误),才能设计出安全机制;也有一些简单单元,前期分析清楚错误模式可以通过设计规避,不是主要措施。
- 故障探测时间加故障响应时间必须小于系统容错时间,才能规避事故(迁移到安全状态);
业界普遍认为ISO26262并不是为智能驾驶系统撰写的,不能覆盖智能驾驶系统的AI部分。作者认为这是一种误解,ISO26262的方法论不能覆盖能力系统的本质原因是当前的能力系统没有实时校验机制,导致它无法探测到智能驾驶系统AI计算的随机错误,也无法设计安全机制。
结合图5描述如何给安全系统设计安全机制,在系统出现随机错误时候避免交通事故:
- 一直论述AI计算的结果遵守统计属性,显然AI计算产生错误就是随机的;
- 通过实时校验机制对比数字世界和物理世界的存在状态一致性,同时对比规划的路径是否“净空”;如果两个世界的存在状态不一致,或者规划的路径不是“净空”,系统一定产生的错误。基于探测到的错误,采取靠边停车等措施保证不出交通事故,就是安全机制;
- 只要探测时间间隔足够小,比如0.1S一次;计算时间一般也就几百毫秒;刹车时间与车辆属性、车辆速度有关;所以理论上只要满足T探测>T探测间隔+T计算+T刹车就可以避免交通事故。当然还有交通违规需要对比其他本征信息,这里不去赘述。
图 5 净空对比&错误探测
继续对比电子系统、通信系统和智能驾驶系统的实时校验机制和功能安全机制。
图 6 电子系统工作原理
电子系统工作过程,通过信道(本质是特定频率的滤波器)统计信息单元的谐波分量。结果正确与否就是对比系统两侧的电平,本质就是对比信息单元的结构属性。
图 7 通信系统工作原理
通信系统的工作过程,通过通信协议(本质是实现一组时间序列信道)统计报文中的分量(信号),用CRC之类的机制对比系统两侧的0和1数量、序列,本质就是对比信息单元的结构属性。
这里用一个表格将三个系统的解析信息机理、实时校验机制、安全措施都统一描述,方便读者对比,关键要逆向理解系统解析信息的本质和实时校验机制的工作机理,以及其普适性和唯一性。
表格 1 三种系统功能安全机制对比
在工程设计中,智能驾驶系统除了AI计算外,也包括具体的电子系统(典型的供电系统)、通信系统(各种总线)。所以,安全系统会有表格1中的三种随机错误,设计对应的功能安全机制,理论上可以做到“绝对”的安全。
2.3.2.能力系统的安全保障
当前主流厂家也在探索基于能力系统安全措施设计,包括系统备份措施、AEB措施、规则兜底、ISO 21448+ISO PAS 08800+ISO 05469安全设计等。这里只论述论述两个常用措施。
1)规则兜底有致命的弊端
- 新增一个规则往往会影响之前大部分规则,甚至要把之前所有的规则重新调整和验证;
- 事实上不可能通过规则把物理世界所有场景都描述清楚,这与交通场景的随机性、动态性、无限性相悖;
2)ISO 21448+ISO PAS 08800+ISO 05469针对AI计算的安全设计,先验性质的措施主要几点困难:
- 功能不足,性能不足其实很难定义准确的边界;
- 定义出来的ODD不一定合理准确,地理范围可以准确,但是环境条件、道路基础设施等很难提前定义准确;
- 一些定义、指标完全不具有可操作性,读者可以看看:
- ISO PAS 08800的9.5.5章节对指标、测量和阈值设计的描述;
- ISO 21448对功能不足、性能不足的定义;
- ISO 05469的9.3.3章节,数据准备和模型级验证和确认;
- 规范中不少安全措施都回到场景数据完整、全面的要求上,这是正确但是无用的措施;
通过与业界一些AI计算的安全专家接触,当前AI计算的安全设计停留在概念和方法论阶段,个别厂家的落地方案效果也有待商榷。事实上当前没有人能讲清,针对AI计算的错误,如何设计覆盖完成的、具体的、可操作的、可落地的安全措施。
在作者看来,我们认识这个世界的方式就不对。错误和安全机制是系统层面的事情,不应该针对AI计算。
2.4.安全系统的工程落地
不少读者咨询具体工程落地可行性方案,需要详细阅读论文《智能驾驶系统实时校验机制的研究》第3章。我们反复研究,这样的验证方案和落地方案是合理的、可实现的。这里补充一些关键说明:
1)为什么交通场景本征信息(存在状态)可以准确传递回来并能正确计算?
- 本征信息,是在一个孤立的时间点和对应的静态空间范围,交通要素的分布形态;
- 基本设想是本征传感器扫描和通信方式传递,通信信息本身可以做校验,对于不规则物体完全可以通过扫描(类似双激光雷达)方式提取位置信息;
- 只提取位置信息和空间利用条件信息,信息量非常小。一个交通参与者的位置描述只需要一个2字节的报文,一个空间的利用条件描述也只需要几个字节的报文;
- 监督域中的计算都是逻辑属性;
2)成本问题
道路的标识和指示灯背后的意图就是某一块空间在特定时间的禁止使用或有条件的使用。把每一个交通标识和指示灯都数字化,将道路使用条件实时传递给交通参与者,每个车辆的实时位置信息(时空占用)通过电子牌照(已经有人提议车辆牌照电子化)传递给他车。成本一定会很低,与道路设施建设成本比较可以忽略,也一定比当前的V2X方案在路侧的部署成本低。
3)作者理解有人驾驶的车辆和无人驾驶车辆可以共同行驶在道路上,因为:
- 他们遵守共同的交通秩序;
- 新增的本征信息层对有人驾驶没有任何影响;
- 这对智能驾驶产业落地、演进至关重要。
4)运行方式
- 在符合条件的道路上逐步搭建本征信息层;
- 相关监管部门验收合格后,有智能驾驶能力的车辆自愿开通服务;
- 当然安全责任划分等,还有非常多的事情研究,逐步完善;
5)遵守交通秩序
交通车辆是一个高速运行的物体,在合理行驶的时空范围中,所有的参与者都必须遵守交通秩序,这需要交通法规来规范。
6)不可抗拒因素
遇到一些极端天气灾害、相邻车辆物体掉落等情况,智能系统和交通法规都无法应对,需要保险制度兜底。
①关于ISO26262的随机性失效就是针对硬件失效,作者并不认为是合理的,完全可以扩展到统计系统。可能是做标准的人没有仔细研究信息理论和系统理论。
3.两种智能驾驶系统方案的对比
本章将全维度对比能力系统和安全系统,方便读者比较两种方案的本质区别。
表格2 两种系统多维度对比
4.结论
可以明确的表述,我们理解这个世界的方式不正确,所以将整个行业禁锢在一种错误的思维中、错误的方案中。
当前以AI计算为中心的智能驾驶系统不可能彻底解决安全问题,也没可能走向产业成功,因为:
- AI计算遵守统计属性,本身没有错误的概念,更不可能量化错误;
- 当前针对AI计算做的安全措施都是前验的,难以实施落地。事实上,当前行业没有一个人能把安全的实现原理和路径讲清楚、讲全面,都是概念和方法论;
- 即使达到所谓的“安全”目标也会在时间维度和空间维度把服务切割非常零散,也就失去了产业价值。
智能驾驶所提供服务的安全必须由机制来兜底,因为:
- 机制是实时的、逻辑的;
- 机制下的错误可量化、安全措施可落地;
- 只有机制才能兼顾服务的安全和完整,同时可以让系统中的AI计算能力平滑演进,逐渐提升服务的体验。
当然机制就是系统的一部分,交通场景的运转一定由系统支撑,智慧交通体系才会呈现出弹性,走向产业成功。
参考引用
《智能驾驶系统实时校验机制的研究》知网链接:https://kns.cnki.net/kns8s/defaultresult/index?crossids=YSTT4HG0%2CLSTPFY1C%2CJUP3MUPD%2CMPMFIG1A%2CWQ0UVIAA%2CBLZOG7CK%2CPWFIRAGL%2CEMRPGLPA%2CNLBO1Z6R%2CNN3FJMUV&korder=SU&kw=%E6%99%BA%E8%83%BD%E9%A9%BE%E9%A9%B6%E7%B3%BB%E7%BB%9F%E5%AE%9E%E6%97%B6%E6%A0%A1%E9%AA%8C
或者在汽车工程网站2025年7月刊:
https://www.qichegongcheng.com/CN/10.19562/j.chinasae.qcgc.2025.ep.002