近期,全新生成式视频大模型Sora甫一发布,便迅速引发全球热议。有专家甚至断言,人工智能在2024年将呈现爆发式增长。 如今,人工智能的“触角”正向四面八方探伸,汽车行业便在最前沿。从去年言必称“BEV+Transformer”(鸟瞰视图+基于自注意力机制的神经网络架构),到今年将“端到端”挂在嘴边……随着人工智能技术从深度学习到多模态大模型的快速发展,汽车行业始终站在了自动驾驶技术进化的第一线。 这些看似陌生又深奥的新技术,对于自动驾驶落地到底意味着什么?它们在汽车上应用,对企业研发能力提出哪些更高的要求?厘清上述问题,对于自动驾驶行业如何用好人工智能而言十分必要。 “端到端”或成智驾的未来 今年年初,小鹏汽车对外透露,其高阶智驾将采用端到端大模型。小鹏汽车董事长何小鹏提到,团队发现应用大模型后,无需从前的大量泛化代码,自动驾驶系统便具备时空理解能力,能读懂文字信息,有了时间观念,理解不同城市特点的交通元素,做出更拟人的决策。 另据了解,理想汽车围绕车载场景打造的MindGPT大模型已随OTA5.0正式上车。蔚来汽车则将端到端大模型聚焦于智能汽车主动安全领域。相关人士表示,蔚来几十人的团队已就此研发近半年的时间,如果顺利推进,蔚来将是中国最快量产端到端功能的汽车企业。2023年,CVPR(电气和电子工程师协会国际计算机视觉与模式识别会议)最佳论文颁给了端到端自动驾驶。在汽车行业人士看来,这几乎代表着一种共识:端到端自动驾驶将是行业的未来。 为什么“端到端”这么火?顾名思义,在机器学习中,端到端就是从提出问题到解决问题,从输入数据到输出结果的过程。通过端到端的学习和训练,人们期望只要输入数据,就可以得到最匹配、最合适、最优的结果。换句话说,就是从客户需求端出发,抵达满足客户需求的“彼岸”。 2023年8月,特斯拉首席执行官马斯克在做FSDBetaV12试驾直播时,重点介绍说“这是世界上第一个端到端AI自动驾驶系统”,首次将端到端大模型的概念引入自动驾驶。他表示:“V12系统从头到尾都是通过AI实现。我们没有编程,没有程序员写一行代码以识别道路、行人等,全部交给了神经网络。” 端到端大模型究竟如何给自动驾驶带来改变?据悉,传统的自动驾驶按照感知、决策和控制划分为不同的模块,系统先对周围的动静态交通参与者和路网结构进行准确感知,再规划车辆的行车轨迹,最后通过执行机构对进行闭环控制。而从特斯拉的端到端方案来看,它将自动驾驶系统的感知和定位、决策和规划、控制和执行之间的断面整合在了一起,形成一个大的神经网络。 端到端模型背后,是对海量驾驶视频片段的整合、压缩和提取。本质上,特斯拉的端到端FSD是将上千万个视频片段包含的人类驾驶知识压缩到了端到端神经网络参数中。 俗话说“书读百遍其义自见”,可以想象一下,随着人工智能技术突飞猛进,当被“投喂”大量包含各种驾驶行为的经历素材包后,自动驾驶系统培养出类似于人类的思维和执行方式也不足为奇了。换言之,通过对人类行为的大量学习,来耦合出更接近人类自然的驾驶习惯,比如过人行道减速,并线要让行等。这些模型的构建方式是基于特斯拉纯视觉方案实现AI的自训练,因此训练视频的质量非常重要,只能用优秀司机的驾驶视频来训练,而非反之。曾有车企分享案例,端到端自动驾驶还模拟出在没有车位的停车场“自行”划出车位的行为。 如今,汽车自动驾驶技术的渗透率不断提高,海量真实数据开始为车企训练模型提供充分养料,2024年行业或将迎来端到端大模型落地“元年”。这意味着,自动驾驶的感知能力和泛化能力有望实现飞跃式提升。 AI助力传感器融合难题解决 如果说端到端大模型是自动驾驶新晋“顶流”,那么BEV+Transformer可以算得上它的“前辈”。据了解,BEV和“端到端”都是在视觉路线上,以Transformer为基础建设架构。AI大模型的崛起源自ChatGPT,其中“T”指的就是Transformer大模型。 BEV的出现,如“四两拨千斤”般解决了多传感器融合难题。清华大学苏州汽车研究院智能网联中心技术总监孙辉指出,BEV算法将各种传感器信息统一映射到世界坐标系下,支持不同类型传感器数据的互补,不仅将感知融合从后融合推进到前融合,还为端到端方案打下了坚实基础。之后,在BEV基础上发展的占据栅格(Occupancy Grid)算法,进一步拓展了对一般障碍物(各类动静态障碍)检测的能力,使自动驾驶汽车具备了更好的安全避障功能。 端到端自动驾驶方案,是在BEV基础上将轨迹预测、栅格地图预测、行为规划等通过神经网络的形式叠加,使用大数据监督学习来替代复杂人工规则的设计,进而简化整个自动驾驶开发流程,加快迭代效率。 毫末智行首席执行官顾维灏认为,自动驾驶技术过去20年的发展历程可划分为以硬件驱动为特征的“1.0”时代,以软件驱动为特征的“2.0”时代,以数据驱动为特征的“3.0”时代。其中,“1.0”时代以早期无人驾驶车辆为代表,比拼传感器特别是激光雷达的数量和线束精度,数据积累在数百万公里;“2.0”时代以深度学习技术上车为标志,车规级传感器大量上车,但更注意车端感知算法和人工规则为主的决策模型优化,数据积累在千万公里以上;“3.0”时代以AI大模型在自动驾驶领域的应用为标注,以数据驱动方式来训练感知、认知模型使之进化。因此,自动驾驶企业将重点投入数据通道和智算中心的打通和建设,以更高效地获取数据,并将它们转化为能力与知识。“3.0”时代所对应的数据规模,驾驶里程至少在上亿乃至数十亿公里以上。 孙辉告诉记者,从大的方向来看,自动驾驶的发展路线,除了单车智能化水平的进阶,还包括从单车智能向车路协同智能转变。2024版中国新车评价规程(C-NCAP)首次将V2X纳入测评范围,为V2X的发展带来更大的利好。车路协同通过路侧单元向车辆发送超视距感知结果,提前规划从而避免事故;在固定区域应用时,由于路侧设施的补充,还能降低单车智能化成本,提前完成运营闭环。如果在限定区域内,这也不失为高阶智驾的一种实现方式。 大模型正在催生算力工程 虽然“端到端”和BEV都是基于Transformer开发的架构,但业内人士普遍认为,“端到端”的上限会更高,通过数据驱动能够解决复杂“长尾”问题,消除模块累计误差,还能降低成本。 不过,“硬币总是有两面”,端到端大模型为自动驾驶带来的不只机遇,还有更多挑战。在孙辉看来,端到端作为数据驱动的新型自动驾驶方案,数据采集和标注的体量一定要达到相当的规模才能实施,同时对研发人员及算力也有更高的要求,具有很高的进入门槛。当然,从产品落地来说,端到端方案可以更充分地发挥车载算力资源的作用,呈现产品层次梯度。 人们不难发现,大模型正在催化驾驶场景复杂多样。去年以来,城市NOA加速落地。从高速NOA到城市NOA,交通环境的复杂度加大,对物体识别、感知融合和系统决策算力的需求不断提高。更重要的是,自动驾驶仍存在大量“长尾”应用需求,例如对匝道、锥形筒、交通事故、坑洼道路进行识别等。各种“长尾”问题不能靠单一技术路径解决,需要集中的大规模算力基础设施——AI智算中心。 从2022年开始,国内外自动驾驶企业上演算力“追逐战”。特斯拉自研的超级计算机Dojo,被用来训练神经网络,支持自身的自动驾驶技术发展;国内方面,小鹏、毫末、吉利等企业也开始自建算力中心。其中,小鹏汽车在内蒙古乌兰察布建成自动驾驶智算中心“扶摇”;吉利星睿智算中心在浙江湖州长兴正式揭牌;毫末智行发布自动驾驶智算中心“雪湖·绿洲”,全部用于自动驾驶模型训练。 自动驾驶走过“1.0”和“2.0”时代,如今步入新阶段。围绕大模型训练的云端算力平台,以及与车端多模态、多数量、高质量传感器和车端算法适配的高算力计算平台纷纷落地,不少车企和自动驾驶供应商建立自己的算力中心,从理论上可支持完全自动驾驶级别的算力要求。 虽然技术会突飞猛进,但“神功还需一重一重修炼”。市场端对于自动驾驶落地的理性认知,成就了一番行业新风貌。放弃L4自动驾驶一步到位的想法,不少企业将首要目标放在L2+自动驾驶的商业化落地上。今年初,多家车企启动城市NOA开城“竞速赛”,争相推广主打“极致性价比”的高阶智驾方案。在这个过程中,无论“端到端”,还是BEV+Transformer都在提供助力;与此同时,更多的车辆行驶数据,也将反哺自动驾驶人工智能技术日臻完善。 自动驾驶还需“长期主义” 在汽车产业变革的“下半场”,自动驾驶技术研发与落地已成为企业参与竞争的关键“参数”和重要抓手。凯联资本研究院院长由天宇向记者表示,那些跑通端到端大模型的车企,无疑抢先站上了“风口”。 “自动驾驶行业的竞争日趋白热化,想要在市场上拥有为之一战的能力,企业离不开AI这个重要帮手。”孙辉肯定了AI大模型对于自动驾驶技术的助力。他认为,AI渗透下的自动驾驶“主战场”将出现一家或几家独大的局面,企业不可避免地朝着技术规模化量产前进,尝试“以战养战”,从而快速迭代,否则就会被淘汰。在细分“赛道”上,随着具身智能(指智能系统或机器通过感知和交互与环境进行实时互动的能力)的发展,自动驾驶还将迎来一轮新的发展机遇,出现一批面向垂直应用的优秀企业,展现出“百花齐放”的局面。“对于自动驾驶企业来说,在回归理性、‘新芽’初生的这段时期,还需提高产品落地能力,此外增强对前瞻技术的敏锐性也非常关键。”他称。 在由天宇看来,从更高维度、更长周期来看,自动驾驶技术一直在进步,并且将继续演进,无论BEV还是端到端都只是整个发展过程中所经历的一部分。他直言,在端到端大模型成为“新宠”的当下,也只有少数企业有实力跟进新技术,大部分企业仍处于观望状态,至于后期是否跟随,一方面要考量端到端落地成果如何,另一方面还要考察是否还有更新的技术出现。前瞻技术固然有其优势和发展潜力,但盲目跟风并不适合汽车产业。自动驾驶企业应冷静看待新技术的崛起,虽然“端到端”被认为具有更多可能性,但如果只进行高速NOA以下级别的自动驾驶,没有必要投入为此投入过多人力、物力,BEV+Transformer足够支撑目前L2+自动驾驶的需求,尤其是车企都在追求技术量产落地的今天,性价比是首先要考虑的因素。 自动驾驶技术路线的进化仍在路上,未来还将迎来何种“奇遇”谁也不敢断言,但有一点可以确定,发展自动驾驶必须坚持“长期主义”。在这一共识下,车企之间或许不仅要比拼谁走得更快,更要笑看谁走得更远。 |