“智驾能力18个月提升30倍”！车企、供应商“逐鹿”端到端，这两方面仍是考验

每经记者：孙磊每经编辑：裴健如

“忽如一夜春风来，千树万树端到端。”这是一位业内人士对近期智能驾驶领域的感慨。

日前，小鹏汽车方面宣布，其已经实现了端到端大模型的上车。在智能驾驶方面，由此前规则+AI组成的XNGP，切换到了以神经网络为主的端到端模型架构。

在此之前，特斯拉已经向部分用户推送FSD V12版本的纯视觉端到端自动驾驶方案；蔚来则在4月公开了端云算力规模，并透露端到端方案会在今年年内发布；理想汽车推送的AD Max3.0，其整体框架已经具备端到端的理念；小米集团董事长雷军也对外宣称，小米汽车在智驾领域实现了端到端大模型技术。一时间，“端到端”一词成了智驾领域的热点。

“采用了端到端的智驾大模型，能两天迭代一次，在未来18个月内智驾能力提升30倍。”小鹏汽车董事长、CEO何小鹏告诉《每日经济新闻》记者，“端到端的大模型，意味着自动辅助驾驶将转向完全自动驾驶。”

端到端大模型上车，智驾更“类人”

据悉，业内讨论实现完全自动驾驶主要有两种方法——分治法和端到端的方案。而当前主流的智能驾驶系统普遍应用了分治法，即将自动驾驶任务分解为感知、预测和规划三个独立的模块，随后通过系统集成来实现自动驾驶功能。

该策略的优势在于能够将复杂的自动驾驶任务简化为多个相对容易处理的子任务，有效降低了系统开发的复杂性。由此构建的系统具备较高的可解释性，允许对每个模块的输入和输出进行详细的分析，一旦发生故障，可以快速定位到问题所在。

然而，这种方法也存在一些不足，主要体现在需要编写大量的代码，并且在系统设计过程中过度依赖人为的先验知识。这限制了自动驾驶系统的潜力，导致其泛化能力不足，面对未知场景时往往难以有效应对。

“每个模型的技术栈差异较大，处于下游的规划模型需要依赖工程师编写大量代码去制定行驶规则。在模块化的技术架构下，信息的传递会出现减损，系统的维护难度大，无法从容应对复杂路况。”元戎启行CEO周光在中国电动汽车百人会论坛（2024）称。

何小鹏则告诉记者：“此前的智驾方案从技术上说，汽车在感知、定位、规划、控制方面都是分开处理的，每一个环节并没有关联。因此车辆在遇到一些场景的时候会因为人类写入的规则互相博弈而产生犹豫。端到端大模型上车后，车辆可以直接通过传感器输入的内容来输出对车辆的控制，智驾会更加‘类人’。”

“智驾能力18个月提升30倍”！车企、供应商“逐鹿”端到端，这两方面仍是考验-编程日记

图片来源：每经记者孙磊摄

据悉，端到端模型将感知、预测、规划三个模型融为一体，无需程序员编写冗长的代码去制定规则，而是用海量数据去训练系统，赋予机器自主学习、思考和分析的能力。端到端模型不会出现信息传递减损，能够更好地处理复杂的驾驶任务，解决了模块化模型存在的所有“痛点”。

值得一提的是，由于任务更少、避免了大量重复处理，端到端自动驾驶可以提高计算效率，并且可以通过不断扩展数据来提升系统的能力上限。

“以前所有L3、L4级别的自动驾驶都是基于规则，但即使是10万行代码能发挥的规则能力也只有55%~60%。”何小鹏告诉记者，“采用神经网络虽然一开始效果并不显著，但是准确性和安全性会实现跃升式发展。”

更为关键的是，端到端带来的自动驾驶能力的提升，依靠现有的智驾硬件就可以实现。“在当下硬件性能不变的条件下，只通过软件升级，大概12~18个月能够取得非常大的颠覆。颠覆是指我希望在包含小区在内的所有城市道路，能够做到极低的接管率和极高的安全率，而且你不会感觉到它比较慢或比较蠢，老是在那里僵住、博弈的感觉。”何小鹏说。

考验企业的数据规模与算力能力

值得注意的是，在特斯拉宣布FSD V12将采用端到端大模型之后，国内亦掀起了端到端大模型应用的热潮，小鹏汽车、理想汽车等车企，以及元戎启行、毫末智行等供应商也开始了端到端的研发和量产适配。

“智驾能力18个月提升30倍”！车企、供应商“逐鹿”端到端，这两方面仍是考验-编程日记

图片来源：每经记者张建摄（资料图）

不过，在业内人士看来，端到端自动驾驶系统的优势日益明显，其借助大模型技术的深入应用，为自动驾驶技术的进一步发展提供了一条高效率的途径。但对于不少企业，尤其是国内厂商而言，还有不少难题要解决。

首先，摆在国内厂商面前亟待解决的就是端到端训练的数据难题。理想汽车总裁、总工程师马东辉在理想汽车今年第一季度财报电话会上表示，特斯拉“端到端大模型”需要大量的数据和训练算力，“这不是所有车企都有能力和资源做到的”。

值得一提的是，特斯拉CEO马斯克在去年的财报会上曾提到数据在自动驾驶方面的重要性：“用100万个视频case训练，勉强够用；200万个，稍好一些；300万个，就会感到Wow（惊叹）；到了1000万个，就变得难以置信了。”

截至去年，特斯拉已经分析了从特斯拉客户的汽车中收集的1000万个视频片段（clips），他们判断完成一个端到端自动驾驶的训练至少需要100万个、分布多样、高质量的clips才能正常工作。

除了数据量的差距，从这些难以计算的数据中，找出可以用于训练的有效数据，是另一个重要的挑战。对此，极越CEO夏一平表示，大模型训练比较核心的东西不是数据比谁多，而是比谁有更多的高质量数据。“数据质量很重要。数据质量不好，训练出的模型可能就是有缺陷的。”夏一平说。

“从特斯拉的开发经验来看，端到端自动驾驶真不是一般的企业能玩的，其所需的数据规模、算力规模远远超出国内企业的承受能力。除了成本高昂，端到端自动驾驶的技术难度也非常高，想要实现从学术到产品落地，相当于跨越从二踢脚到登月的难度。”毫末智行数据智能科学家贺翔认为，端到端自动驾驶方面所需的算力规模也考验着企业。

“要把端到端做好需要巨大的车队、巨大的算力、非常长时间在安全领域的浸润，这都是基础条件，如果没有这些条件是做不好的。”何小鹏告诉记者，“端到端的发展中，数据需要循环起来，算力需求很大，小鹏今年在算力上投入1亿美元，未来每年还会进一步增加。”