“端到端”是智能驾驶的“GPT2时刻”——专访元戎启行CEO周光

2024-11-07 21:02:14 8阅读

2024年智能驾驶行业融资状况回暖，多家企业迎来融资甚至上市。同时，今年也是“端到端”智能驾驶技术大范围推广的一年，头部新能源车企和智能驾驶技术供应商都开始讲述各自的“端到端”故事。

作为最早一批落地端到端的智能驾驶技术供应商，元戎启行（正文中简称“元戎”）在11月5日宣布完成了1亿美元的C1轮融资，成为今年单笔融资金额最高的智能驾驶公司。在融资消息发布后，《第一财经》采访到元戎启行CEO周光，展望了在资金面和技术面都发生重大变化的背景下，智能驾驶行业未来几年面临的关键机遇和挑战。

【Y】= 第一财经

【Z】= 元戎启行CEO周光

【Y】以往智能驾驶公司的融资主要来自于风投和产业基金，但元戎最近两笔融资都来自车企。车企为什么越来越愿意砸钱给智能驾驶供应商，他们看中的是什么？

【Z】核心是AI，车企越来越多地意识到AI对其产品的重要性。但是AI的能力不是从零开始很容易建立的，像特斯拉这样拥有特别强大AI能力的车企非常少，大多数车企在这方面也没有太强的技术积累，这时候选择AI能力突出的第三方供应商就是很自然的选择。

车企选供应商最主要还是看性能，尤其怕智能驾驶算法“作弊”——依赖高精地图，只能在特定区域内表现出良好性能，换个地方就不行。为了解决这个顾虑，我们的做法叫“板车试乘”，就是由车企指定地点，让拖车把搭载了我们智驾方案的样车送达，车一下拖车，未经任何调试，就能智驾上路，车企可以随便指定交付地点。这样他们就会相信这个智驾方案确实比较靠谱，可以用到量产车上。

【Y】早期智能驾驶公司对量产车兴趣不大，专注于实现全无人驾驶。不过元戎很早就把重心放到量产上来，这背后的逻辑是什么？

【Z】早期的智能驾驶技术都是基于规则的，典型的例子是Waymo，在一个很有限的区域内，把地图做得非常精细，规则设置得非常复杂，以期能做到智能驾驶。这种方案采用的车通常都需要经过特殊改装，不能直接使用量产车型完成，而且很明显无法推广到所有道路，因为高精地图的更新需要漫长的周期。总之就是成本很高，商业上不可行，所以我们很早就决策不做这个方向，而把重点放到不依赖高精地图、可量产的方向上。

对于智能驾驶公司来说，量产最大的意义在于提供数据。对一般的端到端模型来说，1万辆车是个基准，有这个数量的车在路上跑，才能保证智驾模型不断向前进化。如果要追求更进一步的性能，比如我们正在开发、预计明年推出的VLA模型，要达到比较好的训练效果至少得有10万辆车的数据。这个量级的车靠资方来投资不现实，必须直接杀入量产车市场，直接面向大众消费者。特斯拉就是最好的例子，量产车和智驾功能互相促进，形成良性循环。而且很明显，这个量产不仅限于国内市场，还应该考虑海外市场。我们和欧洲、日本、韩国的车企都在谈合作。

【Y】“端到端”这个话题今年很热，元戎怎么理解这个概念？端到端提供了什么样的优势，又面临什么样的挑战？

【Z】“端到端”模型可以理解为一个神经网络，这一点和大语言模型有点类似，两者的优势也比较类似，就是摆脱了对规则的过度依赖，能够面对此前没有经历过的各种复杂场景。不同之处在于，他们输入输出的数据类型很不一样。“端到端”模型有点类似“蓝领AI”，它直接跟物理世界打交道，也直接指挥车在物理世界里行动；与此同时，GPT类似“白领AI”，它的核心功能都可以在办公室电脑上完成，不需要与物理世界交互。

由于这种功能上的区别，使得两者对算力的要求差距很大。GPT要提升性能必须尽可能地掌握源源不断被生产出来的各种资讯，而端到端的智驾模型却不需要知道那么多，它只需要理解路和路上可能产生的各种物理后果就可以，其算力需求要比GPT低一个数量级。

因此“端到端”这个赛道的挑战不是堆算力，而是拼算法，看谁调试模型提升性能的方法更有效、更高效。目前的端到端我称之为“AI 1.0”，可以说是智能驾驶的“GPT 2时刻”，它只是新一轮智能驾驶技术竞赛的起点。接下来最大的挑战是如何快速把端到端的能力提升到类似于GPT 4的阶段。

【Y】元戎在2023年初就开始布局“端到端”，是国内最早一批提出并实现这一技术的公司。元戎的“端到端”方案和市场上其他类似产品相比有何特色？

【Z】我们在“AI 1.0”时代属于最早入局的，和特斯拉基本同步。我们现在已经开始研发“AI 2.0”的产品，也就是VLA（Vision Language Action，视觉语言动作模型）方案。

在此之前，常见的端到端模型通常是和视觉语言模型协调合作的，端到端模型类似于一个新手司机，而视觉语言模型则可以视为一位教练员，当新手司机开得不好时出言指点。这种做法肯定比新手司机自己开表现好，但局限也很明显，有些情况等教练发出指令的时候已经来不及，也有的时候指挥了也没用，新手还是开不好。

相比之下VLA希望直接把新手司机训练成教练员，让这个教练员自己开。这样就能够适应更多路况，表现也会更好。目前头部的端到端模型一般能实现城市路况几十公里零接管，使用VLA的话有希望做到100公里零接管。

【Y】在“端到端”大范围落地的同时，Robotaxi今年也频频进入大众视野。技术变革对Robotaxi的商业模式会产生哪些影响？

【Z】Robotaxi的核心不是技术，而是算账，就是算车辆由AI来开是不是比人类司机开经济上更划算。以前Robotaxi需要在量产车上加装各种传感器，整个成本非常昂贵，而且被限定在特定试验路段运营，其智驾能力很难迁移到更广阔的区域，从账上来算肯定不划算，所以现在做Robotaxi的企业已经比之前少了很多。

“端到端”给Robotaxi带来很大的改变，关键在于它有可能大幅度地降低成本。现有“端到端”大模型基本都是搭载在量产车上直接能用的，不需要后装传感器，也不限特定路段使用。而且对于智能驾驶公司来说，不需要像以前那样，为Robotaxi和量产车上的L2级别辅助驾驶功能分别开发算法，只需要基于同一套算法来调整基本参数就行，研发成本也会降低。

不过要把Robotaxi的成本降到比人类司机还低，可能还需要几年。这里面一方面涉及到算力的成本，算力的硬件和能耗成本，同时，还必须在控制成本的情况下提高端到端算法自身的性能，比如至少要做到1000公里零接管。