“端到端”是智能驾驶的“GPT2时刻”——专访元戎启行CEO周光

2024-11-07 21:02:14 8阅读

2024年智能驾驶行业融资状况回暖,多家企业迎来融资甚至上市。同时,今年也是“端到端”智能驾驶技术大范围推广的一年,头部新能源车企和智能驾驶技术供应商都开始讲述各自的“端到端”故事。

作为最早一批落地端到端的智能驾驶技术供应商,元戎启行(正文中简称“元戎”)在11月5日宣布完成了1亿美元的C1轮融资,成为今年单笔融资金额最高的智能驾驶公司。在融资消息发布后,《第一财经》采访到元戎启行CEO周光,展望了在资金面和技术面都发生重大变化的背景下,智能驾驶行业未来几年面临的关键机遇和挑战。

“端到端”是智能驾驶的“GPT2时刻”——专访元戎启行CEO周光

【Y】= 第一财经

【Z】= 元戎启行CEO周光

【Y】以往智能驾驶公司的融资主要来自于风投和产业基金,但元戎最近两笔融资都来自车企。车企为什么越来越愿意砸钱给智能驾驶供应商,他们看中的是什么?

【Z】核心是AI,车企越来越多地意识到AI对其产品的重要性。但是AI的能力不是从零开始很容易建立的,像特斯拉这样拥有特别强大AI能力的车企非常少,大多数车企在这方面也没有太强的技术积累,这时候选择AI能力突出的第三方供应商就是很自然的选择。

车企选供应商最主要还是看性能,尤其怕智能驾驶算法“作弊”——依赖高精地图,只能在特定区域内表现出良好性能,换个地方就不行。为了解决这个顾虑,我们的做法叫“板车试乘”,就是由车企指定地点,让拖车把搭载了我们智驾方案的样车送达,车一下拖车,未经任何调试,就能智驾上路,车企可以随便指定交付地点。这样他们就会相信这个智驾方案确实比较靠谱,可以用到量产车上。

【Y】早期智能驾驶公司对量产车兴趣不大,专注于实现全无人驾驶。不过元戎很早就把重心放到量产上来,这背后的逻辑是什么?

【Z】早期的智能驾驶技术都是基于规则的,典型的例子是Waymo,在一个很有限的区域内,把地图做得非常精细,规则设置得非常复杂,以期能做到智能驾驶。这种方案采用的车通常都需要经过特殊改装,不能直接使用量产车型完成,而且很明显无法推广到所有道路,因为高精地图的更新需要漫长的周期。总之就是成本很高,商业上不可行,所以我们很早就决策不做这个方向,而把重点放到不依赖高精地图、可量产的方向上。

对于智能驾驶公司来说,量产最大的意义在于提供数据。对一般的端到端模型来说,1万辆车是个基准,有这个数量的车在路上跑,才能保证智驾模型不断向前进化。如果要追求更进一步的性能,比如我们正在开发、预计明年推出的VLA模型,要达到比较好的训练效果至少得有10万辆车的数据。这个量级的车靠资方来投资不现实,必须直接杀入量产车市场,直接面向大众消费者。特斯拉就是最好的例子,量产车和智驾功能互相促进,形成良性循环。而且很明显,这个量产不仅限于国内市场,还应该考虑海外市场。我们和欧洲、日本、韩国的车企都在谈合作。

【Y】“端到端”这个话题今年很热,元戎怎么理解这个概念?端到端提供了什么样的优势,又面临什么样的挑战?

【Z】“端到端”模型可以理解为一个神经网络,这一点和大语言模型有点类似,两者的优势也比较类似,就是摆脱了对规则的过度依赖,能够面对此前没有经历过的各种复杂场景。不同之处在于,他们输入输出的数据类型很不一样。“端到端”模型有点类似“蓝领AI”,它直接跟物理世界打交道,也直接指挥车在物理世界里行动;与此同时,GPT类似“白领AI”,它的核心功能都可以在办公室电脑上完成,不需要与物理世界交互。

由于这种功能上的区别,使得两者对算力的要求差距很大。GPT要提升性能必须尽可能地掌握源源不断被生产出来的各种资讯,而端到端的智驾模型却不需要知道那么多,它只需要理解路和路上可能产生的各种物理后果就可以,其算力需求要比GPT低一个数量级。

因此“端到端”这个赛道的挑战不是堆算力,而是拼算法,看谁调试模型提升性能的方法更有效、更高效。目前的端到端我称之为“AI 1.0”,可以说是智能驾驶的“GPT 2时刻”,它只是新一轮智能驾驶技术竞赛的起点。接下来最大的挑战是如何快速把端到端的能力提升到类似于GPT 4的阶段。

【Y】元戎在2023年初就开始布局“端到端”,是国内最早一批提出并实现这一技术的公司。元戎的“端到端”方案和市场上其他类似产品相比有何特色?

【Z】我们在“AI 1.0”时代属于最早入局的,和特斯拉基本同步。我们现在已经开始研发“AI 2.0”的产品,也就是VLA(Vision Language Action,视觉语言动作模型)方案。

在此之前,常见的端到端模型通常是和视觉语言模型协调合作的,端到端模型类似于一个新手司机,而视觉语言模型则可以视为一位教练员,当新手司机开得不好时出言指点。这种做法肯定比新手司机自己开表现好,但局限也很明显,有些情况等教练发出指令的时候已经来不及,也有的时候指挥了也没用,新手还是开不好。

相比之下VLA希望直接把新手司机训练成教练员,让这个教练员自己开。这样就能够适应更多路况,表现也会更好。目前头部的端到端模型一般能实现城市路况几十公里零接管,使用VLA的话有希望做到100公里零接管。

【Y】在“端到端”大范围落地的同时,Robotaxi今年也频频进入大众视野。技术变革对Robotaxi的商业模式会产生哪些影响?

【Z】Robotaxi的核心不是技术,而是算账,就是算车辆由AI来开是不是比人类司机开经济上更划算。以前Robotaxi需要在量产车上加装各种传感器,整个成本非常昂贵,而且被限定在特定试验路段运营,其智驾能力很难迁移到更广阔的区域,从账上来算肯定不划算,所以现在做Robotaxi的企业已经比之前少了很多。

“端到端”给Robotaxi带来很大的改变,关键在于它有可能大幅度地降低成本。现有“端到端”大模型基本都是搭载在量产车上直接能用的,不需要后装传感器,也不限特定路段使用。而且对于智能驾驶公司来说,不需要像以前那样,为Robotaxi和量产车上的L2级别辅助驾驶功能分别开发算法,只需要基于同一套算法来调整基本参数就行,研发成本也会降低。

不过要把Robotaxi的成本降到比人类司机还低,可能还需要几年。这里面一方面涉及到算力的成本,算力的硬件和能耗成本,同时,还必须在控制成本的情况下提高端到端算法自身的性能,比如至少要做到1000公里零接管。

“端到端”是智能驾驶的“GPT2时刻”——专访元戎启行CEO周光

文章版权声明:除非注明,否则均为噶吃饭吗原创文章,转载或复制请以超链接形式并注明出处。

目录[+]

取消
微信二维码
微信二维码
支付宝二维码