甲子光年对话RockAI刘凡平：以群体智能挑战OpenAI的造神之路

2024-11-07 19:05:46 10阅读

相比于单体智能,群体智能才是智能的本质。

作者|甲小姐田思奇

ChatGPT呼啸而来的近两年,市场的大共识是AI即未来。但大概念之下,诸多命题争议并未收敛:开源还是闭源?商业如何闭环?Scaling law的天花板在哪里?通往世界模型与AGI的途径是否唯一?AI最终是否会失控?

这些讨论中蕴含一个关键命题:Transformer机制是否是永远的主导范式?

从全球AI从业者的行动来看,Transformer架构已经吸附了巨量的资本和人才,让挑战这一“铁王座”的任务变得格外艰巨。然而,科技爆发如同自然进化和物种演进,没有变异就没有进化的原动力,缺乏多样性往往意味着生态的脆弱,因此,「甲子光年」始终在寻找挑战这一“铁王座”的孤勇者。

这一次,我们迎来了RockAI岩芯数智。这家隶属于岩山科技的新锐公司刚刚成立一年多,但早在2024年初便发布了非Transformer架构的Yan架构大模型,并在9月将其迭代至具有多模态能力的Yan1.3模型,实现了在手机、电脑,甚至树莓派等广泛设备端上的无损部署。

当前,大部分人工智能从业者所置身的是一场“由OpenAI提出概念,Meta负责开源,国内市场专注应用”的技术接力赛,但RockAI CEO刘凡平放弃了这条路。

在行业持续加码数据和算力的军备竞赛中,刘凡平致力于基础理论层创新,他认为,算法仍有机会在2024年实现革命性突破。在OpenAI等巨头投入海量资源,旨在开发如神明一般无所不能的人工智能时,刘凡平坚信,行业不需要“造神”,也足以抵达AI巨变的另一种可能——群体智能。

本文,甲小姐对话RockAI岩芯数智CEO刘凡平。

1.“如果投入的资源和结果不成正比,那一定是在某个环节出了问题,我们认为这个环节就是算法”

甲小姐:在全球人工智能行业的聚光灯下,摆在AI从业者面前的是两条路:一是不断加大资金、能源和数据的投入追赶OpenAI等领先者的“造神”之路,二是寻找新的路径。为什么RockAI选择了后者?

刘凡平:我们也曾走在第一条路上,但到了2021年初,我意识到Transformer架构无法支撑我走得更远。它在算力消耗、数据处理等方面存在诸多问题。因此,我们决定走一条全新的路,开发一种更优秀的模型。

众所周知,人工智能的发展离不开三大要素:数据、算法和算力。其中,数据和算力都是有限的资源。我们不能依赖有限的资源来创造更伟大的成就,这种投入的成本也高得难以估量。“造神”工程对于现阶段的我们来说越来越难。

如果投入的资源和结果不成正比,那一定是在某个环节出了问题,我们认为这个环节就是算法。当然算法的突破并非一蹴而就,我们需要在漫长的过程中不断挑战底层逻辑来实现创新。

甲小姐:目前市场在算力和数据方面投入越来越多,是什么让你坚信当前的主要症结仍在于算法?

刘凡平:我举个例子,你知道人类大脑的功率是多少瓦吗?

甲小姐:30瓦。

刘凡平:没错,30瓦不到,而一台GPT服务器的功率远超于此。人类仅凭20多瓦的功率就能产生更高级的智能——这表明,人类的聪明程度并不与算力直接相关。

在数据层面,我们训练Transformer大模型通常需要10TB的数据。然而从小学到博士,我们学习的数据总量远低于10TB。为什么人类能在如此低的数据量和算力下产生智能?我们认为是因为机器缺乏合适的算法。因此,算法才是核心。

从人工智能的发展来看,Transformer架构诞生于2017年,但在此之前我们已经进入了大数据时代,RNN、LSTM等模型在当时也很优秀,但总有更优秀的模型来替代它们。所以,尽管Transformer架构在当下很优秀,它也并不能代表未来。

甲小姐:不得不承认,Transformer在此时此刻是主导性范式。全世界和你持有相同观点的人有多少?

刘凡平:挺多的。获得图灵奖的深度学习三巨头(杨立昆、本杰奥和辛顿)在不同场合都提过现有模型架构的一些问题。今年上半年英伟达举行GTC大会时,《Attention is All You Need》论文的作者之一也提到我们需要比Transformer更好的架构。

甲小姐:在今年5月的甲子引力大会上,我询问了包括朱啸虎、傅盛等嘉宾关于Transformer是否是“铁王座”的问题。大家的观点是,也许它并非最佳,但也看不到第二条出路。如果你要重新定义主流范式,那达到什么程度时,会让你觉得这条路跑通了?

刘凡平:我们已经成功验证了我们的技术路线,Yan架构大模型在某些方面已经超越了Llama3的表现;特别是在训练效率、成本控制及推理吞吐量等方面,都展现出了明显的优势。

其次,我们的追求是让每个人都能享受到AI带来的便利,让更多设备用上AI。现阶段我们也达到了这样的状态,我们最低在树莓派上就可以运行——相当于家里的机顶盒都可以用上大模型。这会让每一个觉得大模型很遥远的人都感受到它近了。

我们9月发布的Yan 1.3是完全在设备端运行的版本。最近举行的开放日活动上,我们展示了搭载Yan1.3的多种设备,包括无人机、机器人、树莓派、手机、AIPC等。Yan1.3还具备了多模态交互的能力,它能够处理文本、视觉和音频输入,同时提供文本和音频输出,从而实现人机交互的过程。

甲小姐:在这么多终端上的多模态部署是如何实现的?

刘凡平:以树莓派这类开发板为例,它不仅能被应用于家庭中的机顶盒,还能被集成到冰箱、洗衣机等多种家电产品中。这表明我们的技术可以广泛应用于家庭和工作场所等多种环境。

但是把传统的Transformer架构集成到这些设备上存在很多困难。目前主流的做法,如模型的量化、裁剪和蒸馏等,虽然可以将大模型压缩来适应小型设备,但这些方法可能导致模型失真。失真是指在模型压缩过程中,原始模型中的参数值被简化为近似值,例如π被简化为3.14。大量的参数缩减可能导致模型性能的显著下降,从而影响实际应用的效果。我们希望实现无损部署,把自主学习能力衍生下来。

甲小姐:怎么做到从有损到无损的部署?

刘凡平:我们改变了Transformer的Attention机制。在GTC大会上,有演讲者提到,即使是执行简单的计算任务,如2+2,传统AI模型中的所有参数都会参与运算。然而人类的大脑并非这样工作。你开车的时候会集中注意力在路面信息上,这时大脑中的视觉皮层会被大量激活,而当你在晚上睡觉时闭上眼睛思考问题,视觉皮层的活动就会减少,因为这时不需要处理视觉信息。

这个例子说明,人脑在处理不同任务时,只有相关的神经元会参与运算。基于这一原理,我们也在我们的AI模型中实现了类似的类脑机制。我们希望模型在执行特定任务时,只有与该任务相关的参数参与运算。

这不意味着其他参数没有意义,而是它们在不同的条件下才会被激活。这样的设计模拟了人脑的工作方式,使得模型在处理信息时更加高效和有针对性。

甲小姐:你用类脑机制规避了Transformer那种暴力性的投入。但大脑是很难被理解的。我也不知道睡前半梦半醒的状态下,我的哪些脑细胞被激活了,哪些参数被压抑了。我们都还没有完全理解我们的大脑,你如何做到类脑?

刘凡平:我们的途径是类脑智能,而不是复制一个真正的大脑。人类大脑已经演化出一套高效的机制和反应方式,我们可以将这些特性整合到我们的AI模型中。这些模型应该借鉴大脑的最佳特性来提高性能和效率。说得更直白一些,Attention机制的早期理念也包含类脑的元素,但它没有按照完整的类脑方式去实现。既然生物界已经有很好的方案,我们为什么不引用?

甲小姐:Transformer有意地让渡了很多人为设计,是为了更好地泛化到不同的场景中。在面对高度复杂的端侧环境或应用场景时,如何确保你们的机制具备类似transformer的泛化能力和适应性?

刘凡平:类脑分区激活的过程完全是模型自我形成的,没有外部的人为干预。神经元的激活模式完全由模型根据其所处环境自主决定,从而在底层技术上确保了这一机制的自然性和适应性。

我们的理念是让机器直接与现实世界交互并从中学习,这比单纯依赖于人工准备的数据集进行训练更为有效。正如儿童通过与社会的实际互动来获取知识和技能一样,机器也需要置身于真实的环境中实现更加丰富和深刻的学习体验。因此,我们要使更多的设备能够承载这些先进的模型,并将其广泛部署到千家万户之中,从而允许它们在多样化的应用场景中不断学习和完善自身。从技术和数据的角度来看,更真实的数据有助于推动模型变得更聪明。

甲小姐:具体到端侧,Yan模型是如何在机器人、无人机这种设备下体现你所说的这些特征的?

刘凡平:比如在无人机应用场景中,我拿着甲小姐的照片给无人机看,指示它识别并寻找甲小姐是否位于室外的某个地方,比如操场或运动场。无人机就能够理解我的指令,自动起飞,前往指定区域内搜索甲小姐并拍照。再比如集体拍照环节,我可以跟无人机说,等到我招手或者集体起跳的时候再拍照。这种感知能力是传统模型达不到的。

甲小姐:可是,你把这样的智能做到无人机和路由器里,我也并不会认为无人机活了,或者路由器活了,他们和我们直觉里的“智能”不太一样。

刘凡平:但是你会感觉到它的智能,因为它确实解决了你的实际问题。原来空调是没有智能的,现在我们隐约感觉到它有了智能,包括冰箱也是。大家正在适应这个过程,而我们在做的是加速这个过程,帮助我们通往人机共融共生的智能时代。

未来智能体的数量会远超人口总数的很多倍。这一比例变高不是坏事,它意味着人能获得的服务越来越好,生产效率也越高。

2.“相比于单体智能,群体智能才是智能的本质”

甲小姐:你选择了一条hard模式的创业路。通常创业公司会乘着时代红利加强创新成功的概率,但你要挑战最主流的范式,在基础理论层做创新。你认为RockAI可以脱颖而出的“法门”是什么?

刘凡平:RockAI致力于底层逻辑的创新,核心目标是实现群体智能。群体智能由多个能够自主学习的智能单元组成,它们通过环境感知、自我组织、相互交流和协同合作来完成复杂任务,并在复杂环境中实现整体智能的提升。

从蚂蚁到狼群,再到人类社会,都存在迈向群体智能的过程。通过这种方式,我们可以更有效地利用资源,实现智能的全面提升,而不仅仅依赖单一的技术创新或概念。

甲小姐:你刚才说过“造神式”的人工智能投入产出比不合理,你所做的群体智能是否仅仅是因为资源有限才退而求其次的战术选择?

刘凡平:并非如此。相比于单体智能,群体智能才是智能的本质。比如我们体内的一个白细胞对于免疫系统来说没有意义,但一群白细胞就能产生免疫作用。狼群也通过相互协作来捕食猎物。人类社会也早已证明,在追求最高智能的过程中,还是要依靠群体的智慧。我们所有的成果,包括前沿科技,航空航天等等,都是群体智能的成果。

甲小姐:群体智能和传统的云端协作有什么区别?

刘凡平:云端协作中有一些任务在设备端完成,有一些在云端完成。人类社会中也有群体智能。假设在办公室里,每一个人是独立的个体,云相当于公司,每个人会遵守公司的一些制度。我们所理解的群体智能中的端和云,是价值的传递和能力的对齐与理解。

甲小姐:OpenAI的核心是造出强大的“单一神明”,可以解决我所有的问题和疑惑,成为我的助理。而你要做的是智能的集体,每一个单体在协作机制下涌现出更符合自然法则的智能体系?

刘凡平:是的。OpenAI造出的“神”需要人的信仰与崇拜,它会加速信息不公平。我们更希望每个人都能公平地获得信息。

为什么要追求OpenAI的模式,创造一个所谓的“神”?从更高的维度来说,为什么我们要寻找单一最聪明的智能体?一个小孩长到10岁左右,他的知识面可能还不够广泛,但我们能判断出这个孩子有潜力。这说明我们更看重孩子的学习能力,而不是他出生时的聪明程度。智能体最重要的是与社会进化同步的能力,而不是它绝对的聪明程度。

甲小姐:OpenAI的做法可能代表工程师特有的一种野心。工程师都喜欢造物,都想扮演造物主。

刘凡平:但是人类无法创造这类生物,因为更有价值的东西不是创造生物,而是以人类为中心去创造价值。我们应该以人为中心,而不是以神为中心。

甲小姐:人造神具有一种神秘感,让这个赛道更性感,可以让估值冲上百亿甚至千亿美金。如果OpenAI宣传的是要做辅助人类拍照的工具,就不可能支撑它今天的市值。而你是在祛魅,直接说我们可以降低30%成本甚至更多,实现多模态的终端智能等等。这可能意味着你的创业之路没有神秘光环护法。

刘凡平:我们需要的不是神秘光环,而是实现我们的群体智能。这才是最核心的——其他的光环如果不能转换成为社会服务的价值,我们认为没有意义。

甲小姐:行业很多人选择蹲守、后发、追赶,而你本来也可以不用辛苦地扛大旗,等群体智能的行业领导者出现了,你再跟进就可以。你为什么要选择自己突破一个全新的范式?

刘凡平:我们已经在跟随了,行业老大就是大自然。生物界已经给了我们明确答案。

甲小姐:这让我想到几年前我和达特茅斯会议的参与者特伦斯·谢诺夫斯基的对话。他当时也告诉我,当我们无路可走的时候,就回归自然。我们可以遵循自然的机制,而不是在脑海中杜撰一个乌托邦。

他的观点有点类似“道法自然”的东方哲学,而西方哲学更强调个人英雄主义和英雄叙事,比如漫威中的超级英雄,往往以改变世界、重塑秩序的个人力量为核心。

刘凡平:群体智能中也有个人英雄,但这些角色是动态变化的。比如在产业领域,甲小姐可能更擅长;当话题转向计算机科学,另一位成员更了解技术细节,他就成为新的中心节点——这种角色的转换体现了群体智能的重要特征:中心点的去中心化。它不仅仅依赖于个体的专业能力,更重要的是如何灵活调整角色以适应不同情境下的需求,从而实现整体效能的最大化。

甲小姐:在具体实现群体智能的过程中,RockAI把群体智能的实现分为创新型基础架构、多元化硬件生态、自适应智能进化、协同化群体智能四个阶段,确定这四个阶段的条件和标准是什么?

刘凡平:我们已经实现了第一个自主架构模型,多元化的硬件生态系统也已构建完毕。在自主学习与自适应进化方面,一个关键特性是“训推同步”,即训练与推理过程能够同时进行,这类似于人际交流:当我表达观点时(推理阶段),同时也通过倾听你的介绍来进行自我学习(训练阶段)。因此,系统能够在执行任务的同时不断优化自身性能,实现持续的学习与改进。“训推同步”不仅是模型自我完善的核心机制,也是验证其自主学习能力的有效方式。将边学习、边输出、边讨论的理念融入整个过程中,就可以显著加速系统的成长速度和知识积累效率。

甲小姐:从执行角度来看,哪些是你确定已经完成的事情,哪些未来还有留白和风险?

刘凡平:对于架构我们完全确定,另外自主学习与自适应智能进化代表的第三阶段也在我们实验室里运行到比较好的状态,明年会正式对外发布。目前正在挑战的是第四阶段,也就是机器与机器之间如何协作的过程。人类的信息交流是通过语言,但语言沟通需要时间成本,机器沟通的效率会更高,我们还在探索如何通过最高的效率实现相互合作,预计2026年会进入群体智能阶段。

甲小姐:我可否理解为,你相信智能的本质不是在运动场上比谁跳得高,而是人类作为一个集体,在这项运动上可以达到什么程度?在这条路上你的胜算有多大?

刘凡平:我们非常有信心,100%。

甲小姐:为什么?

刘凡平:2020年底,我在一个AI和机器人的大会上讲完自己大模型的内容,一位行业大佬拍着我肩膀说,你走错路了,但我当时很坚定。等到ChatGPT火起来的时候,我们的模型早已交付。所以我相信自己的判断力。随着我们的模型在社会上投入应用,越来越多厂商接触到我们,从自我认可到外部认可的过程已经开始显现。

3.“2024年到2025年,基础算法的变化一定会发生”

甲小姐:ChatGPT之所以让人惊艳,是因为它做出的产品让人觉得“像人”。从智能的本质来说,很多人认为智能有没有意识、怎么想不重要,只要它看着像智能,听着像智能,用着像智能,它就是智能。而你选择的道路,让智能看起来并不“像人”。

刘凡平:我不太认同“像人”是唯一标准。我觉得智能还是源自物理世界,它是从物理世界逐步衍生出来的。大家心中感受到的智能只是表象。第一,每个人的感觉不完全一样。第二,现在大家用ChatGPT的频率也不一定有刚发布时那么高了。

甲小姐:Transformer的作者之一表示,要想让人工智能真正迈进,你得做到显著优秀,让人一看就知道。他也因此认为,当前业界发展还过于静态,一直留在原点。你怎么评价他的观点?

刘凡平:他提到要显著被看到,这个观点我认同。但另一方面,智能化存在演进的过程,他说的静态也许是相对的。就好比我们人在船上,我相对于船,我是静态的,但相对于岸边的人,其实我在运动。也许他作为业内人士看到的内容相对静止,但宏观世界已经在向前。

甲小姐:业内有一些和你们类似的架构或者团队,比如去年发布的RWKV和Mamba模型被称为Transformer的强劲对手,包括最近MIT推出的LFM架构,据称在性能上已经超越了Llama3.2。你有没有关注他们?

刘凡平:他们也是我们关注的一部分,但是从实践效果来说,我们现阶段比较乐观,因为我们底层架构的原理比他们先进很多。

甲小姐:从某种意义上来说,你现在可能要呼唤竞争对手,因为需要更多非Transformer路线的孤勇者把这个大方向点亮。

刘凡平:有可能他们也在呼唤我们。

甲小姐:很多人跟我说市场已经非常卷了。你认为国内大模型研发是否也陷入模式化的困境?如何避免国内人工智能行业走向加拉帕格斯时刻(指孤立的生态系统遵循独立范式,一旦有外来范式或者物种加入,原有的体系变得异常脆弱)?

刘凡平:困境是存在的,Transformer现在的确陷入这样的怪圈里面。目前国内和国外的状态,我觉得可以比喻成一场技术的接力赛:OpenAI提出概念,Meta负责开源,而国内则专注于应用。这并非我们追求的方向。

甲小姐:没错,很多人都在蓄势待发地等着当“第二名”。我在2024年5月的甲子引力大会上也提到,AI已经变成了一场明牌游戏——一旦先行者跑通了,验证了,后来者的速度就加快了。从结果看,AI很像是一场“me too”竞争:你一旦有,我马上有。

刘凡平:但这是一场多样化的比赛,我们不应该仅仅看到Transformer,并且Transformer现在的困境也和太多人投入在上面有关。

甲小姐:几年前,关于人工智能的讨论还充满了自信与热情,人们积极探讨真智能的定义及对未来的憧憬。现在我感到许多人似乎放弃了独立思考,转而依赖OpenAI来设定智能标准和技术突破的方向。每当OpenAI预告GPT-5的重大进展,公众便翘首以盼;若GPT-5遭遇挑战,OpenAI推出GPT-4o和o1之类的新模型,大众的关注点又迅速转移。

刘凡平:问题在于,为什么我们要等OpenAI呢?事实上在OpenAI创业之初,它并不是主流。当时Transformer架构的Bert是主流。而现在的OpenAI是不是当年的Google Bert?为什么现在不能再产生新的路线?我认为 follow OpenAI不是一条合理的路,而且也不适合我们国内的产品。

甲小姐:每个时代的技术自有属于它的代际使命。我想知道你对人工智能行业发展的判断,第一是关于人工智能在2024年的预测,第二是对5年后人工智能的预判,最后是关于人工智能的终极预判。

刘凡平:我内心一直有明确的答案。2024年,人工智能还会发生很大变化,核心体现在算法层面,我相信很重要的算法很快就会诞生。就像刚刚获得诺贝尔物理学奖的辛顿,他很早就用FF算法挑战过自己提出的反向传播算法,而反向传播是现在人工智能最关键的底层算法。像他一样的很多人都看到了改变底层算法的必要性。2024年到2025年,基础算法的变化一定会发生,可能还会更快,因为前沿的研究者都意识到了这一点。

5年以后,不管硅谷或者国内会有什么预判,通用人工智能的水平一定远远超过现在的水平。

至于终极的形态,我还是认为会走向群体智能。只有走向群体智能,才可能真正迈向更广泛的大众化人工智能。

甲小姐:你的三个判断很具体,尤其算法在2024年内就可能迎来重要的革新,这件事被大量媒体忽略了。还有什么是你想分享的?

刘凡平:我想强调的是,从我个人和团队的创业历程来看,创新才是科技公司的本质,而不是一味地follow。follow这条路有它的价值,但不能改变太多。我们相信基础层的创新能对应用层和未来的市场价值带来巨大的改变,所以我们愿意去做一家创新的科技企业。