清华团队重磅发现：机器人正迈向“ChatGPT时刻”！每经专访论文作者：成功率已达90%，但商业化至少需达99.9%

2024-11-06 15:01:16 13阅读

如果将人工智能（AI）比作孩子，那么Scaling Law（以下简称“规模法则”）就是其重要的“成长密码”：只要“孩子”被给予足够的“营养”，即数据、模型和算力，他就能茁壮成长。

2020年，OpenAI发表论文《神经语言模型的规模法则》(Scaling Laws for Neural Language Models)，提出“规模法则”，为大语言模型的出现奠定了语言基础。因此“规模法则”也被视为人工智能的基石。

如今，这一的“规模法则”也正在引领机器人领域开启新世界的大门。

来源：《机器人操作模仿学习中的数据规模法则》论文

清华大学交叉信息研究院（以下简称IIIS）研究团队近日在预印本网站arXiv发布的论文《机器人操作模仿学习中的数据规模法则》（Data Scaling Laws in Imitation Learning for Robotic Manipulation）显示，在“数据规模法则”下，机器人实现了真正的零样本泛化，无须进行任何微调就能泛化到全新的场景和物体，成功率高达90%。所谓泛化，指的是一个模型或算法在处理未曾见过的新数据时的表现能力。

团队的发现表明，只要有足够的数据，机器人就能像ChatGPT理解语言一样，自然地理解和适应物理世界。一时间，外界对人形机器人可能迎来“ChatGPT时刻”议论纷纷。

连Google DeepMind的机器人专家Ted Xiao都称，其对机器人大模型时代具有里程碑意义。

图片来源：X平台

针对这项最新研究，《每日经济新闻》记者于11月4日晚间专访了该论文的作者之一、清华大学IIIS四年级博士生胡英东。

胡英东博士重点研究嵌入式AI，这是机器学习、机器人和计算机视觉交叉的前沿领域。他研究了开发通用机器人系统的基本挑战，这些系统可以有效适应和概括他们在不同的、非结构化的现实世界环境中的学习行为。

胡英东图片来源：预印本网站arXiv

清华团队重磅发现：“数据规模法制”也适用于机器人

火锅店倒水、公园叠毛巾、电梯内拔插头……在清华大学IIIS研究团队最新进行的研究中，便携式手持夹爪UMI在8种从未见过的环境中展现出来超强的适应能力。

IIIS团队机器人硬件设置图片来源：《机器人操作模仿学习中的数据规模法则》论文截图

研究设计的任务图片来源：《机器人操作模仿学习中的数据规模法则》论文截图

ChatGPT的问世验证了“规模法则”的“智能涌现”能力——规模越大，效果越优。要提升模型效果，就需要不断扩大参数规模、训练数据量、计算资源的规模。但机器人领域尚未建立全面的“规模法则”，因而未能取得深度学习领域那么快的发展。

为了探究上述三大要素之一——“数据规模法则”，清华大学IIIS研究团队设计了物体泛化、环境泛化及环境-物体组合泛化三大维度，通过系统调整训练数据规模，全面评估适当的数据规模能否产生可在任何环境下对几乎任何物体进行操作的机器人策略。

利用真实环境下收集的超过4万条人类演示数据，以及严格评估协议下进行的超15000次实机测试，该团队发现，策略的泛化性能与环境和训练时接触的物体数量呈现显著的幂律关系，意思是其中一个量的相对变化会导致另一个量的相应幂次比例的变化，且与初值无关。

图片来源：《机器人操作模仿学习中的数据规模法则》论文截图

而且，当环境多样性足够丰富时，在单一环境中过度采集不同操作物体的数据所带来的效用将变得微乎其微。而且，单个物体的演示数据很容易达到饱和，总演示数据达到800次时，性能就开始趋于稳定。该团队认为，每个物体有50次演示效果就基本能达到期望的泛化水平了。

最终的任务测试表明，在8种全新的场景中，机器人的成功率高达90%。这意味着机器人实现了真正的零样本泛化，可以无须进行任何微调就能泛化到全新的场景和物体。

也就是说，团队的发现表明，只要有足够的数据，机器人就能像 ChatGPT 理解语言一样，自然地理解和适应物理世界！而且，这也简化了数据收集工作，以前可能需要几个月才能完成，现在只需要几天甚至一个下午。

NBD：您能否分享一下，是什么促使团队去探索具身智能领域的“数据规模法则”？是否受到了大语言模型“规模法则”的影响？

胡英东：是的，我们对“数据规模法则”的探索确实部分受到大语言模型的启发。大模型中“规模法则”已经成为当今最基本的原则之一，它包括三个维度：数据、模型和算力。在探索模型和计算“规模法则”之前，理解“数据规模法则”是至关重要的。

NBD：能否用通俗的语言解释一下“数据规模法则”？

胡英东：我们发现，“数据规模法则”展示了机器人策略在新环境中的性能与训练中的环境和物体数量之间的幂律关系。简单地说，训练中包含的环境和物体数量越多，泛化性能越好。

NBD：论文中提到，“提高数据质量可能比盲目增加数据量更重要”。那么，您认为如何才能有效地提高数据质量呢？是否有具体的方法或策略？

胡英东：数据质量有很多方面，但我们主要关注数据的多样性。我们发现，在资源有限的情况下，在更广泛的环境和物体中收集人类演示比在特定环境中使用特定物体收集更多演示带来的效果更好。

叠毛巾来源：《机器人操作模仿学习中的数据规模法则》论文

90%的成功率不足以实现商业化，至少要99.9%

尽管IIIS团队的研究表明，只需投入相对较少的时间和资源，就有可能学习到一种可在任何环境和对象中零距离部署的单任务策略。现实中，要完成洗衣服、叠衣服等一些在人类看来非常简单的任务，AI依然面临不小的难度。

论文也指出，目前的工作还有一些局限性，他们只关注了单任务策略的数据规模，并没有探索多任务的通用性，因为这需要从数千个任务中收集数据。除了数据规模，IIIS团队还在模型规模化方面有三个重要发现：视觉编码器必须经过预训练和完整的微调，缺一不可；扩大视觉编码器的规模能显著提升性能；扩大扩散模型的规模却没能带来明显的性能提升，这一现象最让人意外。

为了激励更多的研究人员就此进行探索，团队还公布了其代码、数据和模型，希望业界能最终开发出能够解决复杂问题的通用机器人。

IIIS团队在GitHub上开源的代码

IIIS团队在Hugging Face上公布的数据

NBD：你们的研究发现，通过适当的“规模法则”，单任务策略可以应用于任何新环境和同一类别中的任何新对象。这是否意味着一旦机器人掌握了足够的数据，它们就不需要进一步学习了？

胡英东：这并不意味着机器人不再需要学习。虽然目前有90%的成功率，也让人印象深刻，但对于商业化和家庭使用仍然不够，我们需要达到99.9%以上的成功率，毕竟你不会希望一个机器人在倒水的时候有10%的几率打破你的杯子。

NBD：机器人在学习大量数据后，能够适应各种环境。这是否预示着未来很可能会出现通用机器人？

胡英东：我相信我们将来会看到通用机器人，我不能准确预测是什么时候。我们的研究只探索了数据规模，正如我之前提到的，我们还没有完全研究模型和计算规模。仍有许多重要的研究问题需要解决。

来源：《机器人操作模仿学习中的数据规模法则》论文

“人形机器人的ChatGPT时刻”尚未到来

在学界的努力之外，企业界也在专注于将通用人工智能引入物理世界，旨在开发大规模人工智能模型和算法，为机器人提供动力。

OpenAI就是其中之一。11月4日，Meta增强现实眼镜“Orion”团队的负责人凯特林·卡林诺夫斯基在社交媒体上宣布，自己已经加盟OpenAI，领导机器人和消费者硬件团队。他在帖子中表示，这份新工作最初将关注OpenAI在机器人领域的工作以及相关的合作，帮助AI“进入物理世界”，解锁对人类的好处。

同日，OpenAI被曝还参与了机器人AI初创公司Physical Intelligence的4亿美元融资轮。本轮融资由亚马逊创始人Jeff Bezos、Thrive Capital和Lux Capital领投。

Physical Intelligence在博客文章中提到，过去八个月里，他们一直在为机器人开发一种“通用”的人工智能模型。Physical Intelligence希望这个模型能成为他们实现最终目标——开发人工通用智能（AGI）的第一步。AGI是指在各种任务上达到或超越人类智能的人工智能技术。

NBD：一些文章将你们最新的研究发现称为“人形机器人的ChatGPT时刻”，您对此有何看法？你认为这个时刻是否已经到来，还是需要更多的技术突破？

胡英东：我并不认为我们已经达到了“人形机器人的ChatGPT时刻”，尽管我们正在朝着这个目标快速前进。ChatGPT的一个关键特征是其非凡的泛化能力——它能够在几乎任何用户定义的任务中表现良好。虽然我们强调机器人对新环境和新物体的泛化能力，但主要的区别在于我们的模型还不是真正通用的，不能处理用户可能给出的各种各样的指令。

NBD：研究已经在多个现实场景中得到了验证，那么您认为这些实验结果有一天能转化为实际应用吗？

胡英东：我相信我们研究的这项技术最终会进入日常实际应用，例如，用于餐馆的服务机器人。更有意义的是，这样的机器人可以应用于养老院，以协助老年人护理，这将是特别有价值和影响的。