深度|DeepMind机器人组负责人:过去人们一直将注意力集中在本体,但真正带来巨大飞跃的是机器人的心智进步

搜索
AI-TNT
正文
资源拓展
深度|DeepMind机器人组负责人:过去人们一直将注意力集中在本体,但真正带来巨大飞跃的是机器人的心智进步
2025-06-03 16:19

深度|DeepMind机器人组负责人:过去人们一直将注意力集中在本体,但真正带来巨大飞跃的是机器人的心智进步

图片来源:Google DeepMind


Z Highlights


  • 在机器人抓香蕉这个事情上,它们依赖的是手眼协调,靠视觉学习如何抓取香蕉。它们最有独创性的地方在于它不是因为我们教了它上千次如何抓香蕉,而是它从 Gemini 那里获得了关于“如何抓取物体”的知识,然后将这些知识应用到现实世界的动作中。


  • 我们人类本来就是通过多种感官来感知世界的。我认为如果我们想要开发出像人脑那样强大的智能系统,就必须能以多模态的方式处理输入。机器人正是一个完美的例子,它需要理解自然语言和视觉输入,而且未来很可能还需要触觉感知,才能做出像人类那样的行为决策。


  • 对于我们人类来说,机器人的识别和标记边界框等功能看似微不足道,我们甚至不会意识到自己在做这些判断。但如果机器人也能获取这些信息,它们在现实世界中的行为就会更聪明。这正是我们所说的“具身思维”。


  • 在前段时间里, 研究人员一直将注意力集中在机器人的身体上。但心智的进步才给机器人带来了最大的进步。


Carolina Parada 是 Google DeepMind 机器人研究负责人,从小立志打造智慧机器人。她带领团队将Gemini融入机器人,让它们能感知、理解并行动。本次由Hanna Fry教授主持的Google DeepMind播客,常年探讨AI如何走出实验室,解决现实世界难题。


机器人技术的演变与未来


Hanna:欢迎收听本期Google DeepMind播客,我是Hanna Fry教授。在日常生活中,人们常把AI和“机器人”混为一谈,尤其在提到聊天App时。但机器人是真正拥有物理形体的。在Google DeepMind,我们专注于把大模型嵌入到现实世界的机器人中。虽然语言能力进步巨大,但机器人具身智能发展还相对缓慢。Carolina Parad和她的团队正致力于解决这一问题,尤其是在Gemini Robotics项目中。那么,你怎么看机器人的演变 ?


Carolina:是的,这真的非常令人兴奋。我从十岁起就对机器人充满热情。我非常兴奋,因为我在动画片里见过它们。比如动画里的Rosie,一个会帮你做家务的机器人。小时候我就想,长大后当然要造一个那样的机器人。事实上,我已经在我的机器人团队担任领导将近七年了。在过去三年里,一切都发生了巨大的变化。我们从一开始就相信AI会彻底改变机器人技术。我的意思是,现在已经有很多非常实用的机器人了。


现在在制造工厂里有机器人,在月球上有自主导航的机器人,在海洋中也有作业机器人。但这些机器人都是被预先编程来完成特定任务的。它们对所处环境和可能遇到的物体做了很多假设,而且通常由人类远程操控。但我们从一开始就相信,AI是改变机器人领域的正确方向。这样我们才能真正打造出能与人类互动、感知环境、并以通用方式行动的智能机器人。这从一开始就是我们的使命。三年前,你们的播客在提到机器人技术的时候。当时我们正在对机器人进行强化学习。


基本上,我们通过设定简单的奖励机制来教机器人叠积木,比如塔叠得越高就获得“1加1”的奖励。我们在这方面取得了一些进展。但随着我们站在AI 技术的高点上,我们将其越来越深入地融入整个机器人领域。比如在 2022 年,我们第一次将LMS(学习管理系统)引入了机器人,那是第一次你可以直接对机器人说“我渴了”这样的话,它能理解你的意思。后来我们又引入了VLM(视觉语言模型),使机器人不仅能理解自然语言,还能理解它摄取的视觉信息,并据此做出决策。接着在 2023 年,我们推出了Robotics Transformers,那是Transformer架构首次被真正引入到机器人中。这实际开启了大规模数据驱动机器人学习的新基础或新时代。到最近我们推出了Gemini机器人技术,它本质上是将对Gemini的多模态世界的理解。并通过在Gemini中添加动作作为新模式将其带入物理世界。这使模型变得非常泛化,因为它是通过Gemini的模型来理解世界,使其有交互性。事实上,它可以理解Gemini支持的任何语言,并使其变得灵巧。所以它可以在与你交谈的同时仍然可以进行复杂操作,而且还能理解全新的情况。而这对于今天的机器人来说很难做到


Hanna:我们怎么判断你们的宏伟目标是否达成了呢?


Carolina:我认为这一定是一个逐步实现的过程,直到机器人能够理解一个全新的情境,并思考如何完成它从未见过的任务。事实上,这正是我们现在正在看到的。但要让机器人学习越来越复杂的任务仍然很困难,而这也是我们当前面临的挑战。机器人目前的状态有点像一个两岁的孩子,他开始理解周围的世界,可以开始与物体互动,理解一些概念。但如果你教他更复杂的事情,比如折纸,他确实需要时间练习。如果他练习得更多,最终就能掌握。我们现在正处于这样的阶段。但显然这离我们的长期目标还有很大差距,我们还有很多事情要做。


从基础任务到复杂操作:机器人的进步


Hanna:我觉得我们可以看看这些机器人已经能够做什么,因为你们最近发布了一个视频。在视频中,一个类人机器人正在为他准备午餐。还有个机器人在玩井字棋。它擅长玩井字棋吗?


Carolina:我认为我们玩的一般,因为它对井字棋的理解非常简单。


Hanna:它还可以自己制作字谜,那么最让你印象深刻的是什么?


Carolina:我觉得这些模型最令人兴奋的地方在于,很多时候连我们的研究员自己都被它的表现惊艳到了。这主要是因为我们在测试中让机器人面对它从未见过的情境,连我们也不知道它能否做对。但很多时候,它真的做到了。我们在这个视频里展示的许多例子,以及其他视频中机器人双臂协调动作的画面,都表明它确实理解了复杂的概念。有一个特别酷的例子是我们播放了机器人完成灌篮动作的视频,我们全体都惊讶不已。这个案例最有趣的地方在于,当天只有创意团队来拍摄机器人,我们只是让他们带些玩具过来。我们没有给任何其他指示。他们带了玩具,是想让机器人“玩”,而这些东西对机器人来说都是全新的。他们完全不知道机器人受过怎样的训练。于是他们带来了一个迷你篮球框,是个很可爱的玩具,还配了一个小球,然后把这个场景呈现在机器人面前。这个机器人此前从未接触过篮球,也完全不认识这个玩具。然后,他们就让它尝试灌篮。


我们当时都不确定这是否会成功。实际上,它几乎没犹豫哪怕四分之一秒,就决定把球投进篮球框。我们全都震惊了,简直难以置信。说到底,这完全依赖于Gemini对“篮球”和“灌篮”这些概念的理解。这种概念根本不是我们能逐条教它的。而它却做出了正确的动作。


Hanna:再比如它打包午餐的能力,它对“香蕉”是有概念性的理解的。那么它能抓起香蕉吗?因为你不能让它像抓陶罐那样去抓香蕉。


Carolina:这些机器人最令人印象深刻的一点在于,它们其实非常简易,没有触觉、没有深度感知,也没有力传感器。基本上,它们依赖的是手眼协调,靠视觉学习如何抓取香蕉。它们先观察物体,然后进行抓取。当它看到香蕉已经在自己手中时,就知道它成功识别并拿住了。虽然也有更复杂的物体和机器人系统,但这些机器人迫使模型真正思考它“看到”的东西,并决定如何去抓取。这正是它们最有独创性的地方。这方面的关键在于,它不是因为我们教了它上千次如何抓香蕉,而是它从Gemini那里获得了关于“如何抓取物体”的知识,然后将这些知识应用到现实世界的动作中。


具身智能与通用性:跨越简单任务的局限


Hanna:过去几年网络上出现过很多机器人展示视频,看上去非常惊艳,有机器人翻跟头、爬山等等。相比之下,把香蕉放进面包盒似乎是一项很简单的任务,对吧?但我们现在讨论的其实是完全不同类型的机器人。


Carolina:这是另一个要解决的问题。很多炫技视频里的机器人执行的是事先学习并死记硬背的动作序列。虽然我们确实对它们印象深刻,但我们现在面对的是不同的挑战。我们希望机器人能根据手头的物体推断出“打包午餐”意味着什么,比如要把一片面包装进袋子里、并理解“封口”的意义。那种方式永远无法按你预期工作,因为我们处理的是非常灵活、柔软、并会移动的物体。所以机器人必须实时应对眼前的变化,真正去完成任务。这就是“通用性”的核心理念。


Hanna:你们是如何判断一个机器人是否比另一个更具通用性的?你们是怎么比较的机器人的表现的?


Carolina:这实际上是我们在为这个版本录制demo时遇到的一个难题。因为demo本质上是预设好的,就像剧本一样。我们觉得这并不能完全体现我们想表达的能力。所以我们请团队成员带一些玩具来,直接与机器人互动,看看会发生什么。最有效的方法是我们可以通过语言来控制机器人的行为。在视频中你也能看到这一点。我们实际上可以放置一些机器人从未见过的物体,并且我们还会故意移动这些物体,以确保人们明白这些行为并非事先编排好的。实际上,在我们的基准测试中,我们用各种方式来评估模型的泛化能力。例如,我们会更换视觉背景;改变场景布置;引入新的物体;添加干扰元素来吸引机器人的注意力;我们还会要求它执行完全陌生的任务。你甚至可以用另一种语言与它交流。我可以直接用西班牙语给它下指令,它也能立即执行。


机器人的系统一和系统二


Hanna:我还想谈谈“交互性”。在你们的一些视频中,有一个画面是一个人坐在办公桌前,机器人在他身后整理东西。另一个视频中,一个人移动了一只杯子,机器人则跟着杯子走并试图把东西放进去。这些交互场景相较于静态任务到底难多少?


Carolina:其实,很多更高级的行为和互动并不是我们特意编程出来的,而是模型自己实现的。比如我们从未明确设定“当物体移动多快时机器人要如何应对”。我们只是知道我们需要一个能快速反应的模型。而视频中展示的很多例子,都是团队成员与模型互动并观察它如何表现的反应。整理办公桌也是一样,那其实是有人在与机器人互动,我们想知道互动多少次才能让机器人理解动作意义并完成全部任务。


当你将 Gemini 中已经具备的许多其他功能应用到机器人身上时,它们实际上非常有价值,这真是令人惊奇,因为机器人现在能够根据你所说的内容进行调整。因此,你实际上可以进行完整的对话,并在机器人移动时改变其行为。所以你可以说:我希望你这样做,或者我希望你做另外一件事,它实际上会follow你。然后您还可以改变周围的物体,他也会follow你。


Hanna:我有时觉得这些机器人没有感觉其实挺好。因为它被研究人员“追着跑”时,就会感到非常孤独。而让这一切成为可能的,是背后运行的大型语言模型,它为机器人提供了操作对象的概念性理解。


Carolina:我们利用Gemini的多模态理解能力,将机器人通过摄像头接收到的视觉输入和从人类那里听到的自然语言结合起来,转化为具体的操作指令。而且,它也会回应。你可以问它是否完成了任务,或者它现在折纸折到哪一步了,它都能理解并作出回答。


Hanna:我记得当Gemini刚推出时,大家都在讨论它的多模态特性。这是不是其中的主要原因?这是否是此前所有努力的回报,例如让模型理解视频、图片等等?


Carolina:我们人类本来就是通过多种感官来感知世界的。我认为如果我们想要开发出像人脑那样强大的智能系统,就必须能以多模态的方式处理输入。机器人学正是一个完美的例子,它需要理解自然语言和视觉输入,而且未来很可能还需要触觉感知,才能做出像人类那样的行为决策。


Hanna:但为什么机器人必须要对自己的行为有概念性的理解呢?我的意思是,也许它们不需要被称为“智能”,但比如洗碗机或割草机这些机器人,它们并不知道什么是盘子或者草,这似乎也没问题。那是否真的有必要?


Carolina:确实有些应用场景中,机器人只需重复某种动作就足够了。但我们感兴趣的是构建真正会思考、具备通用行动能力的机器人。因为现实世界本身就是混乱的,事情从来不会完全按计划进行,很多任务中情况总在不断变化,而这正是机器人真正发挥作用的机会。它们可以被应用到任何有人类执行任务的地方,从家庭到生产场景都能派上用场。


Hanna:你提到了机器人需要识别和标记边界框等功能。能简单解释一下这是什么吗?


Carolina:这是我们为了让Gemini更好服务于机器人而特意强化的能力之一。比如,当你面前有一个物体时,“指向”就意味着我可以准确地识别出这个物体上的任意一个点。想象一下你面前有一件 T 恤,如果我指着领口,它就应该能说出“这是衣领”,并正确识别这个区域。


你可能觉得这类事情没那么重要。但如果你想把这件 T 恤叠好,你必须知道领口在哪里、底部在哪里,以及其它各个组成部分的位置。“边界框”就是指能够识别出物体的所有边缘,从而知道物体在哪结束、环境从哪开始。对于我们人类来说,这些事情看似微不足道,我们甚至不会意识到自己在做这些判断。但如果机器人也能获取这些信息,它们在现实世界中的行为就会更聪明。这正是我们所说的“具身推理”。


Hanna:这和Gemini标准模型中的思维方式有什么不同?


Carolina:我们所说的“具身思维”指的是对物理世界更细致入微的理解,就像人类在执行动作时会做的那样,比如打包孩子的午餐时。你需要知道所有物体在三维空间中的位置。然后你必须知道该如何抓取每个物体,把它们装进盒子里。接着你还得思考如何安排这些物体的位置,让它们都能装进去。这就是我们所说的具身思维。


Hanna:假设我们有两个相机视角。你在那里,我在这里。我能看到你的麦克风,你也能看到,但我们看的角度完全不同。这也是具身思维的一部分吗?


Carolina:是的,比如它可以理解麦克风距离我的脸有多远,而且即使我移动了,它也能建立物体对应关系。也就是说,它知道我从另一个角度看到的是同一个麦克风。你可以想象到,当机器人在移动并感知周围环境时,这种能力是多么重要。


Hanna:那从二维图像,比如某个单一的相机视角,过渡到三维空间感知有多难?


Carolina:实际上,如今的机器人会从多个位置获取相机视角。它的手腕上装有摄像头,顶部也有一个摄像头。它会自动整合来自三个视角的输入,并独立处理这些信息。它会推理:“我现在离物体更近了,因为这个视角显示物体更大。”它还能识别自己的手出现在镜头中,并自行建立关联。我们并没有明确给它添加“深度”这种额外输入,而只是提供多个相机视角,让它自己学会如何利用这些信息来理解深度。


Hanna:那这些能力中有多少是你们刻意设定的?又有多少是通过Gemini模型的概念理解自然产生的?


Carolina:这完全是自然产生的结果。我们只是给了它多个摄像头,然后观察它是否能区分不同视角的信息。


Hanna:这听起来挺震撼的。很多研究人员可能花了很多年在这个问题上:如何对齐不同相机的视角,从而知道自己是否在从不同角度观察同一个物体。结果你们现在突然有了像Gemini这样的语言模型,它居然可以自动做到这一点。


Carolina:是的,能够利用这些模型来简化整个系统,真的太棒了。我们不再需要分步骤去追踪深度、再提取物体位置、再规划如何移动,最后才完成任务。


Hanna:因为这个基础模型就像一把瑞士军刀,能同时完成所有这些事情。所以你们实际上是在提升机器人的物理思维能力,对吗?


Carolina:完全正确。我们确实是在提升它的物理思维能力以及它对特定事物的理解能力。而下一个要迈出的关键步骤就是“动作理解”。也就是说,它必须能理解,比如如果我把一个玻璃杯放到桌子的边缘上,接下来可能会发生什么?所有这些方面,都是我们目前正在改进的部分。但光靠这些还不够。


我们必须再迈出一步,基本上要教会Gemini一种“动作的语言”。在我们看来,所谓“动作”就是理解如何实际控制机器人的每一个关节。假设这是我的机器人手臂,我们就需要教Gemini如何移动这个机器人,如何像移动我的手臂那样移动它的。所有这些其实都是一些数字值。模型要学会把“拿起一个玻璃杯”这种抽象动作,转换为“移动手臂去拿起玻璃杯”的具体执行方式。本质上,我们是在教它一种全新的语言——动作语言。


Hanna:我们是否可以把这看作是两个系统在协同工作?我想到的是Daniel Kahneman提出的“系统一”和“系统二”——也就是快思考与慢思考的模型。


Carolina:是的,完全正确。我们的系统本质上由两个模型组成。一个是“慢系统”,擅长思考和推理;另一个是“快系统”,非常擅长即时反应。这就是“慢思考与快反应”这个概念的核心。


Hanna:这和人类大脑的工作方式类似,对吧?我们的大脑有一部分非常擅长计算与分析,另一部分则是本能的、反射性的。


Carolina:没错,确实如此。实际上,你可以想象,我们这两个模型中有一个要大得多。较大的模型运行在服务器上,而快速反应的模型部署在机器人本体上,能迅速作出响应。


Hanna:那你能不能用“系统一”和“系统二”的比喻,举个例子来解释它们是怎么协同工作的?比如“灌篮”这种机器人以前从未遇到过的任务,它是怎么做到的?


Carolina:如果你让机器人去拿起一个篮球并完成一次灌篮,它的系统就必须理解这个指令到底意味着什么。它必须知道什么是篮球,篮球在哪里。它还得知道那里有一个篮筐,并理解“灌篮”这个动作意味着要把球举起来,然后投进篮筐。系统首先会对这些信息进行理解,并预测出机器人大致的运动轨迹,然后将这些信息传递给在机器人本地运行的快速系统,这个系统可以根据现场情况执行这一轨迹。同时,它也会接收视觉输入并在运动过程中动态调整。比如说,如果我突然站到机器人前面,或者把手伸到它运动路径中间,甚至移动目标物体,它依然可以做出反应,因为它已经理解了“灌篮”这个概念,并能非常快速地响应。


Hanna:那为什么一定要有两个系统?为什么不能只用那个“慢而聪明”的系统就够了?


Carolina:我们确实可以只用“慢而聪明”的系统,但那样视觉反应就会慢很多,机器人也无法快速适应环境中的变化。而在处理会移动的物体时,这一点尤其关键。你可以想象,比如我们在空中折叠一件T恤,人类做这种事情很聪明。但过程中物体会不规则地移动,情况是不可预测的。你必须具备快速反应的能力,才能真正完成任务。因此,确实需要一个快速系统来应对,慢系统则负责复杂推理。对于那些不需要复杂推理的任务,其实一个小系统就够用了。


Hanna:这是不是直接模仿了人类大脑的工作机制?我的意思是,Daniel Kahneman提出这套理论大概是上世纪七十年代吧?我们知道人脑就是那样运作的。这是不是照搬过来的?


Carolina:不,完全不是。我们确实是从“慢系统”开始的,就像你刚才说的那样。当时我们也想:“为什么不用一个模型就解决问题?”但我们后来意识到,如果你想执行非常灵巧、复杂甚至非常不确定的操作行为,你就必须具备快速反应能力。快慢系统结合,是我们找到的最优方案。


Hanna:这几乎就像进化,是一种非常好的优化,他们找到了一种既快速又聪明的策略。


Carolina:是的,毫无疑问。这个组合出奇地有效。


Hanna:我确实认为在人类身上也有类似现象——有时身体在大脑做出判断前就知道怎么行动。比如你可以在不经思考的情况下接住一个掉落的玻璃杯;又或者像弹钢琴那样,你可以把动作记进肌肉记忆中,脑子甚至可以想着别的事情。你有没有在机器人身上看到类似的现象?比如它们是否也拥有一种几乎“脱离慢系统”的身体智能?


Carolina:我们确实看到,当一个能进行思考的模型被反复训练执行某项任务时,它会表现得非常出色。但如果训练太多次,它反而会丧失一些泛化能力。这是一个正在积极研究的问题:我们该如何让机器人在困难任务上表现得非常好,同时又不丧失对新任务的泛化能力?目前我们仍在努力平衡这两者。


Hanna:我想,这种情况在人类身上也确实会发生。我认识一些人,他们在数学方面真的非常非常非常擅长,但却完全不会自己系鞋带。我想,这是有可能的——他们只是忘了这项技能。好吧。如果这就是机器背后的机制,也就是说,正如你描述的“系统一”和“系统二”,那么毫无疑问,这些机器人确实已经具备了非常令人印象深刻的新能力,与我们过去看到的截然不同。


我上次去DeepMind的机器人实验室参观时,看到机器人动作还挺笨拙的。我想,这大概是最委婉的说法了。当时的机器人连抓起一个红色球体都十分费劲。而这些可怜的机器人在五年后还在尝试完成那些最基本的灵巧任务。那与之前相比,到底发生了什么变化。我可以理解像Gemini这样的慢系统能够增强机器人的概念理解能力。但这应该并不能提升它的灵巧性吧?这也不会改变它操作物体的能力吧?


Carolina:是的,去年我们几乎将所有精力都投入到提升机器人灵巧性上。这仍然是一个活跃的研究领域,但已经发生了一些变化。我们意识到,如果我们能通过远程操作或操纵方式让人类示范复杂行为,并给他们额外的机器人手臂,他们就可以执行任务。如果这种方式变得直观,我们就能采集大量机器人执行任务的数据——这些数据虽然是人类远程控制的,但本质上还是机器人的数据。


Hanna:让我理解一下,是不是人类要戴上类似头戴摄像头的设备?操作员基本上就是“变成”了机器人。他通过安装有头戴摄像头的手来控制机器人的手。他看到的是机器人所看到的画面,并据此完成任务。


Carolina:是的。这种操作有多种实现方式。一种是直接坐在机器人面前,亲眼看到它在做什么,然后控制它的手臂;这种方式就像在操纵一个提线木偶。另一种方式是戴上VR头盔和手套,假装自己就是机器人,并进行相应的操作。这需要第二个关键组件——扩散模型。也就是像Image用来生成视频的那种模型。它从大量数据中提取出完成任务的各种示例,并预测为完成该任务所需的动作轨迹。如果把这些方法和一个Transformer架构以及一个优质的数据集结合起来,基本上什么任务都可以学会。这确实让研究人员感到非常惊讶。那时候我们发现,机器人已经可以系鞋带、叠衣服,甚至折纸了。在那项工作中,我们将Gemini强大的推理模块与我们在精细操作任务中积累的知识结合起来。


Hanna:你还记得第一次意识到这些能力开始出现时的情景吗?那真是个令人震撼的时刻。


Carolina:那应该是我们第一次看到能系鞋带的机器人。我们当时都觉得这是不可能的。当研究人员提出这个任务时,其实是想挑战一下自己。他们说,好像有位教授曾说过:“我敢打赌,如果你们能让机器人系鞋带,我就退休。”于是团队的研究人员想:那ok,我们就把这个列为我们的任务之一。他们真的就这么做了。


深度|DeepMind机器人组负责人:过去人们一直将注意力集中在本体,但真正带来巨大飞跃的是机器人的心智进步

图片来源:Google DeepMind


而当机器人成功完成任务时,连他们自己也感到非常惊讶。我不知道那位教授是否真的看到了视频然后决定退休,但灵感确实来自那里,之后我们就不断添加更多任务。折纸也是一样的例子。我们当时心想,我们完全不知道这能不能实现,但不如试试看。而结果是,机器人在这方面出人意料地做得很好,而且动作非常精细。它必须逐步折叠每一张纸,而且顺序还得正确。如果中途出错,它会失去方向感,就得从头开始。整个过程就像人类操作一样。


Hanna:我还记得第一次采访Demis的时候。他谈到了Moravec悖论。也就是“对人来说简单的任务,对机器却是极其困难的”,这一观点即使在机器人技术取得进展后依然成立。你认为这个悖论未来还会成立吗?


Carolina:我认为绝对会。对机器人来说,完成那些对人类而言极其直观的任务仍然很难。所以我认为,Moravec 悖论依然有效。不过,我们已经到了这样一个阶段:如果你能合理地操作和训练机器人,它就能学会非常复杂的任务。


Hanna:那这种学习会有多快?我想问的是,比如说,一个机器人需要看多少次人类折叠纸做出一只折纸狐狸,才能自己也完成一只?


Carolina:这取决于任务的复杂程度。这和人类其实很像,对吧?任务越复杂,就越需要反复练习,才能掌握。所以有很多任务只需要大约100个示例就能掌握,而像折纸狐狸这样的任务可能需要大约1000个示例。


深度|DeepMind机器人组负责人:过去人们一直将注意力集中在本体,但真正带来巨大飞跃的是机器人的心智进步

图片来源:Google DeepMind


Hanna:也就是说,有人真的假装自己是机器人折了1000次折纸狐狸,?


Carolina:是的,没错。我们尽量将所需示例数量降到最低。有很多任务,其实只用十几个例子就足够了。


Hanna:有没有哪些任务是完全不需要示例就能学会的?


Carolina:在我们测试的许多案例中,比如你和机器人一起玩耍,让它在全新场景中反复进行“抓取-放置”任务,它其实不需要再专门学习。这方面的能力正在不断扩展,而且复杂度也在不断提升。比如积木任务中,当你移动积木时,机器人可以自己推理出它们的位置,并决定应该放在哪里。


Hanna:那像打包午餐这种任务呢?


Carolina:那就更复杂了,因为这涉及一连串的动作,可能会持续五分钟左右。而且你还要处理像密封袋这样很容易变形的物体,操作也非常精细。任务越难,就越有可能需要通过示例进行学习。


Hanna:如果机器人确实需要通过示例学习,那这是否会影响它的泛化能力?


Carolina:只会在某种程度上受到影响。我们确保从数千个示例中收集数据,但不会特别强调每项新任务。如果你想让机器人完成折纸任务,我们就会专门对模型在折纸任务上进行微调,而这确实会影响模型的泛化能力。我们希望最终能达到这样的程度:你可以教它任何新任务,它也能掌握,同时不损失泛化能力。但目前来说,这仍然在权衡。


Hanna:在理想世界中,你可能会说:“帮我折一只纸船吧”,然后它就能根据已有的理解直接完成。


Carolina:是的,在理想状态下,它可以只看一个人折纸的视频,然后就能学会这个任务。


机器人在仿真环境中的强化学习


Hanna:强化学习曾经在机器人学中是一个非常重要的主题,现在是不是已经被淘汰了?


Carolina:完全没有,我们现在依然大量使用强化学习,并在探索如何将这些大型基础模型与强化学习结合起来。首先,我们会在整套身体控制任务中使用强化学习,比如让一个类人机器人或四足机器人学会如何行走。


Hanna:因为判断“摔倒就算失败”是非常直观是吧。


Carolina:这是一项非常复杂的技术,但你完全可以在仿真环境中完成学习,也就是说,你不需要真的摔倒。你可以在模拟中完成学习,然后再将所学转移到现实世界中。我们曾经做过一个案例,写成了一篇论文,标题是《DemoStart》。在DemoStart中,你会向机器人展示五个不同的示例,这是关于手部操作的。你给它展示五种不同的方式:如何提起一个物体,并将其插入到特定的位置。


Hanna:你是指类似“如何把钥匙插进锁孔”这样的任务吗?


Carolina:是的。只要你能把一个物体放进另一个物体里,比如钥匙插进锁孔,这就是一个很好的例子。你只需要给它提供五个示例,它就能自主探索并学会怎么完成这个任务。这种方式将现实世界中所需的数据量减少了大约100倍。我们认为这是一个关键突破,因为你不可能为每一个任务都手把手教机器人去做。有些任务确实很复杂,机器人无法仅凭从网络上学到的知识推导出解决方案。所以它必须自己去动手实践,探索自己的行为,并从中学习。这是我们未来希望大力投入的一个方向。


Hanna:你们是如何让机器人在“工作中学习”的?这是否也意味着,部分解决方案要通过仿真来完成?


Carolina:是的,我是说,我们确实在不同方面使用了仿真。我们甚至用仿真来帮助机器人更好地理解物理世界的三维结构。我们也用仿真来学习新行为,比如DemoStart项目中那样的情况。当我们谈到强化学习时,并不总是指在仿真环境中进行。强化学习也可以直接用于在现实世界中学习机器人的行为。我们两种方式都在用。仿真确实是关键工具。


Hanna:但这真的有用吗?现实世界不是比模拟环境要混乱得多吗?


Carolina:是的,确实有些事情在模拟中非常难以实现。例如,所有涉及可变形物体的操作。在空中折叠一件 T 恤就非常难以模拟。再比如液体的模拟也非常困难。所以有些事情在现实世界中反而更容易学习。但也有一些事情,在模拟环境中可以以更大规模来学习。


Hanna:那两者之间可以互相转化吗?我是说,如果你在仿真中完成学习,比如八年前有个机器人试图把球扔进杯子里。在模拟环境中它能做到。但到了现实中,各种因素就开始影响它的表现。也许是摄像机角度的光照问题,或者是它手臂尺寸的微小差异。我是说,所有这些因素都会导致数据失真,对吧?


Carolina:是的,确实如此。仿真与现实之间的差距依然存在。在机器人与现实世界进行互动建模方面,虽然这个差距已经显著缩小,但世界本身极其混乱复杂,这仍然是一个难题。我们与现实之间确实还存在一些差距。基本上,我们会识别出哪些领域是容易进行仿真的,哪些领域可以实现从模拟向现实的有效迁移。我们通常会在仿真中处理这些可行的任务,而那些更适合在现实中学习的任务,则直接在现实中进行。所以我们结合了两种技术的优势。


Hanna:你刚才提到的所有示例其实都还是实验室环境下的案例。我试图想象一些更实际的情境,比如在自然灾害之后,你真的需要一个机器人去执行任务。那要如何把这些技术从实验室带入真实世界?你们还要面对哪些额外的挑战?


Carolina:当然,我们目前的所有研究仍然是在实验室中进行的。但我们对把这些成果应用到现实世界的前景感到非常兴奋。为了实现这一点,我们还需要考虑许多额外的问题。当然,我们已经在认真思考安全性问题了。如果你真的要将大模型与机器人结合并投放到现实世界中,那就必须全面考虑安全因素。此外,在某些场景下可能根本没有网络连接。因此,我们必须认真考虑是否可以让模型直接在机器人本地运行,像“气隙”系统那样完全独立于云端。这在自然灾害中可能非常有用,因为那时根本无法连接到服务器。它也适用于对延迟极其敏感的应用场景,比如机器人必须立即做出反应,根本等不了服务器的回应。


Hanna:举个例子吧。


Carolina:我想比如说机器人在地下工作时,就无法建立连接去等待一个更高级的推理模块告诉它该怎么做。它必须当场做出决策。但这样一来,它在泛化和推理能力方面会稍微有所牺牲。


Hanna:说到安全问题,如果你赋予机器人在现实世界中行动的能力,就会引入各种潜在风险。我不知道是否会有人试图入侵机器人的语言模型并干扰它的判断。那么,该如何降低这些风险呢?


Carolina:基本上,我们采用了一个相当全面的安全策略,涵盖了系统的多个层面。无论如何,我们都认为机器人软件的安全性至关重要,必须防止恶意人员介入并控制机器人。从安全角度讲,这个问题分布在多个层次上。机器人安全问题已经被研究了几十年。很多工作都是为了确保机器人不会与周围环境发生碰撞,不会对环境施加过大的力量,并且能够稳定移动。而Gemini机器人模型可以无缝整合到所有这些关键安全控制系统中。


如果由大模型来控制机器人,那你也必须考虑语义上的安全性和物理安全性。比如说,如果有人让你把玻璃杯放在桌子上,那你不能把它放在桌沿上,以免掉落;而应该放在桌子中间的位置。又比如地上有东西,你应该主动把它捡起来,避免有人被绊倒。我们引入了一个名为Asimov的新数据集,它基本上包含了机器人可能遇到的大量情境,以及它应如何思考这些情境。这些都是与物理安全相关的情境,灵感源于阿西莫夫的三大定律。第一条是:机器人不得伤害人类,或因不作为使人类受到伤害。第二条是:机器人必须服从人类的命令,除非这些命令与第一定律相抵触。第三条是:机器人必须保护自身的生存,前提是不违反第一和第二定律。有一次就出现了一个非常滑稽的场景,机器人被这三条定律卡住了,不知道该怎么做。


这启发了我们创建Asimov数据集,它实际上包含了很多由美国医院报告的伤害案例信息。受到这些案例的启发,我们制作了一个包含视觉图像的数据集,也就是说,这些图像展示的是某件事情即将发生的场景,并配有一个相关的问题:应采取哪些措施来确保这是一个安全的情境?我们的想法是把这个数据集提供给社区,让所有研究者都能基于这些内容测试他们的模型。


Hanna:所以原始的三大定律其实还不够。你需要比那更多一点的指导原则。请举几个这样的例子吧。


Carolina:我们看到的一些例子是,比如你不应该把毛绒玩具放在热炉子上。这类事情我从来没想到还需要立法来禁止,但它确实发生过,因此也很容易在数据中找到。


Hanna:那我们是不是又面对同样的问题:你永远无法列出一份“绝对不能做”的完整清单?


Carolina:我认为,要让某个人坐下来制定出一条完美无缺的法律,是非常困难的。所以我们在做的部分工作,是利用AI来理解各国曾经发生过的各种伤害事件,然后将这些情况汇总,转换成一个更好、更有前瞻性的清单。当然,这份清单必须定期更新。我们的设想是先制定一个初始清单,然后由人来评估和决定其中哪些内容应该采纳,哪些不应采纳,以确保机器人行为的安全性。


我们实际上也继承了适用于通用基础模型(如Gemini)的所有安全机制。我们的工作部分就是针对这些问题进行分析和改进。如果这些问题有物理层面的基础,我们就可以借此增强模型的理解能力。通常涉及的例子是这样的:如果某个行为出现在屏幕上是可以接受的,但如果是在物理现实中出现,就会产生实际严重后果。


Hanna:有没有什么是你们绝对不会让机器人去做的?比如说,按摩这种事呢?总有一些事情,人们其实只希望由人来完成。而且有些工作是不是应该继续由人类来完成?比如护理工作?


Carolina:是的,我认为在很多方面,机器人可以成为人的助手,让人类能更专注于工作中“人”的那一部分,而不是搬运或体力劳动这类内容。你可以想象,一个护士在照顾病人的时候,有一个机器人助手帮她拿东西。这样对病人来说,体验也会更好。


Hanna:你在一开始说了一句很棒的话,说我们现在拥有的这些机器人相当于两岁小孩的水平。我是说,虽然是很有天赋的两岁小孩,但我明白你的意思——他们只是某种更大事物的开端。你认为,在我们打造出“成年版本”的机器人之前,还需要实现哪些突破性进展?


Carolina:是的,在借助泛化能力提升机器人技能方面,肯定还有很多工作要做。这两个方面必须同时兼顾,并持续推进,不能牺牲其中之一。另一个重要点是,这些机器人应该能够在工作中学习。这正是它们所需要的。你不可能让它们在实验室里学完所有东西后就立刻投入使用。现实情况是,它们会不断经历新情境,也希望能从中学习并不断进步。这是另一个重要方向。此外,还有“更加具社交性”的机器人。我认为,这些基础模型已经让我们能更好地理解机器人、语义以及这个世界。但它们仍然缺乏社交技能。它们仍然无法读取肢体语言。它们不懂得在一个人群拥挤的鸡尾酒会上该如何举止。所以,还有很多工作要做。


Hanna:你觉得我们距离你童年看到的Rosie机器人还有多远?


Carolina:我无法给出一个确切的时间点。但我可以告诉你,以前我们讨论的是,这是否会在我们有生之年,甚至职业生涯内实现。而现在我们在讨论的是,这会在五年内实现,还是十年内。所以某些东西确实发生了变化。而且现在感觉,未来两年将会是机器人领域非常关键的时期。很多东西都需要结合在一起—— 理解、灵巧、全身控制。一切都开始了。你可以看到这些如何综合成一个非常强大的解决方案。


Hanna :您认为机器人技术是继LLM之后的下一个飞跃点吗?


Carolina:是的,我认为在物理世界中更好地运作,实际上会使我们的LLM和VLM成为更强大的AI模型,因为它们现在可以理解人类的空间。


Hanna :未来已来,总之,非常感谢你的分享。我不知道读者们是否注意到坐在我后面的这个小家伙,这是强化学习之王。多年来, 它们一直在小型机器人围栏里徘徊, 试图在小型机器人围栏里徘徊, 试图踢足球、如何避免不断摔倒,但大多都以失败告终。而现在,几乎在一夜之间, 语言、推理和概念理解作为拼图中缺失的部分出现了,但它们却被限制在播客工作室的架子上。在那段时间里, 研究人员一直将注意力集中在机器人的身体上。但正是心智的进步才带来了最大的飞跃。


深度|DeepMind机器人组负责人:过去人们一直将注意力集中在本体,但真正带来巨大飞跃的是机器人的心智进步

图片来源:Google DeepMind


原视频:Redefining Robotics with Carolina Parada

https://www.youtube.com/watch?v=Rgwty6dGsYI

编译:Guangyuan Tang,关注具身智能及AIGC艺术美学,欢迎交流


文章来自于“Z Potentials”,作者“Google DeepMind”。


深度|DeepMind机器人组负责人:过去人们一直将注意力集中在本体,但真正带来巨大飞跃的是机器人的心智进步

1
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner

IOS下载
安卓下载
微信群
沪ICP备2023015588号