英伟达GTC上的人形机器人专场:这个领域在发生三个关键变革,我们在向ChatGPT模式学习,但它与物理世界互动,是更本质的AI
仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
前一阵的北京亦庄人形机器人马拉松比赛,和朱啸虎的“正批量退出人形机器人公司”论,把春晚宇树机器人转手绢掀起的人形机器人热度又拉到一个新高度。
我想无论舆论持什么立场,但人形机器人这个赛道的生命力是毋庸置疑的。科幻电影中有无数体现机器与人类共存的电影,人形机器人是最主流的想象:有积极的《机器管家》、也有黑暗的《终结者》,和中立的《银翼杀手》。甚至《异形》系列拍到前传,也在《普罗米修斯》中也引入了人形机器人的设定。
所以一直想发一篇博客,对人形机器人这个赛道的相关信息做一个汇总介绍,而今年英伟达GTC大会上的一场座谈”通用型机器人的新纪元”(TheRiseofHumanoids)就比较合适了。
首先,发言人代表性比较强:
其次,谈的内容深度也比较合适。圆桌座谈相对口语化,但几位又都有很强的技术背景,所以信息量很足(有些太足了,以至于可能枯燥)。
他们共同的看法是,随着硬件成本的降低、AI模型能力的提升以及仿真技术的进步,人形机器人似乎正站在大规模商业化的临界点。而机器人技术不仅是AI的最早应用领域之一,更是AI的本质所在—通过与物理世界的行为互动来建立智能。
不过提醒一下,由于他们谈得比较多,我怕大家对某些技术术语理解有门槛,额外加了不少注释,所以这是一个一万五千多字的东西。在之前的留言中,我看到有抱怨说“啰啰嗦嗦写这么多”,我的想法是现在其实大家完全不缺乏碎片化的信息,但很缺乏详实有出处的一手原始知识思考。所以,虽然整理撰写大部头比较麻烦,还是这样做了,希望对有需要的同学有帮助。实在不行,大家可以用模型总结一下……
一、人形机器人行业领袖:公司使命与愿景介绍
论坛开始,主持人TiffanyJansen邀请嘉宾依次介绍自己及所代表公司的使命。这一环节不仅展示了各公司的技术路线,也揭示了整个行业的多元化发展可能。
BerndtBørnick首先介绍了1X公司的愿景:”我们的使命是通过安全、智能的人形机器人创造大量劳动力。我们深信,要实现真正的智能,这些机器人需要在我们之中生活和学习。这就是为什么我们认为消费级应用必须先行,让机器人体验人类生活的各种细微差别,然后利用这种智能在医院、老年护理、零售、工厂和物流等各个垂直领域开展有用的劳动。”
接着,DeepakPathak介绍了SkildAI:”我们正在为机器人构建一个通用大脑。我们的理论是可以拥有一个共享模型,因为机器人领域的数据本来就稀缺,我们不妨利用来自任何平台、任何任务、任何场景的所有可用数据。这就像一个大规模基础模型,可以用于任何机器人、任何硬件、任何任务和任何场景。”
AgilityRobotics的CTOPrasVelagapudi则强调了他们的实用主义方法:”我们的人形机器人Digit是为工作而设计的,我们正将它应用于当前的制造业和物流用例。我们认为,让技术走向市场并从中学习的最佳方式是找到真正的客户和真正的部署来开展工作,这就是我们一直专注的——让我们的机器人进入工作场所,成为劳动力的一部分。”
BostonDynamics的CTOAaronSaunders则幽默地表示他”在人形机器人变得酷之前就已经从事这方面的工作”,并强调:”在BostonDynamics,我们的使命长期以来一直是使机器人成为现实。我们已经交付了数千台机器人,人形机器人是我们最新的产品。我们真正想要为市场带来的是能做实际有用工作的产品,执行那些将人们从肮脏、枯燥、危险工作中解放出来的任务。这是我们长期以来一直在做的事情,我认为还有更多工作要做,但我们对未来的发展方向非常兴奋。”
最后,英伟达的JimFan介绍了他们的项目:”我是英伟达GearLab和ProjectIsaacGR00T的联合负责人。GR00T是英伟达的登月计划,旨在为人形机器人构建基础模型和机器人大脑。GR00T也代表着我们对下一代物理AI计算平台的战略。我们的使命还包括普惠化物理AI。事实上,就在昨天Jensen的主题演讲中,我们宣布开源GR00TN1模型,这是世界上第一个开源的人形机器人基础模型。它只有20亿参数,却能发挥超出其规模的性能。你基本上可以在手掌中握住世界上最先进的自主人形智能。”
我们要多解释一下NVIDIAIsaacGR00T,因为很多机器人公司都在使用这个平台。它是一个英伟达专门为人形机器人开发打造的平台,结合了大脑、训练场、数据工具和硬件:
核心是IsaacGR00TN1,一个支持多模态输入(图像、语言)的开放基础模型,能让机器人完成抓取、搬运、传递等复杂任务。为了训练这个大脑,英伟达提供了基于Omniverse和Cosmos的仿真系统,让机器人可以在虚拟世界中反复练习,通过IsaacLab训练运动策略,通过IsaacSim验证效果。
同时,GR00T工作流里还有像GR00T-Mimic(用少量示范生成大量动作数据)、GR00T-Gen(在不同环境中泛化学习)、GR00T-Dexterity(提升灵巧抓取能力)等模块,全面提升机器人的灵活性和适应性。
最后,这套系统运行在JetsonAGXThor上,这是一款集成了高性能计算和功能安全特性的机器人专用芯片。整体来看,IsaacGR00T就是为了让机器人真正拥有感知、理解、决策和行动能力,加速它们从仿真走向现实。
二、机器人技术的历史转折点:从缓慢到爆发式增长
座谈接下来深入探讨了机器人技术的历史演变,特别是近年来该领域从缓慢发展到爆发式增长的转折点。主持人TiffanyJansen提出了一个关键问题:”机器人技术是AI最古老的应用,但历史上发展最慢。现在情况不再如此,那么究竟发生了什么变化?”
英伟达的JimFan首先幽默地回应:”最大的变化是Jensen(英伟达CEO黄仁勋)现在开始关注机器人技术了。Jensen有点金手指,他涉足的任何领域都会呈指数级扩展,我们称之为’Jensen的缩放定律(ScalingLaw)’。”在笑话之后,Jim深入解释了机器人领域发展的关键变化:
“机器人技术确实是与AI本身一样古老的领域之一,而机器人技术之所以如此困难,是因为摩拉维克悖论(Moravec’sparadox)”。所谓摩拉维克悖论,是在说人类觉得简单的任务(如行走、抓取物体)对机器来说非常困难,而复杂的任务(如数学运算、下棋)对机器相对容易。这是因为感知和运动涉及大量隐含的低级智能和丰富经验,而逻辑推理相对容易用计算方法实现。这解释了机器人技术发展比其他AI领域慢的原因。
Jim指出了三个关键的变革领域:
“首先是模型方面。由于像LLM这样的大型基础模型,ChatGPT时刻,我们现在有了能够进行推理的模型。我们有多模态模型,能够理解计算机视觉、开放词汇、对3D视觉世界的理解,比我们以前拥有的好得多。这些是解决机器人问题的必要但不充分的条件。”
“第二点是数据方面的变化。正如IlyaSutskever所说,互联网是AI的’化石燃料’。但机器人技术甚至没有这种燃料。对于LLM,你可以从维基百科下载文本,可以抓取文本。但我们从哪里抓取电机控制?从哪里抓取所有这些机器人轨迹?你在互联网上找不到。所以我们必须生成数据,必须大规模收集数据。我认为模拟技术的出现,GPU加速的模拟,使这些问题变得更加容易解决。因为现在,你可以在大约三小时的计算时间内生成相当于10年的训练数据。”
“第三点是硬件方面。硬件变得更好,也变得更便宜。今年,我们看到了价格在4万美元左右的硬件,这相当于一辆汽车的价格。而在2001年,NASA建造的Robonaut,最早的主要人形机器人之一,按2001年的美元计算约为150万美元。所以它终于变得负担得起,很快就会成为主流。”
BostonDynamics的AaronSaunders补充了更多技术角度的变化:”我认为模拟到现实(Sim2Real)差距的缩小是一件大事。长期以来,机器人社区一直在努力创建一个能够正确表示物理特性的模拟环境,同时又具有计算效率。我们可以创建非常复杂的模型,很好地表示物理世界,但我们无法实时或比实时更快地运行它们。对我来说,最大的变化可能是能够以超过实时的速度表示真实世界的物理特性,这让你可以加速探索多少模拟,以及如何使用这些模拟来开发新的AI。”
“还有很多组件的商品化。我们可能需要对一些相关产业链进步给予巨大的信任,比如消费电子产业开发的电池和摄像头,用于感知世界、计算的技术。当我回顾甚至10、15年前,大部分机器人都是充满了PCB板和电线,电池容量非常小。现在完全改变了,我们可以放入大量的计算能力,可以放入微小的传感器,它们都很省电。”
SkildAI的DeepakPathak强调了更为根本的认识论变革:”AI不仅仅是机器人技术的第一个应用,它就是AI的本质。如果你看图灵最初谈论AI的文件,它是为机器人设计的。他说,你应该制造一些东西,而不是像成年人那样,而是像孩子那样学习。然后它可以成长。你可以把同一个机器人放在教室里,它会随着时间成长为成年人。这是一个迷人的想法,他在20世纪50年代就有这种想法!”
“语言、视觉,所有这些都很酷。但如果你看自然界,它们在时间线上比物理动作晚得多。例如,LLM,我们训练的数据可能是最近100年、200年,最多1000年的数据。人类存在的时间超过1000年。所以不是语言导致了智能,而是基础设施已经存在。我们的大脑已经存在,这是通过物理推理实现的。”
Deepak还指出了机器人技术方法的重大转变:”到目前为止,机器人一直是控制(ControlEngineering)的范畴。控制驱动机器人技术直到三四年前。控制工程并不是为机器人设计的,它在第二次世界大战期间因飞机、导弹等而闪耀。然后是机器人热潮,人们问用什么,就用控制工程,这持续了几十年,持续了70年。”
“但这种控制理论方法与图灵最初设想的AI发展路径精神并不一致。控制理论不符合’像孩子那样学习’的理念。在儿童学习中,我们不会先教他们微积分来分析关节运动方程,然后才让他们学习行走。孩子是通过实践经验自然习得行走能力的。通过经验学习才是关键的转变。我们现在看到整个领域正在发生这种转变,今天我们刚发布了一个通过经验学习的视频。这就是我认为已经发生的根本变化-从预编程控制方法转向通过经验学习的方法,这彻底改变了我们对机器人的思考方式。”
1X的BerndtBørnick从数据角度补充说:”对我来说,很大一部分变化是互联网的出现。如果你想想,这是一个巨大的人类实验,近30年来,世界各地的每个人都在为创建这个巨大的数据源做贡献,这样我们就可以训练一个完全神奇的AI。”
“现在我们要做的是,利用已有的数据来引导你的机器人做一些有用的事情。因为在那一点上,你可以开始在真实世界中学习,那里才是智能真正来自的地方。但你必须达到某种程度的有用性。当我说’去冰箱拿可乐给我’,如果机器人能够一半时间做到,那么我们就有了一条可行的路径。因为现在我们只需要说,好的,那个有效,那个没有效,我们需要运行足够多次,它会变得非常擅长从冰箱里给我拿可乐。”
AgilityRobotics的PrasVelagapudi总结了机器人技术面临的两大挑战:”机器人技术面临两个方面的挑战:一是硬件困难,二是世界非结构化。如果你看看AI的演变和机器人技术的演变,机器人技术的很大一部分一直在处理硬件困难的问题,以及传感器的微型化,如MEMS(微机电系统,是结合微电子和微机械技术的微型器件。
在机器人领域,MEMS技术用于制造微型传感器,如加速度计、陀螺仪和压力传感器等),构建执行器和驱动技术,能量存储技术,所有这些都必须解决。即使是Arduino(一个开源电子原型平台,包括可编程的微控制器硬件板和简化的软件开发环境。Arduino以其易用性著称,使初学者和专业人士都能快速开发电子项目)这样的平台,也使人们能够让东西在现实世界中移动,而不必每次都重新发明轮子。”
“在AI方面,我们基本上是通过从解决结构化问题到越来越非结构化的问题,从查询和提示到API的问题,到简化的世界模型,再到现在的非结构化世界模型,每一块拼图都在提升AI平台,找到新的数据摄取方式。所以我认为这里有更多的进展和解锁(unlock),这些进展在幕后发生,我们只是看到它们最终达到这个临界点,现在我们可以以非结构化的方式与世界互动。”
AaronSaunders补充了一个关键点:”也许最近几年发生的最大事情之一是硬件的稳健性,以及制造不会在与现实世界互动时损坏的硬件的能力。因为我们都在机器人领域工作了很长时间,当你每次运行都需要重建机器人时,实验需要很长时间。但我们现在也真正处于硬件的一个点,我们可以让某物在现实世界中学习,并安全地与世界互动,而不会损坏自己或世界。这也是一个必要条件,真的,让这个进步。这花了很长时间。这是一个相当困难的问题。”
这一部分的讨论揭示了机器人技术的历史性转折点,从过去的缓慢发展到现在的快速进步,这一切得益于模型、数据和硬件的协同进步,以及更为根本的方法论转变—从编程控制到通过经验学习。
三、人形机器人公司的战略与方法:AI、专业化与通用化的平衡
在对机器人技术历史变迁有了深入了解后,论坛转向了各公司在人形机器人开发中采取的不同战略和方法。主持人TiffanyJansen提出的问题涉及AI的角色、从专业到通用模型的转变,以及基础模型爆发的应对策略。
英伟达的JimFan详细介绍了GR00T项目的策略:”我们正在解决一个非常困难的问题,为各种不同的人形机器人构建通用大脑,不仅仅是一种。我们也希望实现所谓的跨体现(crossembodiment,指同一AI控制系统能适应不同机器人硬件平台的能力,类似人类能操作不同工具或游戏角色。这种能力提高了模型的通用性和适应性)。我们如何解决这个问题?我认为有两个主要原则。”
“原则一是模型本身应该尽可能简单,尽可能端到端,简单到基本上是从光子到动作。你从视频摄像头获取像素,然后直接输出连续的浮点数,这些本质上是电机上的控制值。这就是端到端的模型,没有中间步骤,尽可能简单。为什么这样做会更好?因为如果我们看看NLP(自然语言处理)领域,这可能是迄今为止AI最成功的领域,作为机器人专家,我们应该抄作业。在ChatGPT之前,NLP领域有点混乱。你有文本摘要、机器翻译、代码生成,它们使用完全不同的数据管道、训练协议和模型架构,有时不仅仅是一个模型。然后ChatGPT出现,彻底改变了一切,因为它很简单。它把任何文本映射到任何其他文本,仅此而已。”
“原则二是数据管道实际上将非常复杂。围绕模型的所有东西都将非常复杂。这是因为对于机器人技术,正如我一开始所说,数据是一个巨大的问题。你无法从YouTube、维基百科下载电机控制数据,你在任何地方都找不到。”
Jim描述了他们的数据策略:”对于GR00T,我们的数据策略可以组织成一个金字塔。闭上眼睛,想象一个金字塔。在顶部,你有真实机器人数据,这将是最高质量的,因为没有领域差距,你是通过在真实世界中的远程操作来收集的,但这必须相当有限,不太可扩展,因为我们受到每个机器人每天24小时的基本物理限制。在金字塔的中间,那里是模拟发挥作用的地方,我们严重依赖像Isaac这样的物理引擎来扩展大量数据。这些数据可以基于收集的真实世界数据生成,或通过经验学习生成。在金字塔的底部,我们仍然需要所有来自互联网的多模态数据,但这次我们以不同的方式使用它。我们用它来训练视觉语言模型,这些模型可以成为视觉语言动作模型的基础。最近,还有视频生成模型变得如此之好,它们可以成为世界的神经模拟。金字塔的最后一层真的是神经模拟,超越了传统的图形引擎。”
“有了所有这些非常复杂的数据策略,我们将它们压缩到这个干净的工件中,从光子到动作,一个20亿参数的模型足以满足广泛的任务。”
“光子到动作”这个讲法比较重要,所以我再额外阐述一下,它描述了一种完全端到端(end-to-end)的控制架构,其工作流程为:
输入端:”光子”指摄像头接收的光线形成的图像数据
输出端:”动作”指机器人执行器(如电机)的控制值
中间过程:没有明确的中间步骤或模块划分,而是由单一模型直接完成从视觉输入到动作输出的映射
正如JimFan所解释:”你从视频摄像头获取像素,然后直接输出连续的浮点数,这些本质上是电机上的控制值。这就是端到端的模型,没有中间步骤,尽可能简单。”
与传统方法的对比,传统机器人控制系统通常包含多个独立模块,形成一个复杂的处理流程:
感知模块(图像处理、物体识别)
决策模块(任务规划、路径规划)
控制模块(逆运动学、平衡控制、力控制)
而”从光子到动作”模型将这些全部整合为一个统一的神经网络,类似于ChatGPT如何将不同NLP任务统一到单一模型中。
BostonDynamics的AaronSaunders对这种愿景表示认同,但也强调了实用性和可靠性:”这描绘了一个非常美好的未来图景,一个简单的大模型,甚至不是那么大,解决了所有问题,从像素到动作。但我认为在此过程中,我们也需要关注所有我们必须拥有的东西,向现实世界交付需要确定性的产品。当你需要向客户交付产品时,你需要了解它在意外情况下会做什么。你需要考虑功能安全性。你需要考虑如果在现有功能之上添加新功能,它将如何退化。”
“我认为你指出了一个非常重要的事情,即复杂性被推到数据和你收集的数据中。我认为我们处于构建该数据集的旅程的开始阶段。也许我想说的一点策略是,确保你不要为了追求这个潜在的非常强大的最终状态而抛弃整个工具箱,因为我们作为一个产业社区在发展过程中有很多事情要做。其中之一是保持购买机器人的客户的信任。我们必须能够通过应用我们所有的工具来做到这一点。”
1X的BerndtBørnick分享了他们对数据多样性的看法:”我非常同意Jim的观点,我们也非常支持那种制作一个简单模型的想法。如果我们想从早期和晚期LLM中汲取经验教训,我认为经常被低估的一件事是多样性的重要性。LLM历史初期,许多公司试图训练一个非常好的模型来创作诗歌,所以他们会训练所有世界上最好的诗歌,但它不能很好地工作。因为除非你训练这种非常多样化的数据,与写诗无关,否则你不会获得智能,因为智能来自多样性。”
“我们现在看到的,至少在我们的模型中,这对机器人技术也显然是正确的。即使在我们现在开始的非常小的规模下,我们实际上受到的限制更多的是多样性而不是数据规模。所以这是关于你如何获得尽可能多的任务,在尽可能多的不同环境中,最好有一些噪音和动态事物发生,这样你才能理解什么是实际任务。”
Berndt举了一个洗衣机的例子来说明他们的方法:”我最喜欢的例子是打开洗衣机。当我们进来,看到洗衣机时,我们说,好的,我们要把衣服放入那个圆洞。所以我们要尝试打开它。我们试图找到把手。如果它不打开,也许在某处有一个锁,如果没有,也许我们把表盘转回零。但我们对洗衣机的实际工作原理有很好的理解,所以我们可以弄清楚如何使用新的洗衣机。今天的机器还没有这种能力,你只是在学习如何重复一个动作。”
“这就是为什么我们真的认为,使机器人大量走出去并获得多样化数据是如此重要。这是我们非常有争议的观点,这就是为什么我们认为这必须发生在人群中,必须发生在家中。安全必须是机器的内在特性,如何确保机器中的能量不会大到危险的程度。”
SkildAI的DeepakPathak提出了机器人AI与其他数字AI的根本区别:”在机器人领域,当你谈论方法时,总是两件事:硬件的方法和软件的方法。对于语言,没有人问这个问题,GPU的方法是什么?因为这由Jensen负责。但这是两种不同的事情,这是一个主要问题。应该只有一个机器人吗?应该是1X机器人吗?我们部署哪个机器人?如果你部署所有机器人,那么大脑是跨它们共享的。”
“这里有两个见解。一是人类。观众中的任何人都可以来,你可以给他们一套VR套装,一套跟踪套装或一些手套或VR耳机。他们可以控制任何机器人,不需要知道电机细节,不需要知道电机如何工作。这已经证明了可以存在一个可以控制任何机器人的大脑。所以你可以使用来自任何地方的数据。”
“第二件事是外面没有数据。每个人都知道这一点。但我们忽略了一种特殊的机器人,它无处不在,我们有大量这样的数据。那些机器人是人类。我们不是机械机器人,我们不是由电力设计的,我们是生物机器人。但归根结底,类似的原则指导着我们。所以如果我们同意可以存在控制所有硬件的大脑,为什么要排除生物硬件?如果你不排除那个限制,你实际上可以使用人类活动的人类视频数据。”
“比如说,我们可能没有一个1X机器人做某事,比如拿东西,打开冰箱,但人类每天打开冰箱大约10次。外面有数万亿人类这样做的视频。所以这是我们的信念,这是机器人技术非常关键的数据之一。”
BostonDynamics的AaronSaunders提出了关于硬件差异的观点:”作为一个远程操作过很多机器人的人,我可以说人类大脑确实擅长远程操作各种平台,但我可以从经验告诉你,性能水平不同。硬件确实可以产生差异。当你想要抬起大型、重型、复杂的物体,或者你想要触摸锋利的金属片,或者你想要处理热的东西,因为你可以将人从制造环境中移除,使他们远离危险,并用机器人代替,那么我确实认为硬件真的很重要,我认为它必须共同发展。”
“我认为这两者需要共同发展。理解你的执行器的质量,它有多少摩擦,对于你在模拟中如何表示它可能非常重要。在我完全理解像GR00T这样的模型如何部署在A型机器人和B型机器人上之前,我认为我们需要更多时间。因为我认为我们还没有足够的数据点来说一个模型将部署在所有这些不同类型的机器人上,而且行为不会有显著差异。如果我试图拿一包薯片,移动它们并丢下它们,我不认为这很重要。但如果我试图拿起一个高精度零件并将其组装到另一个高精度孔中,它可能非常重要。”
这一部分的讨论揭示了各公司在人形机器人发展战略上的共性与差异—从英伟达的统一基础模型方法,到BostonDynamics强调可靠性与确定性的实用主义路线,再到1X对数据多样性的重视和SkildAI对跨硬件通用性的探索。这些不同策略反映了人形机器人行业的多元化发展路径,也体现了在通用化与专业化之间的平衡考量。
四、跨体现挑战:一种大脑适配多种机器人的可行性探讨
论坛的一个重要主题是”跨体现”(crossembodiment)问题,即同一个AI模型或”大脑”能否适配控制不同形态和设计的机器人。这个问题触及了通用人形机器人发展的核心挑战之一。
英伟达的JimFan从人类类比开始分析这个问题:”让我们思考一下跨体现对模型意味着什么。我认为人类实际上非常擅长跨体现。每当你打开一个视频游戏并开始玩它时,你实际上是在进行跨体现。如果你在游戏中驾驶汽车,或者扮演一些奇怪的角色,有时是非人类角色,然后过一会儿,在你玩手柄一段时间后,你会对如何控制游戏中的身体有一种感觉。过一会儿,你可以玩得非常好。所以人类大脑非常擅长跨体现。”
“我认为这是一个可解决的问题。我们只需要找到启用这个的参数集。我同意Aaron的观点,现在还为时过早,谈论完全零样本跨体现,意味着你带来一个机器人,模型就神奇地工作。我不这么认为,我们还没有到那一步,但总有一天我们会到达。我认为一种方法是拥有大量不同的机器人硬件,甚至在模拟中拥有更多不同的机器人硬件。”
Jim介绍了他们在这方面的研究:”我们之前的研究小组有一个非常有趣的工作,叫做Metamorph。我们在模拟中程序性地生成了大量简单的机器人,具有不同类型的关节连接。它可能看起来像蛇,看起来像蜘蛛,非常奇怪,但我们生成了数千个。然后我们使用机器人语法来标记机器人的身体,本质上是将体现本身转换为整数序列。一旦我们看到一个整数序列,我们就会看到变换器。我们将变换器应用于这整套数千个体现,我们发现你实际上能够泛化到第一千零一个体现。但这仍然是一个非常玩具化的实验,非常早期,但我确实相信,如果我们能够有一种通用的描述语言,我们有许多不同类型的真实机器人和模拟机器人,我们可以对它们进行标记,我们可以从它们生成大量数据,那么所有体现都成为这种体现的通用空间,矢量空间,也许一个新的机器人将在分布内。”
Jim强调这不仅是学术好奇心:”这不仅仅是一种智力好奇心,它正成为一个非常现实的问题。我认为这里的所有硬件公司创始人都有这个问题,你有不同代的机器人,你在前一代收集的数据和你在那些数据上训练的模型不会泛化,或者它在你自己公司的V2和V3机器人上显著降级。实际上,甚至忘记这个,我们看到同一版本的机器人,由于制造,由于所有小缺陷,这是一个物理世界,它很混乱。由于所有的混乱,不同的机器人甚至并不总是完美地复制相同的模型。你甚至在一代机器人内部就有跨体现问题,更不用说跨代,更不用说跨不同公司和设计。所以它正成为一个真正的问题。”
BostonDynamics的AaronSaunders分享了他们的实际经验:”说实话,现在没有太多的多样性。如果你看人形机器人领域,我们基本上都在使用相当相似的东西。它是对我们身体的复制。在BostonDynamics,我们决定只为我们的夹持器使用三个手指,这是对有一个完全拟人化手的趋势的反抗。我们发现人类非常擅长将自己映射到三个手指上,所以你可以让一个远程操作者操作一个三指夹持器,在操作装置中经过几个小时的训练,他们就能做你用五个手指做的几乎所有事情。”
“我认为现在每个人都在尝试建立一个基础,我们不是很勇敢,但我认为一旦你看到这些泛化开始出现在我们的模型中,你会看到人们稍微偏离这些。这可能是好的也可能是坏的。我认为我们最终可能会得到看起来离人类足够远的机器人,这很可怕。但我认为仅仅在操作器内部,就有丰富的机会空间。Agility的夹持器完全不同于你在其他人形机器人上看到的任何东西,但他们仍然能够做一些相同的任务。我认为这将是未来几年一个令人兴奋的话题。”
1X的BerndtBørnick提出了一个重要观点:”当你进行领域随机化时,你实际上是在教你的系统保守。你是在教你的系统,哦,如果我不知道如果我这样做会发生什么,我无论如何都是安全的。这种方式掩盖了你的动态特性。所以这真的取决于你想要达到什么。如果你进行领域随机化,你不会从系统中获得相同的性能,但当然你会得到非常稳健的东西。所以如果你做非常好的校准,你可以从你的系统中获得更多,所以从长远来看它会很重要。”
所谓领域随机化(Domainrandomization),是指在仿真训练中随机改变环境参数(如摩擦力、光照、物体形状等),使模型学会忽略非本质差异,从而提升对现实环境的适应性,缓解仿真到现实的转移问题。
“现在有一些非常令人兴奋的工作,将机器人历史添加到模型的上下文中。所以对于每一个单独的机器人,你取一些机器人的运行时间,把它放入实际模型的上下文中。然后它在上下文中学习自己的动态特性,这实际上出奇地有效。这很酷,这有点像两全其美。这叫做RMA,快速电机适应。”这里讲的快速电机适应(RMA,RapidMotorAdaptation),是一种使机器人控制系统快速适应硬件或环境变化的技术,通过将机器人历史动作和状态数据输入模型,实现实时调整步态和控制策略,提升机器人在多变环境中的表现。
SkildAI的DeepakPathak提出了一个不同的视角:”对于每个其他领域,因为我们总是从硬件中抽象出来,无论是视觉还是语言,如果一个新公司进来,比如说AMD或任何其他公司,他们必须确保其他人可以无缝地在他们的英伟达GPU上运行他们的代码,或者他们在英伟达GPU上运行的代码可以在他们的GPU上运行,这是他们的负担,而不是软件的负担。”
“但对于AI的类比,我们为机器人构建的大脑,我们不应该构建只在机器人上工作的大脑,而是构建适应机器人的大脑。这是主要区别。人类拥有的不是一个可以做很多事情的系统,而是一个可以学习做很多事情的系统。我们在头脑中携带的是一个学习引擎。它可以实时学习,你听到的任何东西,你都在实时学习并适应。这将是AI在其他一切和机器人技术之间的主要区别。对于机器人技术,我们将部署的实际上是这些迷你学习引擎。”
“不只是其他人和其他车辆等,甚至基本的东西,你自己的身体。如果我去锻炼,一小时锻炼后,我的手很痛,我必须拿起牙刷甚至一个瓶子,我现在有一个不同的身体,因为我的身体现在需要更多的扭矩才能获得与锻炼前相同的输出。所以我们的大脑正在实时适应这些变化,从微秒到分钟再到长时间。这是机器人AI与其他领域AI应用的主要区别。”
1X的BerndtBørnick对此表示强烈认同:”我认为一般来说,机器人AI和其他数字AI之间的这种区别也会消失。我们太多地问AI能为机器人做什么,现在问得太多了。我们没有问机器人能为AI做什么。因为当你在现实世界中采取行动时获得的数据,当你有一个假设,你采取行动,你观察结果并学习。这就是我们学习的方式。我们最近在推理模型中看到很多事情,例如,在数学上非常好,在代码上非常好,因为它是可验证的。你可以去看看我做对了吗。”
“机器人基本上允许你对所有事情都这样做。这就是我们学习的方式。另一个例子是幻觉。幻觉在LLM中是一个大问题。你有没有听说机器人产生幻觉?这不是我们讨论的话题。为什么?因为机器人不能产生幻觉。如果我要对我把这个瓶子从这里推到那里会发生什么产生幻觉,我可以直接尝试。它会掉下来。我可以看到。我通过互动学习。所以因为我互动,互动是幻觉的敌人。因为当你互动时,幻觉就消失了。而当你从被动数据中学习时,数据来自维基百科,你不能去验证所有事情,除非它是数学或编码,幻觉不是太大的问题,因为你实际上可以验证答案。”
AgilityRobotics的PrasVelagapudi提出了一个不同角度:”作为远程操作过很多机器人的人,我可以说,人类大脑确实擅长远程操作各种平台,但我可以从经验告诉你,不是在相同的性能水平上。硬件确实可以产生差异。我远程操作过1X机器人,这是一个很好的体验。我远程操作过一些工业机器人,不是很好的体验。硬件在这方面可能非常重要,确实定义了性能的一些特性。”
这部分的讨论深入探讨了跨体现问题的挑战与可能的解决方案,从英伟达的通用模型方法,到1X的上下文适应策略,再到SkildAI提出的学习引擎概念。各公司尽管有不同的方法,但他们一致认为这是一个可解决的问题,而解决它对于人形机器人的大规模商业化至关重要。
五、硬件挑战与制造变异性:为什么校准和鲁棒性至关重要
随着讨论的深入,论坛转向了硬件挑战,特别是制造变异性问题—即使是同一型号的机器人,由于制造过程中的微小差异,也可能表现出不同的行为。这一问题对于大规模部署人形机器人至关重要。
JimFan解释了这一现实挑战:”我认为制造变异性绝对是挑战之一。这也促使我们研究跨体现的研究线,研究如何弥合其中的一些差距。但我会把这个问题交给这里的所有硬件专家。”
BostonDynamics的AaronSaunders强调了良好工程实践的重要性:”我认为这是工具箱的其余部分重要的地方。如果你制造一个有很好校准方法的机器人,一个你知道如何表征的机器人,如果你在关节级控制上做了很多好的工作,那些位于AI远低的东西,那么我认为其中一些事情不会那么重要。当你有一个你不能表征的机器人,你没有校准,从一个复制品到另一个复制品有很多变异性,你只是扔一个控制器给它,无论是AI策略还是其他东西,我认为你会发现输出有很多变异性。但我认为你可以做很多工作来最小化当前的差距。”
AgilityRobotics的PrasVelagapudi分享了他们的实际经验:”另一个方面是让机器人在现实世界中工作并看看你有什么变异性。你确实会得到很多学习,这些反馈到你构建的管道中。一个很好的例子是,Digit有一个完全学习的恢复行为,我们已经在现实世界中部署它。它在我们的生产系统上。我们用来训练它的领域随机化和数据多样性来自我们在现实世界中的经历,以及我们舰队中所有Digit的变异。”
“事实证明,我们做了如此多的领域随机化,如此强化策略,以至于当我们将策略转移到我们的新机器人上时,我们刚刚发布的新机器人比原来重10公斤,是一个大得多的框架,策略实际上一次性转移到这个完全新的机器人上,略微不同的运动学,更重的负载,一切。这是因为我们一直在花时间加固和强化所有的模拟到现实的转移,真正理解所有的细节,比如脚接触和所有这些部分。所以我确实认为,有了经验,你会变得更擅长这种跨体现。并不是说你总是注定需要非常仔细地查看机器人的制造序列号。随着你做这件事,随着你获得真实世界的经验,你更了解在训练管道中需要捕获的杠杆是什么。”
JimFan指出了这个问题的普遍性:”当你从数百到数千个机器人时,你会面临这个问题。这不是一个选择。当你有数千或数十万个机器人时,你不能为每个机器人调整你的软件堆栈。所以我认为这只是必须发生的事情。”
1X的BerndtBørnich强调了校准的重要性:”我在这里基本同意你们两个,但我非常同意校准很重要。它很重要。但我认为这很有趣,实际上,当你进行领域随机化时,你实际上是在教你的系统保守。你是在教你的系统,如果我不知道做这个会发生什么,无论如何我都是安全的。这种方式掩盖了你的动态特性。所以它真的取决于你想要达到什么。如果你进行领域随机化,你不会从系统中获得相同的性能,但当然你会得到非常稳健的东西。如果你做非常好的校准,你可以从你的系统中获得更多,所以长期来看它会很重要。”
Berndt还介绍了一个创新方法:”现在有一些非常令人兴奋的工作,将机器人历史添加到模型的上下文中。对于每一个单独的机器人,你取一些机器人的运行时间,把它放入实际模型的上下文中。然后它在上下文中学习自己的动态特性,这实际上出奇地有效。这很酷,这有点像两全其美。它被称为RMA,快速电机适应。”
从这部分讨论中,我们可以看到硬件挑战、制造变异性和校准的重要性。各公司采取了不同的方法来应对这些挑战,从BostonDynamics强调的良好工程实践和校准,到AgilityRobotics采用的大规模领域随机化,再到1X提出的将机器人历史纳入模型上下文的创新方法。这些不同的方法共同构成了应对硬件挑战的综合策略,为人形机器人的大规模部署铺平了道路。
六、物理AI的未来:互动与反馈如何解决幻觉问题
论坛的最后部分转向了更宏观的讨论,探讨物理AI与数字AI的区别,以及机器人如何通过与现实世界的互动来解决AI系统普遍面临的”幻觉”问题。
SkildAI的DeepakPathak首先强调了机器人AI的独特性:”在机器人领域,我们不只是在部署一个静态模型,而是在部署学习引擎。为机器人部署的将是这些微型学习引擎。因为许多事情会发生变化,即使是你自己的身体。如果我去锻炼,一小时锻炼后,我的手很痛,我必须拿起牙刷甚至一个瓶子,我现在有一个不同的身体。现在需要更多的扭矩才能获得与锻炼前相同的输出。我们的大脑在每一微秒、分钟和长时间内都在实时适应这些变化。这将是机器人AI与其他地方应用的AI的主要区别。”
1X的BerndtBørnich提出了机器人对AI发展的潜在贡献:”我们太多地问AI能为机器人做什么,而不是问机器人能为AI做什么。当你实际上在现实世界中采取行动时获得的数据,当你有一个假设,你采取行动,你观察结果并学习,这就是我们人类学习的方式。我们最近在推理模型中看到很多内容,例如,在数学上非常好,在代码上非常好,因为它是可验证的。你可以去验证是否得到了正确答案。”
1X的BerndtBørnich接着指出了机器人AI的独特优势:”机器人技术让我们能够从所有学习内容中获得直接验证。在大型语言模型中,’幻觉’是个严重问题,但你几乎从不听说机器人系统有’幻觉’问题,为什么?因为机器人可以通过实际交互来验证任何假设。比如,如果我想知道把瓶子从这里推到那里会发生什么,我不需要猜测—我可以直接尝试这个动作,观察瓶子掉落,并从这个体验中学习。这就是互动学习的本质。与物理世界的互动自然消除了幻觉,因为每次行动都会产生可以观察的结果。相比之下,当AI从静态数据如维基百科学习时,它无法验证所获取的所有信息是否正确,除非是数学或编程这类具有内在验证机制的领域。”
Berndt还分享了一个具体例子:”我们有一个很好的实际例子,因为我们确实做了这个。去年,我们有一个问题,办公室里没有人放下马桶盖。我们有一个我们以前的机器人Eve,它有轮子,但仍然非常灵活。所以我们让它自主地进去,看看马桶盖是向上还是向下。我们在这上面运行了GPT-4-0,结果是50%的上下。它完全不知道,纯随机,它无法判断座位是向上还是向下。”
“但我们让机器人去关闭马桶盖。这是一个自主策略。它会四处走动,检查浴室,如果马桶盖是向上的,就把它放下来。这很有趣,我们很享受,我们笑了。但它实际上是在现实世界中闭环。现在模型可以得到反馈,看,它是向下的。我知道盖子是向下的。我关上了它。我知道它向下。你告诉我它向上。你错了。”
“这类似于在其他地方关闭循环,我们使用AI与API或编译器或类似的东西交互,你让它发出一些结果,然后你通过一个验证阶段,你可以将其反馈到系统的上下文中。只是在这种情况下,循环关闭稍微慢一些,因为它是通过物理世界进行的。现在的问题是,我们不知道如何在一般情况下做到这一点。我们可以架构一个特定的东西,比如马桶盖。现在的问题是,你如何为这个问题提出一些通用的公式?”
BostonDynamics的AaronSaunders对”机器人不会产生幻觉”的观点提出了质疑:”我认为你绝对可以有幻觉,它以不同的方式表现出来,那就是机器人预期结果与现实世界中发生的事情之间的偏差。现在,它是可验证的,就像代码生成幻觉在它们不编译时是可验证的一样。但它表现为机器人做一个不可行的轨迹或生成一个动作。”
这部分讨论揭示了物理AI与数字AI之间的重要区别,以及机器人通过与现实世界的互动来解决AI系统中常见的”幻觉”问题的潜力。通过闭环学习,机器人可以不断验证和更新其对世界的理解,这为AI系统的整体改进提供了一个独特的途径。
结论:人形机器人的临界点与未来展望
纵观整个论坛,我们可以清晰地看到人形机器人行业正处于历史性的转折点。过去几年硬件、软件和数据领域的协同突破,使得曾经遥不可及的通用型人形机器人变得越来越接近现实。
从技术角度看,我们正在经历三个关键的并行革命:
模型革命:大型基础模型的出现,特别是多模态模型,为机器人提供了前所未有的推理和理解能力。
数据革命:通过先进的模拟技术、人类行为数据的利用,以及创新的数据合成方法,机器人领域正在逐步解决其长期以来面临的数据匮乏问题。
硬件革命:人形机器人的硬件成本从2001年的150万美元降至现在的4万美元左右,同时性能和可靠性显著提升。
更根本的变化是方法论的转变—从传统的控制论方法到基于经验学习的方法。正如DeepakPathak指出的,以前的机器人主要依靠预编程的控制算法,而现在我们正转向一种更像人类学习的方式—通过体验和交互来学习。
关于未来发展战略,各公司展示了不同但互补的路径:
英伟达的GR00T项目展示了统一基础模型的潜力,希望通过”光子到动作”的端到端方法,为各种人形机器人创建通用大脑。
BostonDynamics则强调了在追求AI创新的同时,保持工程稳健性和客户信任的重要性。
1X强调了数据多样性对于真正智能的关键作用,认为消费级应用将是人形机器人体验多样化真实世界的关键途径。
SkildAI主张将机器人视为自适应学习系统,而非静态部署的模型,突出了持续学习的重要性。
AgilityRobotics则展示了如何通过实际部署和客户使用来推动技术进步,强调了真实世界体验的价值。
不过,跨体现问题(crossembodiment)仍然是一个重要挑战,但通过领域随机化、上下文适应和更好的硬件设计,这个问题似乎是可以解决的。同样,制造变异性问题也需要通过良好的工程实践、校准技术和适应性AI来解决。
也许最具启发性的讨论是关于物理AI如何通过与现实世界的互动来解决”幻觉”问题。通过闭环学习,机器人不仅可以验证自己的假设,还可以根据实际结果不断调整和改进。这种能力可能会彻底改变我们开发更可靠、更真实智能的AI系统的方式。