“美国版宇树”Figure回应“机器人进宝马”质疑,60分钟无剪视频宣称“三个月性能猛增”
仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
来源:Ai&芯片那点事儿
“美国版宇树”Figure声称,仅仅三个月的物流环境部署后,Helix的平均包裹处理速度从5. 0秒提升至4.05秒,效率提升近20%,同时还能处理可变形塑料袋和扁平信封等复杂包裹类型,非常接近人类操作员的效率。
近期,“美国版宇树”FigureAI与宝马的合作关系受到质疑,有报道称其进展不及预期,对此FigureAI曾强烈否认,Adcock甚至公开威胁要起诉相关媒体。
然而,公司联合创始人兼首席执行官BrettAdcock在6日的彭博科技大会上的表现,与其竞争对手形成了鲜明对比。当AgilityRobotics和BostonDynamics都在现场展示其机器人产品时,FigureAI却选择了缺席。
面对记者关于为何不进行现场演示的追问,Adcock给出的理由显得颇为牵强:
\“我们的理念是不参加很多活动,我认为这是巨大的时间浪费。坦率地说,我必须带一个团队来这里展示机器人,他们本可以在办公室工作。\“
Adcock补充称,公司正通过视频展示机器人。
6月8日,FigureAI的回应视频来了。公司发布了Helix机器人60分钟无剪辑物流分拣视频,声称仅仅三个月的物流环境部署后,Helix的操作速度和灵活性已开始接近人类水平。
Figure称,公司研发的Helix机器人在人形机器人领域展现出多项令人印象深刻的亮点,特别是在物流和操作任务方面取得了显著进步。
Helix的平均包裹处理速度从5. 0秒提升至4.05秒,效率提升近20%,同时还能处理可变形塑料袋和扁平信封等复杂包裹类型,非常接近人类操作员的效率。更令人震撼的是条形码扫描成功率从70%飙升至95%——这意味着机器人不仅更快,还更精准。
当Helix遇到褶皱的塑料包装袋时,它会先轻拍平整表面,确保条形码完整读取。这都是通过端到端学习直接从数据中学习到的,无需显式编程。
Figure表示,工程师为Helix植入了三大关键模块,让其具备了短期记忆、运动历史感知和力反馈能力:
:引入短期视觉记忆模块,使机器人能够记住过去的视觉信息,从而进行更智能的多步操作,消除冗余动作,提高任务成功率。
:通过整合机器人近期状态的历史数据,实现了更快速、更灵敏的控制,让机器人在操作过程中保持连贯性,并能及时应对突发状况。
:整合了触觉感知能力,机器人能够感知与物体和环境的接触,从而实现更精确的抓取和操作,提高了系统对物体差异的稳健性。
Figure的受控实验显示,Helix训练数据从10小时增加到60小时,处理时间从6. 34秒降至4.31秒,扫描成功率从88. 2%升至94. 4%。表明其基于学习的方法具有强大的可扩展性。
公司表示,Helix正在稳步缩小学习型机器人与真实世界任务需求之间的差距。一个由人形机器人在速度、效率和灵活性上与人类并肩工作的未来不再是科幻,而是即将到来的现实。
以下为FigureAI官网原文:
《扩展Helix:人形物流领域的新突破》
2025年06月07日
自我们首次将Helix系统部署在物流环境中仅仅三个月,该系统的功能和性能就取得了飞跃性进步。Helix系统如今能够处理更广泛多样的包装类型,并且正逐渐接近人类水平的灵巧度和速度,使我们离实现完全自主的包裹分拣又近了一步。这一快速进展凸显了Helix系统基于学习的机器人方法的可扩展性,能够迅速转化为实际应用中的成效。
新型包裹类型——Helix系统如今能够像处理硬质纸箱一样可靠地操纵可变形的聚乙烯袋和扁平信封,针对每种形态因素调整其抓取方式和策略,动态地处理各类物体。
更高的处理速度——尽管处理的包裹类型变得更加复杂多样,执行速度也提升至每个包裹4. 05秒(从约5. 0秒降低),实现了约20%的处理速度提升,同时保持了准确性。
更高的条形码扫描成功率——如今,运输标签的朝向在约95%的情况下都能正确地面向扫描仪(从约70%提升),这得益于更好的视觉和控制能力。
自适应行为——机器人展现出了从演示中学习到的细微行为,例如轻拍塑料信封以抚平褶皱,从而提高条形码的读取率。
小型包裹物流,如这里所示的例子,是人工智能学习的理想环境,因为每个时间步的包裹和场景都在不断变化,这使其非常适合神经网络。
这些改进是通过数据扩展和模型架构改进实现的:
时间记忆——一个新的视觉记忆模块赋予了Helix系统有状态的感知能力。如今的策略还结合了过去状态的历史记录,能够实现时间上延伸的行为,并提高了对中断的鲁棒性。
力反馈——力感应被整合到状态输入中,提供了一种触觉代理,从而实现了更精确的抓取和包裹操纵。
在这里,我们分析了这些提升的来源,考察了增加演示训练数据(从10小时增加到60小时)如何影响性能,以及上述每项架构增强如何有助于Helix系统在包裹处理的速度和准确性方面取得进步。
扩展包裹种类和自适应行为
Helix系统的物流策略已经扩展到能够处理更广泛多样的包裹。除了标准的硬质纸箱,该系统如今还能管理聚乙烯袋(聚乙烯袋)、加衬信封以及其他可变形或薄型包裹,这些包裹带来了独特的挑战。这些物品可能会折叠、起皱或弯曲,使得抓取和定位标签变得更加困难。Helix系统通过实时调整其抓取策略来解决这一问题——例如,通过快速甩动软袋使其动态翻转,或者使用捏握方式处理扁平邮件。尽管形状和质地的多样性增加,Helix系统却提高了其吞吐量,平均每个包裹的处理时间约为4. 05秒,没有出现瓶颈。
该物流任务的目标是将包裹旋转,使条形码朝下以便扫描。一个值得注意的行为是Helix系统在尝试扫描之前倾向于拍平塑料包装。如果运输标签位于弯曲或起皱的表面(常见于填充松散的聚乙烯袋或起泡信封),策略会通过短暂按压和平整表面来做出反应。这种微妙的“平整”动作是从演示中学习而来的,确保条形码能够完全被扫描仪读取。这种自适应行为突出了端到端学习的优势——机器人从未明确硬编码的演示策略中学习,直接从数据中学习,以克服现实世界中包装的不完美之处。
至关重要的是,这些新能力并没有降低效率。吞吐量随着多功能性一起增加。Helix系统每个包裹的平均处理时间从大约5. 0秒(在简化的一组包裹上)降低到了4. 31秒,即使随着新包裹类型的出现,任务变得更加困难。这种速度提升使性能更接近人类操作员的速度。同样,条形码方向的成功率也上升到了约95%。这些改进共同表明了一个更加灵巧且可靠的系统,能够在广泛的现实世界包裹范围内接近人类水平的速度和准确性。
Helix系统视觉-运动策略的架构改进
上述许多提升都是通过针对Helix系统1视觉-运动策略的改进实现的。在过去的两个月里,我们引入了新的记忆和感知模块,使控制策略更加具有情境感知能力和鲁棒性。这些增强功能使Helix系统能够更好地感知世界的状态,并感受其正在做的事情,补充了最初部署时建立的视觉和控制基础。在这里,我们详细说明每一项改进以及它如何有助于Helix系统的物流性能。
视觉记忆
Helix系统的策略如今维护着其环境的短期视觉记忆,而不仅仅是基于即时的相机帧进行操作。具体来说,该模型配备了一个模块,该模块从最近的一系列视频帧中组合特征,为其提供了一个时间上延伸的场景视图。这种隐式的视觉记忆使得有状态的行为成为可能:机器人可以记住它已经检查过包裹的哪一面,或者传送带的哪些区域是空闲的。例如,如果初始相机视图没有完全揭示标签,Helix系统可以回忆起之前的部分瞥见,并决定将包裹旋转到记得标签可见的角度。因此,记忆模块有助于消除冗余动作(机器人不会“忘记”并重新检查同一侧两次),并通过确保考虑了物品的所有必要视图来提高成功率。本质上,视觉记忆赋予了Helix系统一种时间上的上下文感,使其能够在多步骤操作中更具战略性地行动。这正是将条形码方向成功率提升至95%的关键——如今的策略可以可靠地执行多步骤操作(例如多次小旋转或视角调整),以找到条形码,由视觉回忆引导,而不是依赖于一次幸运的瞥见。
状态历史
我们还将Helix系统的本体感知输入与近期状态的历史记录相结合,从而实现了更快、更具反应性的控制。最初,策略是以固定时长的动作块进行操作的:它会观察当前状态并输出一系列运动轨迹,然后重新观察,如此循环。通过将过去机器人的状态(手、躯干和头部位置)的窗口纳入策略的输入中,系统在这些动作块之间保持了连续性。重要的是,状态历史保留了上下文,因此即使重新规划的频率更高,策略也不会丢失其正在进行的操作或使操纵变得不稳定。最终结果是对意外或干扰的更快响应:如果包裹移动了或者尝试抓取没有完美落地,Helix系统可以在运动中途进行纠正,且几乎没有延迟。这一增强功能对每个包裹的处理时间的减少做出了显著贡献。
力反馈
为了赋予Helix系统基本的触觉,我们将力反馈整合到了策略的输入观察中。Helix系统对环境和它操纵的物体所施加的力现在成为了输入神经网络的状态的一部分。这些信息使策略能够检测接触事件并相应地进行调整。例如,当Helix系统伸手去拿一个包裹时,它能够感知到第一次接触到物体的时候,或者当一个包裹被按压在表面上时。它学会了利用这些线索来调节运动:例如,在检测到与传送带接触时暂停向下的运动。通过与触觉形成闭环,Helix系统实现了更精确的处理,最终提高了动作的成功率和一致性,使系统对物体的重量、硬度和放置位置的变化更具鲁棒性。
结果与讨论
为了量化这些改进的影响,我们在不同的训练数据制度和模型配置下对Helix系统的物流性能进行了受控评估。我们测量了两个关键指标:包裹处理速度(每个包裹的平均秒数,越低越好)和条形码扫描成功率(正确朝向扫描仪的包裹百分比,越高越好)。以下结果分解了额外的训练数据和新的架构特性对Helix系统整体性能提升的各自贡献。
扩展训练数据
首先,我们考察了扩展人类演示数据量对Helix系统熟练度的影响。我们将训练数据量约为10小时、20小时、40小时和60小时的演示轨迹的模型进行了比较(网络架构和超参数相同)。如下面的图1所示,增加训练数据在吞吐量和准确性方面都带来了明显的改进。
图1:训练数据量对包裹处理性能的影响。更多的演示数据带来了更快的平均处理速度(每个包裹的秒数,越低越好)和更高的条形码扫描成功率。下面的所有模型都是相同的,都使用了带有记忆和反馈模块的最新Helix系统1架构。
从10小时增加到60小时的训练演示,Helix每个包裹的平均处理时间从约6. 84秒降低到了4.31秒,吞吐量提高了58%,条形码成功率从88. 2%上升到了94. 4%。这些回报表明,我们仍然处于低数据阶段,因为随着数据量的增加,模型性能仍在稳步提升。
记忆和反馈模块的贡献
接下来,我们评估最近的架构增强——视觉记忆、状态历史和力反馈——对性能的贡献。我们进行了消融研究,比较了带有这些模块启用或禁用的Helix模型的不同变体。在这个比较中,所有模型都是在相同的60小时数据集上训练的,因此任何指标上的差异都反映了这些新功能的有无。图2总结了这次消融研究的结果,列出了处理速度和成功率。
图2:添加视觉记忆、状态历史和力反馈的性能影响。每一行展示了一个Helix策略的变体(在60小时数据上训练),启用了某些模块。完整模型(最后一行)包含了所有增强功能。我们报告了每个变体的平均处理时间(秒/包裹)和条形码成功率。
在图2中,我们展示了每个模块如何消除特定的瓶颈。单目基线缺乏深度和时间上下文,抓取位置不准确,而且由于无法判断停留在某个状态的时间,常常会长时间暂停。增加立体视觉解决了深度问题——抓取更加干净利落,吞吐量也有所提高——但长时间暂停的问题仍然存在。解决暂停问题的一个方法是增加动作块的长度,但这会以降低反应时间为代价。相反,引入视觉记忆可以让策略回忆起袋子是否已经被翻转,或者标签是否曾经可见,消除了冗余的重新定向,并从循环中再削减了半秒。当加入状态历史和力反馈时,机器人获得了时间流逝和触觉的感知:它不再停滞不前,更好地调节对硬纸箱的抓取力,并更好地控制对周围施加的力以避免失去平衡,使首次条形码扫描成功率提升至94%。最后,通过将网络的Transformer解码器头参数数量增加50%来扩展网络,利用这些更丰富的输入,将平均处理时间降低到4. 05秒,同时保持准确率在92%以上。
视觉条件反射:人机交接
尽管Helix在物流场景中的主要目标是自主分拣,但相同的端到端模型可以轻松适应新的交互。一个例子是通过视觉条件反射实现的人机交接行为。我们仅提供了一些额外的演示片段,其中一个人等待包裹交接(这些片段是在主要数据收集过程中随机收集的),从而让策略将人伸出的手解释为交接物品的信号。没有明确编程新的技能;网络只是学会了,在有人伸手的情况下,合适的动作是将包裹交给对方而不是放在传送带上。这种行为使用了与其他所有动作相同的神经策略和权重——差异纯粹来自Helix对人的观察以及它从那些额外示例中学到的上下文。
结论
我们展示了如何通过扩展高质量的演示数据集,并结合视觉记忆、状态历史和力反馈等架构改进,显著提升了Helix在现实世界物流中的性能。结果是一个通用的视觉-运动策略,能够以接近人类水平的速度和高可靠性处理各种包裹——与两个月前的初始能力相比,这是一个显著的进步。这些改进不仅解决了包裹处理中的即时挑战,还为Helix的控制系统带来了普遍的好处,这些好处可以延续到其他用例中。通过启用有状态的感知和力感应,我们在不牺牲效率的情况下,使策略更加稳健和灵活。至关重要的是,策略既从数据扩展中受益,也从架构改进中受益,仅靠其中任何一项都无法推动策略性能的提升。
Helix正在稳步提升其灵巧性和稳健性,缩小了学习型机器人操作与现实任务需求之间的差距。正在进行的工作将继续扩大其技能集,并确保在更高的速度和工作负载下保持稳定。。
阅读最新前沿科技趋势报告,请访问欧米伽研究所的“未来知识库”
https ://wx. zsxq.com/group/454854145828
未来知识库是“欧米伽未来研究所”建立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。欢迎扫描二维码或访问https ://wx. zsxq.com/group/454854145828进入。
截止到3月31日”未来知识库”精选的百部前沿科技趋势报告
(加入未来知识库,全部资料免费阅读和下载)
牛津未来研究院《将人工智能安全视为全球公共产品的影响、挑战与研究重点》
麦肯锡:超级智能机构:赋能人们释放人工智能的全部潜力
AAAI2025关于人工智能研究未来研究报告
斯坦福:2025斯坦福新兴技术评论:十项关键技术及其政策影响分析报告(191页)
壳牌:2025能源安全远景报告:能源与人工智能(57页)
盖洛普&牛津幸福研究中心:2025年世界幸福报告(260页)
Schwab:2025未来共生:以集体社会创新破解重大社会挑战研究报告(36页)
IMD:2024年全球数字竞争力排名报告:跨越数字鸿沟人才培养与数字法治是关键(214页)
DS系列专题:DeepSeek技术溯源及前沿探索,50页ppt
联合国人居署:2024全球城市负责任人工智能评估报告:利用AI构建以人为本的智慧城市(86页)
TechUK:2025全球复杂多变背景下的英国科技产业:战略韧性与增长路径研究报告(52页)
NAVEXGlobal:2024年十大风险与合规趋势报告(42页)
《具身物理交互在机器人-机器人及机器人-人协作中的应用》122页
2025-2035年人形机器人发展趋势报告53页
EvaluatePharma:2024年全球生物制药行业展望报告:增长驱动力分析(29页)
【AAAI2025教程】基础模型与具身智能体的交汇,350页ppt
Tracxn:2025全球飞行汽车行业市场研究报告(45页)
谷歌:2024人工智能短跑选手(AISprinters):捕捉新兴市场AI经济机遇报告(39页)
【斯坦福博士论文】构建类人化具身智能体:从人类行为中学习
《基于传感器的机器学习车辆分类》最新170页
美国安全与新兴技术中心:2025CSET对美国人工智能行动计划的建议(18页)
罗兰贝格:2024人形机器人的崛起:从科幻到现实:如何参与潜在变革研究报告(11页)
兰德公司:2025从研究到现实:NHS的研究和创新是实现十年计划的关键报告(209页)
康桥汇世(CambridgeAssociates):2025年全球经济展望报告(44页)
国际能源署:2025迈向核能新时代
麦肯锡:人工智能现状,组织如何重塑自身以获取价值
威立(Wiley):2025全球科研人员人工智能研究报告(38页)
牛津经济研究院:2025TikTok对美国就业的量化影响研究报告:470万岗位(14页)
国际能源署(IEA):能效2024研究报告(127页)
Workday:2025发挥人类潜能:人工智能(AI)技能革命研究报告(20页)
CertiK:Hack3D:2024年Web3. 0安全报告(28页)
世界经济论坛:工业制造中的前沿技术:人工智能代理的崛起》报告
迈向推理时代:大型语言模型的长链推理研究综述
波士顿咨询:2025亚太地区生成式AI的崛起研究报告:从技术追赶者到全球领导者的跨越(15页)
安联(Allianz):2025新势力崛起:全球芯片战争与半导体产业格局重构研究报告(33页)
IMT:2025具身智能(EmbodiedAI)概念、核心要素及未来进展:趋势与挑战研究报告(25页)
IEEE:2025具身智能(EmbodiedAI)综述:从模拟器到研究任务的调查分析报告(15页)
CCAV:2025当AI接管方向盘:自动驾驶场景下的人机交互认知重构、变革及对策研究报告(124页)
《强化学习自我博弈方法在兵棋推演分析与开发中的应用》最新132页
《面向科学发现的智能体人工智能:进展、挑战与未来方向综述》
全国机器人标准化技术委员会:人形机器人标准化白皮书(2024版)(96页)
美国国家科学委员会(NSB):2024年研究与发展-美国趋势及国际比较(51页)
艾昆纬(IQVIA):2025骨科手术机器人技术的崛起白皮书:创新及未来方向(17页)
NPL&Beauhurst:2025英国量子产业洞察报告:私人和公共投资的作用(25页)
IEAPVPS:2024光伏系统经济与技术关键绩效指标(KPI)使用最佳实践指南(65页)
AGI智能时代:2025让DeepSeek更有趣更有深度的思考研究分析报告(24页)
2025军事领域人工智能应用场景、国内外军事人工智能发展现状及未来趋势分析报告(37页)
华为:2025鸿蒙生态应用开发白皮书(133页
《超级智能战略研究报告》
中美技术差距分析报告2025
欧洲量子产业联盟(QuIC):2024年全球量子技术专利态势分析白皮书(34页)
美国能源部:2021超级高铁技术(Hyperloop)对电网和交通能源的影响研究报告(60页)
罗马大学:2025超级高铁(Hyperloop):第五种新型交通方式-技术研发进展、优势及局限性研究报告(72页)
兰德公司:2025灾难性网络风险保险研究报告:市场趋势与政策选择(93页)
GTI:2024先进感知技术白皮书(36页)
AAAI:2025人工智能研究的未来报告:17大关键议题(88页)
安联Allianz2025新势力崛起全球芯片战争与半导体产业格局重构研究报告
威达信:2025全球洪水风险研究报告:现状、趋势及应对措施(22页)
兰德公司:迈向人工智能治理研究报告:2024EqualAI峰会洞察及建议(19页)
哈佛商业评论:2025人工智能时代下的现代软件开发实践报告(12页)
德安华:全球航空航天、国防及政府服务研究报告:2024年回顾及2025年展望(27页)
奥雅纳:2024塑造超级高铁(Hyperloop)的未来:监管如何推动发展与创新研究报告(28页)
HSOAC:2025美国新兴技术与风险评估报告:太空领域和关键基础设施(24页)
Dealroom:2025欧洲经济与科技创新发展态势、挑战及策略研究报告(76页)
《无人机辅助的天空地一体化网络:学习算法技术综述》
谷歌云(GoogleCloud):2025年AI商业趋势白皮书(49页)
《新兴技术与风险分析:太空领域与关键基础设施》最新报告
150页!《DeepSeek大模型生态报告》
军事人工智能行业研究报告:技术奇点驱动应用加速智能化重塑现代战争形态-250309(40页)
真格基金:2024美国独角兽观察报告(56页)
璞跃(PlugandPlay):2025未来商业研究报告:六大趋势分析(67页)
国际电工委员会(IEC):2025智能水电技术与市场展望报告(90页)
RWS:2025智驭AI冲击波:人机协作的未来研究报告(39页)
国际电工委员会(IEC):2025智能水电技术与市场展望报告(90页)
RWS:2025智驭AI冲击波:人机协作的未来研究报告(39页)
未来今日研究所2025年科技趋势报告第18版1000页
模拟真实世界:多模态生成模型的统一综述
中国信息协会低空经济分会:低空经济发展报告(2024-2025)(117页)
浙江大学:2025语言解码双生花:人类经验与AI算法的镜像之旅(42页)
人形机器人行业:由“外”到“内”智能革命-250306(51页)
大成:2025年全球人工智能趋势报告:关键法律问题(28页)
北京大学:2025年DeepSeek原理和落地应用报告(57页)
欧盟委员会人工智能与未来工作研究报告
加州大学伯克利分校:面向科学发现的多模态基础模型:在化学、材料和生物学中的应用
电子行业:从柔性传感到人形机器人触觉革命-250226(35页)
RT轨道交通:2024年中国城市轨道交通市场数据报告(188页)
FastMoss:2024年度TikTok生态发展白皮书(122页)
CheckPoint:2025年网络安全报告-主要威胁、新兴趋势和CISO建议(57页)
【AAAI2025教程】评估大型语言模型:挑战与方法,199页ppt
《21世纪美国的主导地位:核聚变》最新报告
沃尔特基金会(VoltaFoundation):2024年全球电池行业年度报告(518页)
斯坦福:2025斯坦福新兴技术评论:十项关键技术及其政策影响分析报告(191页)
国际科学理事会:2025为人工智能做好国家研究生态系统的准备-2025年战略与进展报告(英文版)(118页)
光子盒:2025全球量子计算产业发展展望报告(184页)
奥纬论坛:2025塑造未来的城市研究报告:全球1500个城市的商业吸引力指数排名(124页)
FutureMatters:2024新兴技术与经济韧性:日本未来发展路径前瞻报告(17页)
《人类与人工智能协作的科学与艺术》284页博士论文
《论多智能体决策的复杂性:从博弈学习到部分监控》115页
《2025年技术展望》56页slides
大语言模型在多智能体自动驾驶系统中的应用:近期进展综述
【牛津大学博士论文】不确定性量化与因果考量在非策略决策制定中的应用
皮尤研究中心:2024美国民众对气候变化及应对政策的态度调研报告:气候政策对美国经济影响的多元观点审视(28页)
空间计算行业深度:发展趋势、关键技术、行业应用及相关公司深度梳理-250224(33页)
Gartner:2025网络安全中的AI:明确战略方向研究报告(16页)
北京大学:2025年DeepSeek系列报告-提示词工程和落地场景(86页)
北京大学:2025年DeepSeek系列报告-DeepSeek与AIGC应用(99页)
CIC工信安全:2024全球人工智能立法的主要模式、各国实践及发展趋势研究报告(42页)
中科闻歌:2025年人工智能技术发展与应用探索报告(61页)
AGI智能时代:2025年Grok-3大模型:技术突破与未来展望报告(28页)
上下滑动查看更多