ALOHA 机器人:它是什么、它是如何工作的以及如何开始

ALOHA 是斯坦福大学的双手遥控平台,它首次证明机器人可以通过少量的人类演示来学习灵巧的双手操作任务,例如打开一袋薯条、系电缆或烹饪。 它现在是世界上引用最广泛的双手研究平台。 本指南解释了什么是 ALOHA、它的工作原理以及如何开始使用它。

斯坦福大学的起源故事

ALOHA——一种用于双手远程操作的低成本开源硬件系统——由斯坦福大学移动操纵实验室开发,并发表在托尼·赵等人的论文《用低成本硬件学习细粒度双手操纵》中。 2023 年。中心论点具有挑衅性:你不需要昂贵的专有机器人硬件来执行令人印象深刻的灵巧操作。 ALOHA 使用总成本不到 20,000 美元的四个 ViperX 300 和 WidowX 250 机械臂(每侧两个,一个作为远程操作的领导者,一个作为跟随者),结合 ACT 算法来执行以前需要成本高出许多倍的定制设计系统的任务。

该论文演示了 10 项双手任务,包括打开一块糖果、将电池插入插槽以及将绳子穿过孔——经过 50 次演示,所有任务的成功率均超过 80%。 这些结果震惊了机器人界,并不是因为这些任务新颖,而是因为成本和数据效率。 ALOHA 和 ACT 共同为可访问的灵巧操作研究建立了新的基准,并引发了持续至今的后续工作浪潮。

ALOHA 硬件设计和所有软件都是完全开源的。 材料清单、组装说明和 ACT 培训代码可在 GitHub 上公开获取。 这种开放性使 ALOHA 成为事实上的标准双手研究平台,全球有数十个研究小组正在运行原始设计的变体。 SVRC 通过我们的支持 ALOHA 级平台 数据服务硬件租赁计划.

硬件架构:双手主从设置

ALOHA 系统由两个运动副组成,每对运动机械臂各一个。 每对都有一个“引导”手臂(操作员用手握住并移动的轻型、可向后驱动的手臂)和一个实时反映引导者关节位置的“跟随”手臂。 从动臂承载实际的操纵器(夹具、工具或末端执行器)并与物理世界交互。 引导臂没有末端​​执行器有效负载要求,因为它只需要可反向驱动并向操作员提供扭矩反馈。

双手配置(两个完整的领导者-跟随者对)使 ALOHA 能够独特地执行灵巧的任务。 人类的手本质上是双手的:一只手握住物体,另一只手操纵物体,或者两只手合作完成需要两个同时接触点的任务。 单臂机器人只能通过复杂的夹具或排序来近似完成这些任务; 双手机器人可以直接处理它们。 ALOHA 外形尺寸的双臂安装在共享桌面固定装置上,针对操作员坐在系统前面的桌面操作任务进行了优化。

最初的 ALOHA 论文中的相机设置使用了三个相机:一个位于头顶(整个工作空间的鸟瞰图),一个位于左手腕,一个位于右手腕。 所有三个摄像头都用作 ACT 政策的视觉观察。 这种多视图设置至关重要:腕式摄像头提供抓取和接触事件的特写视图,而头顶摄像头则为双手协调提供全局背景。 单摄像头 ALOHA 变体在协调繁重的任务上表现出明显较低的策略性能。

ACT:ALOHA 背后的算法

ACT(Action Chunking with Transformers)是与 ALOHA 一起开发的,是该平台的主要学习算法。 ACT 是一种基于 Transformer 的模仿学习策略,可预测未来的大量关节位置(通常为 50Hz 的 100 个时间步长,涵盖 2 秒的运动),而不是单个下一个动作。 这种动作分块架构大大减少了幼稚行为克隆的复合错误问题,其中每个时间步的小预测错误在任务过程中累积成大的轨迹偏差。

ACT 策略架构在训练期间使用 CVAE(条件变分自动编码器)编码器来捕获每个演示的潜在风格 - 本质上是人类“如何”完成任务的压缩表示,与任务结果“是什么”不同。 这使得该策略能够对人类演示中的自然变化进行建模,而无需进行模式平均伪影。 在推理时,只有 CVAE 解码器运行,以当前观察和采样的潜在向量为条件,生成动作块。

在 ALOHA 数据集上训练 ACT(每个任务有 50 个演示)在单个 RTX 3090 GPU 上需要 2-4 小时。 与原始论文一起发布的训练代码可以直接使用记录的超参数来运行标准 ALOHA 任务。 对于自定义任务,要调整的最有影响力的超参数是块大小(配置中的 kl_weight)——较大的块可以提高时间一致性,但代价是对意外扰动的反应性。 SVRC的 平台 包括针对 ALOHA 格式数据集的预配置 ACT 训练管道。

移动 ALOHA:取消 ALOHA

斯坦福大学同一小组于 2024 年发布的《Mobile ALOHA》将 ALOHA 概念扩展到了移动基站。 双手臂设置安装在 AgileX Tracer 移动底座上,使系统能够导航到空间内的不同位置 - 接近厨房柜台、移动到餐桌、导航走廊 - 同时保留 ALOHA 臂进行操作。 Mobile ALOHA 演示了在炉子上煮虾、装入洗碗机和递送包裹等需要移动和灵巧操作的任务。

Mobile ALOHA 引入了全身远程操作的概念:操作员可以通过单独的控制接口或通过将操作员的身体运动映射到机器人全身配置的统一接口同时控制移动底座和两个手臂。 移动 ALOHA 的数据收集比桌面 ALOHA 复杂得多,因为策略必须学会协调导航和操作,需要涵盖环境中的空间变化以及对象变化的演示。

Mobile ALOHA还引入了联合训练:在移动操纵演示和静态ALOHA操纵演示上联合训练Mobile ALOHA策略。 协同训练提高了移动平台上的操作性能,表明来自桌面数据的双手操作知识可以有效地转移到移动环境中。 SVRC 提供与移动 ALOHA 兼容的数据集,并可以在我们的帕洛阿尔托工厂收集移动操作演示。 联系我们 讨论您的 Mobile ALOHA 数据要求。

ALOHA、ALOHA 2 和商业衍生品之间的差异

ALOHA 2 于 2024 年末发布,在多个方面对原版进行了改进:具有更好重复性的更高质量的手臂、改进的相机安装系统以及改进的手腕设计,降低了电缆布线的复杂性。 电气系统也进行了更新,使用专用配电板而不是菊花链电源线,从而提高了长时间数据收集过程中的可靠性。 ALOHA 2 保持了与原始版本的完全软件兼容性——在一个上收集的数据集可以训练在另一个上评估的策略,但要遵守有关硬件变化的常见警告。

一些商业供应商现在销售 ALOHA 兼容平台——预先组装、经过测试的系统,遵循 ALOHA 机械和软件规范,无需制造商自行采购组件和组装手臂。 这些商业 ALOHA 系统的成本高于 DIY 材料清单,但大大减少了设置时间和组装错误的风险。 SVRC 的硬件目录包括 ALOHA 兼容配置; 看到 店铺 了解当前的选项和定价。

通过 SVRC 开始使用 ALOHA

SVRC 支持每个阶段基于 ALOHA 的研究。 对于刚刚起步的团队,我们通过我们的服务提供 ALOHA 平台租赁服务 机器人租赁计划 — 只需支付固定的月费即可获得完整的双手设置,无需购买硬件的资本投入。 租赁的系统到达时已预先校准并准备好在第一天收集演示。

为了收集数据,我们的 托管服务 提供训练有素的 ALOHA 操作员,他们可以在我们的帕洛阿尔托工厂收集演示,并以 RLDS/LeRobot 格式提供与 ACT、Diffusion Policy 和 OpenVLA 培训管道兼容的数据集。 我们的操作员在双手协调任务方面经验丰富,并遵循结构化质量协议,可以生成比首次研究人员通常获得的更清晰的数据集。 如果您的任务需要,我们还可以访问您的网站进行现场数据收集活动。

对于政策培训和评估, SVRC平台 为 ALOHA 策略提供预配置的 ACT 培训流程、实验跟踪和评估工具。 我们的 基准 包括 ALOHA 特定的任务评估,让您可以将策略性能与参考实施进行比较。 无论您是从头开始构建双手操作研究程序还是尝试提升现有系统的性能, SVRC团队 可以帮助您规划正确的方法。

有关的: 机器人的模仿学习 · VLA 模型解释 · 机器人租赁 · 数据服务 · 2026 年机械臂购买指南