设置指南

移动 ALOHA 设置指南：硬件、软件和首次演示

Mobile ALOHA 是学术研究中出现的最具影响力的双手操作平台之一。让它端到端运行——硬件组装、手臂校准、软件堆栈实时运行以及首次演示记录——需要仔细关注系统的每一层。

硬件组装概述

移动 ALOHA 系统由轮式移动底座（通常是 AgileX Tracer 或等效的差速驱动平台）组成，两个 ViperX 300 或类似的 6 自由度臂安装在升高的底盘上。双手设置需要匹配成对的引导臂和从动臂：引导臂更轻，可向后驱动，并且在远程操作期间由人类操作员握住；从动臂是实时反映引导器运动的机器人臂。

组装首先将从动臂以正确的高度和横向偏移安装到底盘上，以匹配引导臂的人体工程学。引导件和从动件几何形状不匹配是控制质量问题的常见根源。相机堆栈（通常是每个从动臂上安装一个腕式相机以及一个或两个头顶相机）应在任何软件校准开始之前安装并固定。电缆管理比看起来更重要：松动的电缆会中断事件并生成不良数据。

领导者-跟随者校准

校准是大多数团队匆忙采取的步骤，也是大多数团队后悔的步骤。在记录单个片段之前，引导臂和从动臂必须处于匹配的关节零位置。大多数基于 ViperX 的设置都附带物理校准装置 - 使用它们。机械调零后，软件校准捕获零位姿下引导器和从动器之间的关节偏移，并将其存储为远程操作期间实时应用的偏差校正。

通过命令引导臂缓慢穿过其工作空间并观察从动臂轨迹来测试校准质量。任何持续的关节空间滞后、特定关节角度的漂移或左右之间的不对称响应都表明存在校准错误，这会降低数据集的质量。在开始任何数据收集活动之前重新校准，并在运输系统或进行机械调整后重新验证校准。

软件堆栈：ACT 和 LeRobot

最初的 Mobile ALOHA 论文使用了在演示数据上训练的 ACT（Action Chunking with Transformers）策略。该软件堆栈包括三层：在机器人嵌入式计算上运行的低级控制层、同步捕获关节状态和相机帧的远程操作记录层以及在收集的数据集上训练 ACT 或其他策略的训练层。

Hugging Face 的 LeRobot 已成为此工作流程的标准开源框架。它提供统一的数据格式、ALOHA 式硬件的记录脚本以及 ACT、扩散策略和 TDMPC 的训练管道。 SVRC的数据平台以 LeRobot 兼容格式导出数据集，从而可以轻松地训练 SVRC 收集的数据或上传您自己的演示以进行存储和版本控制。

记录您的第一次数据收集会话

在录制之前，精确定义任务。 “拿起杯子”太模糊——指定杯子的起始位置、方向和目标位置。任务设置的一致性使演示数据集变得可学习。准备 3-5 次重置程序，以便在两次发作之间快速将工作区恢复到起始状态。

对于第一场会议，目标是对单一、明确定义的任务进行 50 次成功演示。以 30 Hz 或更高频率录制。录制后立即用成功标志对每个剧集进行注释 - 不要留下注释以供以后使用。 SVRC 建议至少在两种不同的照明条件下进行录制，并在对象放置上进行微小的变化，以便从一开始就建立多样性。这 SVRC数据服务平台提供剧集浏览器和注释工具来简化此工作流程。

常见问题及其解决方法

新的 Mobile ALOHA 设置最常见的问题分为四类。首先，领导者-跟随者滞后：通常是由控制环路上的网络延迟引起的 - 确保领导者和跟随者位于同一本地计算机上或通过专用以太网链路（而不是 WiFi）连接。其次，相机同步漂移：如果腕式和头顶相机未硬件同步，则在数据加载期间使用基于时间戳的对齐方式，而不是帧索引对齐方式。第三，双手任务期间的手臂碰撞：在强化训练之前在URDF中添加软关节限制和碰撞网格。第四，底座运动干扰手臂演示：在收集仅操作数据时，接合底座锁以防止漂移。

第一次演示后的后续步骤

获得干净的 50 集数据集后，可以使用 LeRobot 训练管道来训练 ACT 策略。对于使用干净数据的明确定义的任务，首次尝试的成功率预计为 40-60%——这是正常的，并且随着更多的演示和数据多样性而迅速提高。随着规模的扩大，SVRC 数据收集服务可以使用标准化硬件通过专业收集的剧集来扩充您的数据集。如需硬件采购或租赁双手系统，请访问我们的硬件目录或者联系 SVRC 团队.