机器人模仿学习:实用指南
模仿学习已成为教授机器人灵巧操作技能的主导范例。 您无需手动设计奖励函数或编写运动计划,只需向机器人展示该做什么即可。 本指南解释了它的工作原理、使用哪些算法以及获得结果所需的基础设施。
什么是模仿学习?
模仿学习(IL)——也称为从演示中学习(LfD)或行为克隆——训练策略来复制从人类操作员那里捕获的动作。 在数据收集过程中,熟练的演示者通过目标任务远程操作机器人,同时传感器记录关节位置、末端执行器姿势、相机框架和任何其他相关状态。 记录的数据成为神经网络策略的训练集。
IL 相对于强化学习的吸引力是实用的:您不需要设计奖励信号、运行数百万次模拟部署或解决稀疏奖励探索问题。 如果人类可以完成这项任务,机器人就有可能通过数百到数千次演示来学习它。 挑战在于泛化——当物体位置、照明或任务变化与训练分布不同时,针对狭隘演示训练的策略可能会失败。
现代 IL 研究通过更好的架构、更大、更多样化的数据集以及预先训练的视觉表示来解决这个问题。 自 2023 年以来,该领域发展迅速,即使没有机器人博士课程的团队现在也可以进行生产质量的模仿学习。
ACT:变形金刚动作分块
ACT 与斯坦福大学的 ALOHA 双手机器人平台一起推出,将机器人控制视为序列预测问题。 该策略预测大量未来行动(通常是 50-100 个时间步),而不是单个下一步行动。 这种动作分块减少了复合错误,这是幼稚行为克隆的主要失败模式,其中小的预测错误在轨迹上累积。
ACT 在训练期间使用 CVAE(条件变分自动编码器)来捕捉人类演示的多模态——事实上,完成一项任务通常有不止一种正确的方法。 在推理时,解码器根据当前相机观察和关节状态生成动作序列。 结果是一种策略可以处理人类演示的任务中的自然变化,而不会产生模式平均伪影。
ACT 是双手操作任务的一个强有力的起点。 它需要相对适中的数据量(每个任务 50-200 次演示),并且在单个 GPU 上训练只需数小时。 如果您正在使用 ALOHA 硬件或类似的双手设置,ACT 应该是您要尝试的第一个算法。 SVRC的 数据服务 包括在 ALOHA 级平台上收集的预处理的 ACT 兼容数据集。
扩散策略:处理多模式动作分布
扩散策略将分数匹配扩散模型(与支持图像稳定扩散的同一类模型)应用于机器人动作空间。 该策略不是预测单个最佳行动,而是学习人类示威者可能采取的行动的完整分布。 在推理时,它运行去噪过程以从该分布中采样高质量的动作。
相对于 ACT 的主要优势在于它如何处理多模式任务:人类可能从左侧或右侧抓住物体,或从多个有效角度接近目标的场景。 标准的行为克隆将这些模式平均在一起,产生了一种处于中间位置并失败的策略。 扩散策略从给定当前上下文的正确模式中采样,从而在模糊任务上产生更稳健的行为。
权衡是推理速度。 默认情况下,具有 UNet 主干的扩散策略在推理时需要 100 个去噪步骤,这对于实时控制来说可能太慢。 DDIM 采样器和稠度蒸馏变体将其减少到 10-25 个步骤,使实时操作变得可行。 对于数据要求,扩散政策通常比 ACT 受益于更多的演示,但对数据集多样性的奖励多于原始数量。
视觉-语言-动作模型:大规模 IL
OpenVLA、pi0 和 RT-2 等 VLA 通过在对机器人演示进行微调之前对互联网规模的视觉和语言数据进行预训练来扩展模仿学习。 预先训练的主干网络提供了对象、场景和关系的丰富表示,可以有力地转移到机器人操作中。 微调所需的演示比从头开始训练要少得多,有时只需 10-50 个特定于任务的示例。
对于能够满足计算和许可要求的团队来说,VLA 代表了 IL 性能的当前前沿。 它们可以更好地概括新物体、新环境和语言指定的任务变化。 SVRC 提供微调数据集和 远程操作基础设施 与主要 VLA 训练管道期望的数据格式兼容。 看看我们的 VLA模型解释指南 进行更深入的技术分析。
模仿学习的数据要求
单个操作任务的最小可行数据集通常是 50 个 ACT 演示、100-200 个扩散策略演示和 20-50 个 VLA 微调演示。 这些是在有利条件下的楼层估计——一致的照明、固定的摄像机视角以及位于可预测位置的物体。 实际部署需要 3-5 倍的数据来涵盖系统在生产中遇到的变化。
数据质量与数量一样重要。 演示应该由熟练的操作员来收集,他们能够一致、干净地完成任务。 失败的尝试、犹豫和纠正作为标记的成功进入训练集,会降低策略性能。 SVRC的 托管数据收集服务 提供训练有素的操作员、经过质量过滤的片段选择和结构化数据集打包 - 为您的工程团队节省数周的数据管道工作。
传感器多样性也很重要。 当相机被遮挡时,在单个手腕相机上训练的策略经常会失败。 最佳实践是从至少两个相机视点进行收集——一个是固定的俯视或侧视图,一个是腕上的——并在视觉观察的同时包括本体感觉状态(关节角度和速度)。
IL 研究的硬件和基础设施
模仿学习研究项目的最小硬件堆栈包括:具有足够自由度完成任务的机器人手臂(至少 6 个自由度用于一般操作)、用于数据收集的领导者-跟随者或基于 VR 的远程操作系统、两个或更多摄像头以及至少配备一个 NVIDIA GPU 的工作站(用于 ACT/扩散策略的 RTX 3090 或更好;建议用于 VLA 微调的 A100 或 H100)。
SVRC的 硬件目录 包括 OpenArm 平台,该平台附带兼容的远程操作引导臂和用于标准相机配置的安装硬件。 这 SVRC平台 提供软件层:事件记录、数据集管理、策略培训管道和评估工具。 团队可以通过租赁而不是购买短期项目的硬件 机器人租赁计划,这通常是获得工作 IL 原型的最快路径。
对于想要在投资硬件之前从数据开始的团队,SVRC 提供对我们在帕洛阿尔托工厂收集的精选多任务演示数据集的访问。 这些数据集涵盖了常见的操作原语——拾取、放置、浇注、折叠、组装——并且经过格式化可直接用于 ACT、Diffusion Policy 和 Hugging Face LeRobot。 联系我们的团队 讨论数据集访问选项。