机器人策略泛化:为什么你的机器人在新物体上失败
您的政策在培训对象上取得了 90% 的成功。 您引入了一个新杯子、一个不同的盒子、一个不熟悉的工具,性能下降到 30%。 这是泛化问题,也是在现实世界中部署机器人学习的核心挑战。
泛化对机器人策略意味着什么
当机器人成功地对训练期间未见过的物体、位置和条件执行任务时,机器人策略就会泛化。 这与简单地记住所展示的行为不同——记忆会产生脆弱的策略,一旦部署条件与训练条件不同,这些策略就会失败。 泛化要求策略学习基本的任务概念(拿起容器,倒液体),而不是与特定视觉输入相关的特定运动序列。
在实践中有多个重要的泛化轴:对象外观泛化(相同形状、不同颜色或纹理)、对象几何泛化(相同类别、不同大小或精确形状)、位置泛化(相同对象、不同起始位置)和组合泛化(熟悉的任务元素的新组合)。 每个轴都需要不同的数据策略,并且根据策略架构的不同,其难度或多或少。
为什么失败:根本原因
泛化不良的最常见原因是训练数据集的多样性不足。 如果所有演示都在相同的起始位置使用相同的红色杯子,则该策略将学习该杯子和该位置的特定特征,而不是“杯子”的一般概念。 该策略无法区分“在这个特定位置拿起这个特定的红色杯子”和“在任何地方拿起任何杯子”。 这不是算法的缺陷;而是算法的缺陷。 这是一个数据问题。
第二个原因是视觉特征的分布变化。 如果训练演示是在受控工作室照明下录制的,并且部署是在可变的环境光下进行的,则策略学到的视觉特征可能无法在部署观察时正确激活。 类似地,如果新对象具有与训练对象不同的表面纹理或反射率,则策略主干使用的低级视觉特征可能与预期不匹配。 这就是为什么 SVRC 的数据收集标准要求在多种照明条件下和不同的对象实例中收集数据。
数据多样性策略
提高泛化能力的最可靠方法是有意使数据集多样化。 对于对象多样性:收集至少 10-20 个不同尺寸、颜色、材料和品牌的目标对象类别的不同实例的演示。 对于位置多样性:在 30-40 厘米的网格内改变起始位置并包括不同的方向。 对于背景多样性:改变工作空间表面,添加干扰物,并在会话之间改变照明。
数据增强可以补充真实的多样性,但不能取代它。 标准视觉增强——颜色抖动、随机裁剪、亮度/对比度变化——提高了对光照变化的鲁棒性,但不能替代不同的对象实例。 使用图像编辑或生成模型生成合成增强数据来创建对象变化已显示出希望,但需要仔细的质量控制以避免引入不切实际的视觉伪影。
VLA 与特定于任务的策略
视觉-语言-动作模型(VLA)——将语言指令和视觉观察作为输入并产生动作的策略——提供了一种不同的泛化方法。 通过将机器人行为植根于大型视觉语言预训练的丰富语义表示中,VLA 有时可以根据与语言描述匹配的视觉外观(“拿起杯子”泛化到模型识别为杯子的任何对象)零样本地处理新的对象实例。 OpenVLA、Octo 和 RT-2 等模型已经在某些操作任务上展示了有意义的零样本泛化。
然而,VLA 并不是神奇的泛化机器。 它们擅长语义泛化(已知类别中的新对象实例),但仍难以处理几何泛化(需要不同抓取配置的新对象形状)以及需要精确力控制或丰富接触行为的任务。 对于大多数研究团队来说,实际的建议是:使用 VLA 作为起点或骨干,然后对特定任务的演示进行微调,以达到您所需的精度和可靠性。
泛化评价方法
泛化应该明确地评估,而不是从分布内的表现中推断出来。 标准评估协议使用训练中不存在的保留对象测试集 - 理想情况下,每个类别有 5-10 个对象实例,这些实例被故意排除在数据收集之外。 评估训练后保留的集合,并分别报告分布内和分布外的成功率。 实现 85% 分布内但仅 40% 分布外的策略的泛化能力有限,需要更多样化的训练数据。
SVRC 的质量标准要求在任何数据集标记为生产就绪之前进行泛化评估。 我们的注释和评估管道包括用于所有操作数据集的保留对象集,并且我们的工程团队可以对训练有素的策略运行标准化的泛化评估。 为了帮助通过我们的 数据服务,或用于评估支持, 联系 SVRC 团队.