数据服务

机器人数据注释：如何标记用于训练的机器人演示

注释是机器人学习中最不起眼的部分，但却是最重要的部分。 500 个标注良好的演示数据集将比 2000 个标注不良的演示数据集训练出更好的策略。以下是注释对于机器人数据的含义以及如何正确执行。

注释对机器人数据意味着什么

与图像分类不同，图像分类中的注释意味着画框或单击标签，机器人演示注释更丰富、更结构化。单个机器人情节（通常为 20-200 秒的操作）需要在多个级别进行标记：该情节是成功还是失败，用什么语言描述任务，语义上不同的阶段在哪里开始和结束，以及是否存在因硬件错误或操作员错误而应从训练中排除的帧。

注释通常由人类审阅者观看录制片段的视频重播以及关节状态和夹具孔径图来完成。好的注释工具可以同时显示来自多个摄像头的同步视频，从而可以轻松地从机器人自己的摄像头无法清晰捕捉到的角度来判断成功与否。

成功标志：最重要的注释

机器人训练数据集中的每个情节都必须标有二进制成功标志：机器人是否成功完成任务。这听起来很简单，但必须在注释开始之前精确定义成功标准。 “将杯子放在盘子上”需要一个规范：杯子是否需要直立，手柄方向是否重要，可接受的位置误差是多少？对同一数据集应用不同隐式标准的注释器会创建噪声标签，从而降低训练性能。

在开始注释之前编写一页成功规范文档，其中包含成功和失败案例的示例图像。使用本文档来校准注释器。衡量注释者之间对共享剧集子集的一致性 - 如果一致性低于 90%，则需要澄清您的成功标准。在将任何数据集标记为可供训练之前，SVRC 的注释管道需要明确的成功标准文档和注释者间协议检查。

语言标签

语言注释将自然语言描述附加到剧集或剧集片段。这些是训练语言条件策略所必需的——遵循“拿起红色块”等指令的策略，而不是对任务进行硬编码。语言注释还可以与视觉语言动作（VLA）模型兼容，并允许按任务描述搜索和过滤数据集。

在两个特异性级别上编写语言注释：简短的任务名称（“杯子放置”）和自然语言指令（“拿起白色杯子并将其放在蓝色盘子上”）。该指令应该描述人类观察者所看到的情况，而不是机器人的内部状态。如果您的任务涉及任务变体（不同的对象、不同的目标位置），则每个变体都应该有一个相应的指令，以将其与其他变体区分开来。

任务细分

对于涉及多个连续子任务的长范围任务，分段标签标记阶段之间的边界。餐桌布置任务可以分为：到达杯、抓握杯、运输杯、放置杯、释放杯。分段可以实现分层策略训练、子任务级成功指标和选择性数据增强。它还支持外科手术调试：如果策略在运输过程中失败但在抓取过程中成功，分段标签可让您衡量子任务的成功率并在最需要的地方定位数据收集工作。

分段注释比成功标记更昂贵，而且并不总是必要的。优先考虑具有三个或更多语义不同阶段的任务的分段，或者当您计划使用分层策略架构时。

注释工具和质量标准

常见的机器人数据标注工具包括 Label Studio（开源，支持视频和时间序列数据）、CVAT（计算机视觉标注工具，适合边界框覆盖）以及使用 Gradio 或 Streamlit 构建的自定义片段浏览器。 SVRC 的数据平台包括可通过网络应用程序访问的内置剧集注释界面，支持成功标志、语言标签和帧级排除标记。

质量标准比数量更重要。 SVRC 对所有数据集应用三阶段质量门：记录后立即进行操作员自我注释，由训练有素的注释者进行二次审查，以及将注释与联合状态统计数据进行比较的自动一致性检查（例如，标记成功的事件，其中夹具从未关闭的事件被标记为重新审查）。

SVRC 的注释管道

当您使用 SVRC 时数据收集服务，注释是可交付成果的一部分。我们的操作员在录制会话期间用成功标志和语言标签对每一集进行注释，并且我们的注释团队在数据集导出之前进行二次审查。您将收到包含高置信度注释、注释者一致性分数和完整质量报告的数据集。对于携带自己收集的数据的团队，SVRC 提供仅注释服务，并且可以处理在任何支持的硬件平台上收集的现有数据集。联系我们讨论您的数据集注释需求。