ロボット データ アノテーション: トレーニング用のロボット デモンストレーションにラベルを付ける方法

アノテーションはロボット学習の中で最も魅力的ではない部分ですが、最も重要な部分です。 適切に注釈が付けられた 500 件のデモンストレーションのデータセットは、不十分にラベル付けされた 2,000 件のデモンストレーションよりも優れたポリシーをトレーニングします。 ここでは、ロボット データに対するアノテーションの意味と、それを正しく行う方法について説明します。

ロボット データに対するアノテーションの意味

注釈がボックスを描画したりラベルをクリックしたりすることを意味する画像分類とは異なり、ロボット デモンストレーションの注釈はより豊富で構造化されています。 単一のロボット エピソード (通常は 20 ~ 200 秒の操作) は、複数のレベルでラベル付けする必要があります。つまり、エピソードは成功か失敗か、タスクをどの言語で説明するか、意味的に異なるフェーズがどこで始まりどこで終わるか、ハードウェア エラーやオペレータの間違いによりトレーニングから除外する必要があるフレームはないか、などです。

注釈は通常、関節の状態とグリッパーの開口部のプロットと並行して、記録されたエピソードのビデオ再生を観察する人間のレビュー担当者によって行われます。 優れた注釈ツールは、複数のカメラから同期したビデオを同時に表示するため、ロボット自身のカメラでは明確に捉えられない可能性のある視点から成功を簡単に判断できます。

成功フラグ: 最も重要な注釈

ロボット トレーニング データセット内のすべてのエピソードには、ロボットがタスクを正常に完了したかどうかを示すバイナリの成功フラグを付ける必要があります。 これは簡単に聞こえますが、アノテーションを開始する前に成功基準を正確に定義する必要があります。 「カップを皿の上に置く」には仕様が必要です。カップは直立する必要があるか、ハンドルの向きは重要ですか、どの程度の位置誤差は許容されますか? 同じデータセットに異なる暗黙の標準を適用するアノテーターは、トレーニングのパフォーマンスを低下させるノイズの多いラベルを作成します。

注釈を開始する前に、成功例と失敗例の画像を含む 1 ページの成功仕様書を作成します。 このドキュメントを使用してアノテーターを調整します。 エピソードの共有サブセットに関するアノテーター間の合意を測定します。合意が 90% 未満の場合は、成功基準を明確にする必要があります。 SVRC のアノテーション パイプラインでは、データセットがトレーニングの準備ができているとマークされる前に、明示的な成功基準ドキュメントとアノテーター間の合意チェックが必要です。

言語ラベル

言語注釈は、自然言語による説明をエピソードまたはエピソード セグメントに添付します。 これらは、言語条件付きポリシー、つまりタスクをハードコード化するのではなく、「赤いブロックを拾う」などの指示に従うポリシーをトレーニングするために必要です。 また、言語アノテーションにより、ビジョン言語アクション (VLA) モデルとの互換性が可能になり、タスクの説明によってデータセットを検索およびフィルターできるようになります。

言語注釈を 2 つの詳細レベルで記述します。短いタスク名 (「カップの配置」) と自然言語による指示 (「白いカップを持ち上げて、青い皿に置きます」) です。 命令では、ロボットの内部状態ではなく、人間の観察者が何が起こっていると見るかを説明する必要があります。 タスクにタスクのバリエーション (さまざまなオブジェクト、さまざまなターゲットの場所) が含まれる場合、各バリエーションには、他のバリエーションと区別する対応する命令が必要です。

タスクの分割

複数の連続したサブタスクを含む長期タスクの場合、セグメント化ラベルはフェーズ間の境界をマークします。 テーブルセッティングのタスクは、カップに到達する、カップをつかむ、カップを運ぶ、カップを置く、カップを解放する、に分類できます。 セグメンテーションにより、階層的なポリシー トレーニング、サブタスク レベルの成功指標、および選択的なデータ拡張が可能になります。 また、外科的デバッグも可能です。ポリシーが転送中に失敗しても把握中に成功した場合、セグメンテーション ラベルを使用して、サブタスクの成功率を測定し、最も必要なデータ収集作業をターゲットにすることができます。

セグメンテーションのアノテーションは成功のフラグ付けよりも高価であり、必ずしも必要というわけではありません。 意味的に異なるフェーズが 3 つ以上あるタスク、または階層型ポリシー アーキテクチャの使用を計画している場合は、セグメンテーションを優先します。

注釈ツールと品質基準

ロボット データの一般的な注釈ツールには、Label Studio (オープン ソース、ビデオおよび時系列データをサポート)、CVAT (コンピューター ビジョン注釈ツール、バウンディング ボックス オーバーレイに適しています)、および Gradio または Streamlit で構築されたカスタム エピソード ブラウザーが含まれます。 SVRC のデータ プラットフォームには、Web アプリからアクセスできる組み込みのエピソード アノテーション インターフェイスが含まれており、成功フラグ、言語ラベル、フレーム レベルの除外マーキングをサポートしています。

品質基準は量よりも重要です。 SVRC は、すべてのデータセットに 3 段階の品質ゲートを適用します。記録直後のオペレーターによる自己アノテーション、訓練されたアノテーターによる二次レビュー、およびアノテーションと結合状態統計を比較する自動一貫性チェック (例: グリッパーが閉じられずに成功とマークされたエピソードには、再レビューのフラグが立てられます)。

SVRC のアノテーション パイプライン

SVRC を使用する場合 データ収集サービス、注釈は成果物の一部です。 当社のオペレーターは、録画セッション中に各エピソードに成功フラグと言語ラベルで注釈を付け、注釈チームはデータセットのエクスポート前に二次レビューを実行します。 信頼性の高いアノテーション、アノテーターの一致スコア、および完全な品質のレポートを含むデータセットを受け取ります。 独自に収集したデータを持ち込むチーム向けに、SVRC は注釈のみのサービスを提供し、サポートされているハードウェア プラットフォームで収集された既存のデータセットを処理できます。 お問い合わせ データセットのアノテーションのニーズについて話し合います。

関連している: データサービス · ルロボットガイド · ACT ポリシーの説明 · ロボットポリシーの一般化