ロボット学習

オープン X の実施形態: オープン X の実施形態とは何か、そしてそれがロボット学習にとって重要である理由

Open X-Embodiment (OXE) は、現存する最大のオープン協調ロボット学習データセットです。 30 を超える研究機関からなるコンソーシアムによってリリースされたこのプロジェクトは、ジェネラリストロボットポリシーの基礎となるデータセット (ImageNet や The Pile に相当するロボット工学) を構築する最初の本格的な試みを表しています。

オープン X 実施形態とは何ですか?

Open X-Embodiment は、22 を超える異なるロボットの実施形態 (Franka、WidowX、UR5、Kuka などのアームにまたがる)、および世界中の数十の研究機関にわたって収集されたロボット操作デモンストレーションの統合データセットです。データセットには合計 100 万を超えるエピソードがあり、ピック、配置、引き出しを開ける、液体を注ぐ、表面を拭くなど、何百もの個別の操作タスクをカバーしています。

名前の「X」はクロスエンボディメントを表します。OXE の明確な目標は、ロボット本体間で知識を伝達するポリシーをトレーニングすることです。完全な OXE データセットで事前トレーニングされたポリシーでは、幅広いアーム形状、グリッパータイプ、カメラ構成、タスクドメインからの操作動作が確認されており、最初からトレーニングするよりもはるかに少ないデモンストレーションで新しいロボットに合わせて微調整できる豊富な事前学習が得られます。

参加機関とデータセット構成

貢献している機関には、スタンフォード大学、カリフォルニア大学バークレー校、Google DeepMind、カーネギーメロン大学、MIT、チューリッヒ工科大学などが含まれます。各ラボは、標準化された形式で既存のデモンストレーションデータセットを提供しました。データセットは Google Cloud Storage でホストされており、研究用途に無料で利用できます。サブデータセットのサイズは大きく異なります。数万のエピソードを提供したラボもあれば、数百のエピソードを提供したラボもあります。タスクの配分は、最も一般的な実験設定を反映して、卓上でのピックアンドプレイスに偏っていますが、オブジェクト、照明条件、アーム構成の多様性は実に幅広いです。

Google の Robotics Transformer 2 (RT-2) と後続のモデルは OXE データでトレーニングされ、クロス実施形態の事前トレーニングにより、単一ロボットのトレーニングよりも有意義に優れたゼロショット一般化を備えたポリシーが生成されることが実証されました。この結果により、中心となる OXE 仮説が検証され、分野全体でクロス実施形態データセットの採用が加速されました。

データセット形式と RLDS

OXE は、ロボットの軌跡を保存するための TensorFlow データセットベースのスキーマである RLDS (ロボット学習データセット仕様) 形式を使用します。 RLDS の各エピソードは一連のステップであり、各ステップには観察辞書 (画像、関節状態、グリッパー状態)、アクションベクトル、報酬信号、およびタスクを説明する言語注釈が含まれています。このスキーマは、実施形態全体にわたる異なる観察モダリティおよびアクションスペースに対応するのに十分な柔軟性を備えている。

RLDS を使用するには、TensorFlow または rlds_creator ライブラリが必要です。 Hugging Face の LeRobot は、OXE データを独自の形式に変換する変換ユーティリティを提供し、PyTorch を好む研究者がアクセスできるようにします。 SVRCのデータプラットフォーム RLDS と LeRobot の両方と互換性のある形式でデータセットをエクスポートし、将来の OXE リリースに直接貢献できるようにします。

OXE に貢献する方法

データセットを OXE に提供するには、RLDS でデモンストレーションをフォーマットし、ステップごとの言語注釈を追加し、データセットのドキュメントとともに OXE GitHub リポジトリにプルリクエストを送信する必要があります。提出プロセスには、データ品質と形式準拠のレビューが含まれます。デモンストレーションが SVRC データサービスを使用して収集された場合、プラットフォームは標準化されたメタデータを使用して RLDS 互換のエクスポートを生成できるため、コントリビューションプロセスが大幅に簡素化されます。連絡先 SVRCチーム OXE 提出用のデータの準備に関するガイダンスについては、こちらをご覧ください。

OXE を使用した事前トレーニング

OXE の最も実用的な用途は、事前トレーニングデータセットとしての使用です。タスクドメインとロボットに関連する OXE のサブセットをダウンロードし、一般的なポリシーバックボーンをトレーニングしてから、独自のタスク固有のデモンストレーションで微調整します。このアプローチでは、一貫して、ゼロからトレーニングする場合に比べてタスク固有のデモンストレーションが少なくなり、多くの場合 5 ～ 10 倍少なくなり、同時により高い最終パフォーマンスが達成されます。

OXE での事前トレーニングは、微調整データが限られている場合 (エピソードが 100 未満)、タスクが概念的に OXE のタスクと似ている場合、および Octo、OpenVLA、または RT-2-X などのクロスエンコーディングでの転送用に設計されたアーキテクチャを使用している場合に最も効果的です。導入条件で収集された高品質のデモが豊富にある場合、純粋なタスク固有のゼロからの微調整は競争力を維持します。

SVRC の互換性とその支援方法

SVRC のデータ収集標準は、標準化されたカメラの配置、一貫した注釈スキーマ、品質に応じた成功のラベル付け、RLDS 対応のエクスポートなど、根本から OXE と互換性があるように設計されています。 SVRC を通じて収集されたデータデータサービス OXE の微調整に直接使用したり、将来のデータセットリリースに貢献したりできます。特定のハードウェア上で OXE 事前トレーニング済みモデルを活用したいチームに対して、SVRC は微調整パイプラインを設定し、展開可能なポリシーを評価するためのエンジニアリングサポートを提供します。