ロボットのための模倣学習: 実践ガイド
模倣学習は、ロボットに器用な操作スキルを教えるための主要なパラダイムとして台頭しています。 報酬関数を手作りしたり動作計画を作成したりする代わりに、単にロボットに何をすべきかを示すだけです。 このガイドでは、その仕組み、使用するアルゴリズム、結果を得るために必要なインフラストラクチャについて説明します。
模倣学習とは何ですか?
模倣学習 (IL) は、デモンストレーションからの学習 (LfD) または行動複製とも呼ばれます。人間のオペレーターから取得したアクションを複製するポリシーをトレーニングします。 データ収集中、熟練したデモンストレーターは、センサーが関節の位置、エンドエフェクターのポーズ、カメラのフレーム、およびその他の関連する状態を記録しながら、ターゲットタスクを通じてロボットを遠隔操作します。 その記録されたデータは、ニューラル ネットワーク ポリシーのトレーニング セットになります。
強化学習に対する IL の魅力は実用的です。報酬信号を設計したり、何百万ものシミュレートされたロールアウトを実行したり、まばらな報酬探索問題を解決したりする必要はありません。 人間がそのタスクを実行できる場合、ロボットは数百回から数千回のデモンストレーションからそのタスクを学習できる可能性があります。 課題は一般化です。オブジェクトの位置、照明、またはタスクのバリエーションがトレーニング分布と異なる場合、狭いデモンストレーションでトレーニングされたポリシーは失敗する可能性があります。
最新の IL 研究では、より優れたアーキテクチャ、より大規模で多様なデータセット、事前トレーニングされた視覚表現を通じてこの問題に対処しています。 この分野は 2023 年以降急速に進歩しており、ロボット工学の博士号プログラムにアクセスできないチームでも、本番品質の模倣学習が実現できるようになりました。
ACT: トランスフォーマーによるアクションチャンク
スタンフォード大学の ALOHA 両手ロボット プラットフォームとともに導入された ACT は、ロボット制御をシーケンス予測問題として扱います。 このポリシーは、単一の次のアクションではなく、将来のアクションの塊 (通常は 50 ~ 100 タイムステップ) を予測します。 このアクションのチャンク化により、小さな予測ミスが軌道上に蓄積する、単純な動作クローン作成の主な失敗モードである複合エラーが軽減されます。
ACT は、トレーニング中に CVAE (条件変分オートエンコーダー) を使用して、人間のデモンストレーションのマルチモダリティ、つまり、タスクを完了するための正しい方法が複数あることが多いという事実をキャプチャします。 推論時に、デコーダは現在のカメラの観察と関節の状態に基づいてアクション シーケンスを生成します。 その結果、モード平均化アーティファクトを発生させずに、人間が実証したタスクの自然な変動を処理するポリシーが得られます。
ACT は、両手操作タスクの強力な出発点です。 必要なデータ量は比較的少なく (タスクあたり 50 ~ 200 のデモンストレーション)、単一の GPU で数時間でトレーニングできます。 ALOHA ハードウェアまたは同様の両手セットアップを使用している場合、最初に試すアルゴリズムは ACT です。 SVRCの データサービス ALOHA クラスのプラットフォームで収集された、前処理された ACT 互換のデータセットが含まれます。
拡散ポリシー: マルチモーダルアクション配布の処理
拡散ポリシーは、スコアマッチング拡散モデル (画像の安定拡散を強化するモデルと同じクラス) をロボットのアクション空間に適用します。 このポリシーは、単一の最善のアクションを予測するのではなく、人間のデモンストレーターが実行する可能性のあるアクションの完全な分布を学習します。 推論時に、ノイズ除去プロセスを実行して、その分布から高品質のアクションをサンプリングします。
ACT に対する主な利点は、マルチモーダル タスク (人間が左または右からオブジェクトを掴んだり、複数の有効な角度からターゲットに近づくシナリオ) を処理する方法です。 標準的な動作クローン作成では、これらのモードが平均化され、中間に達して失敗するポリシーが生成されます。 拡散ポリシーは、現在のコンテキストに応じて正しいモードからサンプリングし、あいまいなタスクに対してより堅牢な動作を生成します。
トレードオフは推論速度です。 UNet バックボーンを使用した拡散ポリシーでは、デフォルトで推論時に 100 のノイズ除去ステップが必要ですが、リアルタイム制御には遅すぎる可能性があります。 DDIM サンプラーと一貫性蒸留のバリアントにより、これが 10 ~ 25 ステップに削減され、リアルタイム操作が可能になります。 データ要件に関しては、Diffusion Policy は一般に ACT よりも多くのデモンストレーションから恩恵を受けますが、生の量よりもデータセットの多様性を重視します。
視覚-言語-行動モデル: 大規模なIL
OpenVLA、pi0、RT-2 などの VLA は、ロボットのデモンストレーションで微調整する前に、インターネット スケールの視覚データと言語データで事前トレーニングすることで模倣学習を拡張します。 事前トレーニングされたバックボーンは、ロボット操作に強力に伝達されるオブジェクト、シーン、および関係の豊富な表現を提供します。 微調整に必要なデモンストレーションは、最初からトレーニングするよりもはるかに少なく、タスク固有のサンプルが 10 ~ 50 個しかない場合もあります。
コンピューティング要件とライセンス要件を満たせる余裕のあるチームにとって、VLA は IL パフォーマンスの現在のフロンティアを表します。 これらは、新しいオブジェクト、新しい環境、言語指定のタスクのバリエーションに対してよりよく一般化されます。 SVRC は微調整データセットを提供し、 遠隔操作インフラストラクチャ 主要な VLA トレーニング パイプラインで期待されるデータ形式と互換性があります。 私たちのを参照してください VLA モデルの説明ガイド より深い技術的詳細については。
模倣学習のデータ要件
単一の操作タスクで実行可能な最小データセットは、通常、ACT の場合は 50 デモンストレーション、拡散ポリシーの場合は 100 ~ 200、VLA 微調整の場合は 20 ~ 50 です。 これらは、安定した照明、固定されたカメラの視点、予測可能な位置にあるオブジェクトなど、好ましい条件下での床の推定値です。 実際の展開では、運用環境でシステムが遭遇する変動に対応するには 3 ~ 5 倍のデータが必要です。
データの質は量と同じくらい重要です。 デモンストレーションは、タスクを一貫してきれいに完了する熟練したオペレーターによって収集される必要があります。 失敗した試行、ためらい、成功としてトレーニング セットに入る修正は、ポリシーのパフォーマンスを低下させます。 SVRCの マネージドデータ収集サービス 訓練を受けたオペレーター、高品質でフィルターされたエピソードの選択、構造化されたデータセットのパッケージ化を提供し、エンジニアリング チームの数週間にわたるデータ パイプライン作業を節約します。
センサーの多様性も重要です。 単一の手首カメラでトレーニングされたポリシーは、カメラが遮られると頻繁に失敗します。 ベスト プラクティスは、少なくとも 2 つのカメラ視点 (1 つは固定のオーバーヘッドまたはサイド ビュー、もう 1 つは手首に取り付けたビュー) から収集し、視覚的観察とともに固有受容状態 (関節の角度と速度) を含めることです。
IL 研究のためのハードウェアとインフラストラクチャ
模倣学習研究プロジェクトの最小限のハードウェア スタックには、タスクに十分な自由度 (一般的な操作には少なくとも 6-DOF) を備えたロボット アーム、データ収集用のリーダーフォロワーまたは VR ベースの遠隔操作システム、2 台以上のカメラ、および少なくとも 1 つの NVIDIA GPU (ACT/拡散ポリシーには RTX 3090 以上、VLA 微調整には A100 または H100 を推奨) を備えたワークステーションが含まれます。
SVRCの ハードウェアカタログ OpenArm プラットフォームには、互換性のある遠隔操作リーダー アームと標準カメラ構成用の取り付けハードウェアが付属しています。 の SVRCプラットフォーム エピソードの記録、データセット管理、ポリシー トレーニング パイプライン、評価ツールなどのソフトウェア層を提供します。 チームは、短期プロジェクトのためにハードウェアを購入するのではなく、リースすることができます。 ロボットリースプログラム多くの場合、これが動作する IL プロトタイプへの最速のパスです。
ハードウェアに投資する前にデータから始めたいチームのために、SVRC はパロアルト施設で収集された厳選されたマルチタスク デモンストレーション データセットへのアクセスを提供します。 これらのデータセットは、ピック、配置、注ぐ、折り畳み、組み立てなどの一般的な操作プリミティブをカバーしており、ACT、Diffusion Policy、および Hugging Face LeRobot で直接使用できるようにフォーマットされています。 私たちのチームに連絡してください データセット アクセス オプションについて説明します。