ロボット学習

ACT ポリシーの説明: ロボット学習のためのトランスフォーマーによるアクションチャンキング

ACT (Action Chunking with Transformers) は、Tony Zhao とスタンフォード大学の共同研究者によって出版されて以来、器用な操作のために最も広く採用されている模倣学習アルゴリズムの 1 つになりました。ここではその仕組みと使用方法を具体的に説明します。

ACTとは何ですか?

ACT は、ロボットが視覚的観察に基づいてスムーズで調整された動きを行う必要がある、きめの細かい操作タスク用に設計された模倣学習アルゴリズムです。推論時に、ACT はロボットのカメラと現在の関節状態から一連の画像を取得し、単一の次のアクションではなく、将来のアクションのチャンク (関節位置ターゲットの短いシーケンス) を出力します。ロボットはこのチャンクを実行し、次のチャンクのポリシーを再クエリします。この何ステップも先を予測する設計は ACT の特徴的な機能であり、単純な動作の複製に比べて ACT の利点のほとんどの源です。

ACT は、ALOHA 両手操作システムの文脈で導入され、電池を差し込む、ジップロックの袋を開ける、針に糸を通すなど、これまで模倣学習には手が届かないと考えられていた作業で成功を実証しました。その核となる洞察、つまりチャンク化されたアクションの予測により複合エラーが減り、軌道が滑らかになるということは、その後、多数の後続アルゴリズムに採用されてきました。

アクションチャンクの仕組み

標準動作クローニング (BC) は、現在の観察に基づいて次の 1 つのアクションを予測するポリシーをトレーニングします。推論時には、予測誤差が蓄積されます。小さな間違いが発生するたびにロボットの状態がわずかに変化し、ポリシーがトレーニングされていない分布にロボットが置かれ、次の予測が悪化するなどの影響が生じます。この複合エラーは、細かい操作タスクにおける単純な BC の中心的な障害モードです。

アクションのチャンク化は、k 個の将来のアクション (通常は 50 Hz で 50 ～ 100 ステップ、1 ～ 2 秒の動きに相当) のシーケンスを予測することでこのサイクルを打ち破ります。ポリシーはこのプランをコミットし、再クエリする前に実行します。計画は単一の一貫した観察から生成されたため、軌道はスムーズで内部的に一貫しています。時間的アンサンブル (複数の再クエリから重複するアクションチャンクを平均化) により、実行がさらにスムーズになり、チャンク間の境界でのジッターが軽減されます。

ACT アーキテクチャ

ACT は CVAE (条件付き変分オートエンコーダー) アーキテクチャを使用します。トレーニング中、エンコーダーはデモンストレーションの軌跡全体 (画像、関節の状態、アクション) を処理し、デモンストレーションの「スタイル」 (速いか遅いか、左寄りか右寄りのアプローチなど) を捕捉する潜在スタイル変数 z を生成します。次に、トランスフォーマーベースのデコーダーが現在の観測値、潜在 Z、および位置エンコーディングを取得して、アクションチャンクを予測します。推論時に、z はゼロ (事前の平均) に設定され、観測を考慮してポリシーが決定的になります。

ビジョンバックボーンは通常、各カメラビューを個別に処理する ResNet-18 であり、結果の特徴マップがトークンとしてトランスデコーダーに渡されます。複数のカメラビュー (リストカメラとオーバーヘッドカメラ) がそれぞれトークンストリームに寄与し、操作シーンに関する豊富な空間情報をポリシーに提供します。

データ要件と適切なデータの構成要素

ACT は、公開されているほとんどの結果で、タスクあたり 50 ～ 200 のデモンストレーションで適切に機能します。ただし、データの量よりも質が重要です。デモンストレーションはスムーズかつ目的を持ったものである必要があります。ACT ポリシーは、ためらい、修正、次善のアプローチなど、データに含まれるあらゆる動作パターンを学習します。 SVRCのデータ収集基準オペレータは、目に見えるエラーが発生した後に続行するのではなく、エピソードを再開する必要があり、トレーニングデータセットには意図的で成功した動作のみが含まれることが保証されます。

カメラの一貫性も重要です。録画セッション間でカメラの配置が変わると、ポリシーが学習した視覚的特徴が展開設定と一致しなくなります。フレキシブルアームではなく物理マウントを使用し、各データセットでカメラのキャリブレーションパラメーターを記録します。 SVRC のマルチカメラ録画パイプラインは、これを自動的に実行します。

ACT と動作のクローン作成: 結果

元の ALOHA タスクでは、同じデータに対する標準 BC の 20 ～ 50% と比較して、ACT は 80 ～ 95% の成功率を達成しました。この改善は、正確なタイミング、2 つのアーム間のスムーズな調整、小さな変動からの適切な回復を必要とするタスクで最も顕著に見られます。許容誤差が許容される単純なピックアンドプレースタスクでは、ACT と BC の間のギャップは狭まります。また、拡散ベースのポリシーは推論ステップごとにより多くの計算を必要とするため、実行速度が重要なタスクでは ACT が拡散ポリシーよりも優れたパフォーマンスを発揮します。

SVRC データを使用した ACT のトレーニング

SVRCのデータプラットフォーム LeRobot と互換性のある HDF5 形式でデータセットをエクスポートします。これは、オープンソース ACT トレーニングコードの標準入力形式です。データセットをダウンロードした後、ベースライン ACT ポリシーをトレーニングするには、少なくとも 16 GB VRAM を備えた GPU と、単一タスクで約 8 時間のトレーニングが必要です。 SVRC エンジニアリングサポートは、チームがトレーニング実行を構成し、チャンクサイズと学習率を調整し、ポリシーのパフォーマンスを評価するのに役立ちます。独自のデータを収集するハードウェアについては、次のサイトを参照してください。ハードウェアカタログまたは探索するロボットのリースオプション.