視覚-言語-行動モデルの説明: VLA が現代のロボットにどのように電力を供給するか
視覚言語行動モデルは、GPT-4 に相当するロボットです。GPT-4 は、広範囲の物理的タスクを実行するために微調整できる、事前にトレーニングされた大規模なニューラル ネットワークです。 VLA とは何か、VLA がどのように機能するか、いつ使用するかを理解することは、本格的なロボット工学の実践者にとって必須の知識となっています。
視覚・言語・行動モデルとは何ですか?
ビジョン言語アクション モデル (VLA) は、視覚的観察 (カメラ画像) と自然言語命令を入力として受け取り、ロボットの動作 (関節速度、エンドエフェクターのポーズ、グリッパー コマンド) を出力するニューラル ネットワークです。 「ビジョン言語」部分は、事前トレーニングされたバックボーンを指します。これらのモデルは、CLIP やビジョン言語モデル (VLM) と同様に、画像とテキストのペアに関する大規模なインターネット事前トレーニングから視覚的および意味論的な理解を継承します。 「アクション」部分は、ロボットのデモデータに基づいてトレーニングされた微調整ヘッドです。
核となる洞察は、インターネット データでの事前トレーニングにより、ロボットのバックボーンに、ロボットのデモンストレーションが行われる前に、物理世界 (物体が何であるか、空間的にどのように関係しているか、言語が何を意味するか) を豊富に表現できるということです。 次に、微調整により、この表現がロボットの実施形態と目標タスクに適応されます。 バックボーンは「青いカップを手に取る」または「左側の引き出しを開ける」ことをすでに理解しているため、モデルは、ゼロからトレーニングされたポリシーよりもはるかに少ないデモンストレーションで、新しいオブジェクトやタスクの表現に一般化できます。
RT-2: 初の大規模 VLA
2023 年に Google DeepMind によってリリースされた RT-2 (Robotics Transformer 2) は、ビジョン言語モデルをロボット制御に拡張することで質的に新しい機能が生み出されることを示した最初のデモンストレーションでした。 RT-2 は、Web データとロボットの軌道に関する PaLI-X ビジョン言語モデルを同時に微調整し、新しい指示に従い、オブジェクトのプロパティについて推論し、ロボットのデモンストレーションで見たことのないオブジェクトに一般化できるポリシーを生成しました (インターネット上でのみ)。
RT-2 は、VLA が思考連鎖推論を実行できることを示しました。つまり、「流出物を掃除するために使用できるもの」を拾うように求められたモデルは、スポンジを掃除に関連付けるように明示的に指示されなかったにもかかわらず、現場からスポンジを特定しました。 この新たな機能、つまりトレーニングの分布を超えた意味論的な一般化が、VLA を古典的な模倣学習ポリシーと質的に異なるものにします。 トレードオフはコンピューティングです。RT-2 は 550 億のパラメーターを持つモデルで実行され、展開するには大規模なインフラストラクチャが必要です。
OpenVLA: オープンソースの VLA 微調整
スタンフォード大学とバークレー校の研究者によって 2024 年にリリースされた OpenVLA は、オープンソースの Prismatic VLM (それ自体 LLaMA に基づいています) を基盤とし、22 の異なる実施形態からのロボット デモンストレーションの 97 万エピソードのコレクションである Open X-Embodiment データセットでトレーニングすることにより、VLA 微調整を民主化しました。 OpenVLA は完全にオープンソースであり、十分に文書化されており、標準的な操作ベンチマークで優れたパフォーマンスを達成するため、現在ほとんどの研究チームが使用する出発点となっています。
カスタム タスクで OpenVLA を微調整するには、わずか 50 ~ 200 のデモンストレーション、HuggingFace LeRobot 規則でフォーマットされたデータセット、および数時間のトレーニング実行用の単一の 80GB A100 または H100 GPU が必要です。 結果として得られるポリシーは、驚くべきことに、事前トレーニングされた視覚的バックボーンのおかげで、トレーニングでは見られなかったシーンのバリエーションや新しいオブジェクトの位置に一般化することができます。 SVRCの データ収集サービス LeRobot 互換形式でデータセットを生成し、すぐに OpenVLA の微調整が可能です。
pi0: Physical Intelligence のゼネラリスト ポリシー
Physical Intelligence (pi.ai) の pi0 は、VLA 開発の商業フロンティアを表します。 言語モデルのバックボーンを継承する OpenVLA とは異なり、pi0 は、連続的で滑らかなアクション軌跡を生成するフローマッチング アクション ヘッドを使用します。これは、個別のトークン化アクションよりも器用なタスクに適しています。 pi0 は、数十のタスクとハードウェア プラットフォームにわたる 10,000 時間以上のロボット デモンストレーションからなる独自のデータセットでトレーニングされました。
pi0 をアーキテクチャ的に区別するのは、「遅い」言語条件付き推論経路と「速い」反応性運動制御経路が分離されていることです。 これは、デュアルプロセス制御システムに関する認知科学からの洞察を反映しています。 遅い経路はタスクの指示と現在のシーンを処理して、高レベルの計画を作成します。 高速経路は、低遅延のモーター コマンドを生成します。 その結果、長期的な推論と高頻度の反応制御の両方を処理できるポリシーが誕生し、両方が同時に必要となる洗濯物をたたむようなタスクへの扉が開かれます。
商業展開のための pi0 へのアクセスは、Physical Intelligence のエンタープライズ プログラムを通じて利用できます。 pi0 スタイルのアーキテクチャを検討しているチームの場合、SVRC の ベンチマーク 標準操作スイートのフローマッチングポリシーの評価が含まれており、トレーニングの実行にコミットする前に、期待されるパフォーマンスの参照点を提供します。
VLA と古典的な模倣学習ポリシーの違い
古典的な IL ポリシー (ACT、拡散ポリシー、BC-Z) は、完全にロボットのデモンストレーション データから学習します。 それらの視覚的表現は、最初から、または事前にトレーニングされた狭いエンコーダー (R3M や MVP など) から学習されます。 彼らはトレーニング分布内ではうまく一般化しますが、新しいオブジェクト、照明の変更、または目標を言い換えたタスクの指示には苦労します。 また、事前トレーニングで提供される事前のセマンティクスが欠けているため、特定のパフォーマンス レベルを達成するにはさらに多くのデモンストレーションが必要になります。
VLA は一般化のためにコンピューティングをトレードします。 GPU 上の従来の ACT ポリシーでは、推論ごとに数ペニーのコストがかかります。 7B パラメーター モデルの VLA 推論ステップには桁違いにコストがかかります。 環境や命令全体にわたって広く一般化する必要があるタスクの場合は、VLA が最適です。 1,000 以上のデモンストレーションがあり、環境を調整できる、狭義の反復的な産業タスクの場合、多くの場合、従来のポリシーの方が低コストで優れた速度と信頼性を実現します。 実践的な意思決定フレームワーク: タスクの一般化が必要な場合は、VLA バックボーンから始めます。 狭くて高スループットの場合は、従来のポリシーを最適化します。
SVRC データを使用した VLA の微調整
SVRC は、VLA 微調整プロジェクトにエンドツーエンドのサポートを提供します。 私たちの 遠隔操作インフラストラクチャ 同期されたマルチカメラ ビデオ、固有受容状態、および 50 Hz のアクション ラベルを使用して、RLDS/LeRobot 形式でデモンストレーションをキャプチャします。 当社のデータセット パイプラインには、エピソード品質フィルタリング (失敗した試行やためらいの除去)、カメラ キャリブレーション メタデータ、タスク指示のアノテーションが含まれています。
大規模なカスタム データを必要とするチームのために、パロアルト施設の管理された収集サービスは、操作タスクのライブラリ全体にわたって訓練を受けたオペレーターによって 1 日に数百件のデモンストレーションを生成できます。 また、一般化可能なポリシーを実際にトレーニングするデータセットの範囲、変動軸、成功基準を定義するタスク設計に関するコンサルティングも提供します。 私たちのチームに連絡してください VLA 微調整プロジェクトについて話し合ったり、既存のデータセット カタログを探索したりするには、 SVRCプラットフォーム.