← 研究

OpenVLA と Octo: どちらのロボット学習モデルを選択するか?

ビジョン・言語・アクション (VLA) モデルを選択する研究者と建設者のための実際的な比較。

VLA モデルは、知覚と言語を行動にマッピングします。

画像 言語 アクション

両方 OpenVLA そして オクト ロボット学習のためのオープンソースの視覚・言語・行動モデルです。 ここでは、それらを比較し、それぞれをいつ使用するかを説明します。

建築

OpenVLA Prismatic VLM に基づいて構築され、アクション予測ヘッドが追加されます。 複数のロボットの形態とアクション スペースをサポートします。 オクト Open X-Embodiment データでトレーニングされたトランスフォーマーベースのアーキテクチャを使用します。 どちらも画像と言語を取得し、アクションを出力します。

トレーニングデータ

OpenVLA は、Open X-Embodiment と追加のデータセットでトレーニングされます。 Octo は Open X-Embodiment (RT-X、BridgeData、DROID など) でトレーニングされています。 どちらも大規模で多様なロボット データの恩恵を受けています。 私たちのを参照してください データセットカタログ データソースの場合。

微調整

どちらもロボットとタスクの微調整をサポートします。 通常、50 ~ 500 のデモンストレーションを行うと、パフォーマンスが大幅に向上します。 OpenVLA は、さまざまなロボット タイプのチェックポイントを提供します。 Octo のアーキテクチャは、新しいアクション スペースに柔軟に対応します。

OpenVLA を選択する場合

  • 一般的な操作タスクですぐに使用できる強力なパフォーマンスが必要な場合
  • 作成したロボットは、Open X-EModiment (WidowX、ALOHA など) のロボットに似ています。
  • 十分に文書化され、積極的に保守されているモデルが必要な場合

オクトを選択する場合

  • あなたは新しいロボットの形態を実験しています
  • カスタム アクション スペースに最大限の柔軟性が必要な場合
  • Open X-Embodiment データに基づいて直接構築しています

微調整のためのデータ収集

どちらのモデルを選択する場合でも、タスク固有のデモンストレーションが必要になる可能性があります。 私たちは提供します データ収集サービス 模倣学習 - 遠隔操作、学習可能な書式設定、QA。 パロアルトでハードウェアを同日に受け取り、迅速なイテレーションを実現します。

すべての VLA モデルを見る →