OpenVLA と Octo: どちらのロボット学習モデルを選択するか?

ビジョン・言語・アクション (VLA) モデルを選択する研究者と開発者のための実際的な比較。

VLA モデルは、知覚と言語を行動にマッピングします。

画像言語アクション

両方 OpenVLA そしてオクトロボット学習のためのオープンソースの視覚・言語・行動モデルです。ここでは、それらを比較し、それぞれをいつ使用するかを説明します。

建築

OpenVLA Prismatic VLM に基づいて構築され、アクション予測ヘッドが追加されます。複数のロボットの形態とアクションスペースをサポートします。 オクト Open X-Embodiment データでトレーニングされたトランスフォーマーベースのアーキテクチャを使用します。どちらも画像と言語を取得し、アクションを出力します。

トレーニングデータ

OpenVLA は、Open X-Embodiment と追加のデータセットでトレーニングされます。 Octo は Open X-Embodiment (RT-X、BridgeData、DROID など) でトレーニングされています。どちらも大規模で多様なロボットデータの恩恵を受けています。私たちのを参照してくださいデータセットカタログデータソースの場合。

微調整

どちらもロボットとタスクの微調整をサポートします。通常、50 ～ 500 のデモンストレーションを行うと、パフォーマンスが大幅に向上します。 OpenVLA は、さまざまなロボットタイプのチェックポイントを提供します。 Octo のアーキテクチャは、新しいアクションスペースに柔軟に対応します。

OpenVLA を選択する場合

一般的な操作タスクですぐに使用できる強力なパフォーマンスが必要な場合
作成したロボットは、Open X-EModiment (WidowX、ALOHA など) のロボットに似ています。
十分に文書化され、積極的に保守されているモデルが必要な場合

オクトを選択する場合

あなたは新しいロボットの形態を実験しています
カスタムアクションスペースに最大限の柔軟性が必要な場合
Open X-Embodiment データに基づいて直接構築しています

微調整のためのデータ収集

どちらのモデルを選択する場合でも、タスク固有のデモンストレーションが必要になる可能性があります。私たちは提供しますデータ収集サービス模倣学習 - 遠隔操作、学習可能な書式設定、QA。パロアルトでハードウェアを同日に受け取り、迅速なイテレーションを実現します。

すべての VLA モデルを見る →