OpenVLA と Octo: どちらのロボット学習モデルを選択するか?
ビジョン・言語・アクション (VLA) モデルを選択する研究者と建設者のための実際的な比較。
VLA モデルは、知覚と言語を行動にマッピングします。
両方 OpenVLA そして オクト ロボット学習のためのオープンソースの視覚・言語・行動モデルです。 ここでは、それらを比較し、それぞれをいつ使用するかを説明します。
建築
OpenVLA Prismatic VLM に基づいて構築され、アクション予測ヘッドが追加されます。 複数のロボットの形態とアクション スペースをサポートします。 オクト Open X-Embodiment データでトレーニングされたトランスフォーマーベースのアーキテクチャを使用します。 どちらも画像と言語を取得し、アクションを出力します。
トレーニングデータ
OpenVLA は、Open X-Embodiment と追加のデータセットでトレーニングされます。 Octo は Open X-Embodiment (RT-X、BridgeData、DROID など) でトレーニングされています。 どちらも大規模で多様なロボット データの恩恵を受けています。 私たちのを参照してください データセットカタログ データソースの場合。
微調整
どちらもロボットとタスクの微調整をサポートします。 通常、50 ~ 500 のデモンストレーションを行うと、パフォーマンスが大幅に向上します。 OpenVLA は、さまざまなロボット タイプのチェックポイントを提供します。 Octo のアーキテクチャは、新しいアクション スペースに柔軟に対応します。
OpenVLA を選択する場合
- 一般的な操作タスクですぐに使用できる強力なパフォーマンスが必要な場合
- 作成したロボットは、Open X-EModiment (WidowX、ALOHA など) のロボットに似ています。
- 十分に文書化され、積極的に保守されているモデルが必要な場合
オクトを選択する場合
- あなたは新しいロボットの形態を実験しています
- カスタム アクション スペースに最大限の柔軟性が必要な場合
- Open X-Embodiment データに基づいて直接構築しています
微調整のためのデータ収集
どちらのモデルを選択する場合でも、タスク固有のデモンストレーションが必要になる可能性があります。 私たちは提供します データ収集サービス 模倣学習 - 遠隔操作、学習可能な書式設定、QA。 パロアルトでハードウェアを同日に受け取り、迅速なイテレーションを実現します。