ロボフラミンゴ
効果的なロボット模倣者としての視覚言語基盤モデル。 OpenFlamingoベース。
概要
RoboFlamingo は OpenFlamingo を基盤として構築されており、単一ステップのビジョン言語理解と、逐次的なロボット制御のための明示的なポリシーヘッドを組み合わせています。 模倣学習によって微調整されます。 単一の GPU サーバーでトレーニング可能。
アーキテクチャとパフォーマンス
- OpenFlamingo バックボーン (MPT-3B、4B、9B バリアント)
- 政策責任者が順次意思決定を行う
- CALVINベンチマークで強い
- オープンループ制御、低リソース導入
公式リンク
- roboflamingo.github.io — プロジェクトサイト
- github.com/RoboFlamingo/RoboFlamingo — コード (あり)
- ハグフェイス:robovlms/RoboFlamingo — モデル
引用
BibTeX および論文のリファレンスについては、プロジェクト サイトを参照してください。