ロボフラミンゴ

効果的なロボット模倣者としての視覚言語基盤モデル。 OpenFlamingoベース。

概要

RoboFlamingo は OpenFlamingo を基盤として構築されており、単一ステップのビジョン言語理解と、逐次的なロボット制御のための明示的なポリシーヘッドを組み合わせています。模倣学習によって微調整されます。単一の GPU サーバーでトレーニング可能。

アーキテクチャとパフォーマンス

OpenFlamingo バックボーン (MPT-3B、4B、9B バリアント)
政策責任者が順次意思決定を行う
CALVINベンチマークで強い
オープンループ制御、低リソース導入

公式リンク

roboflamingo.github.io — プロジェクトサイト
github.com/RoboFlamingo/RoboFlamingo — コード (あり)
ハグフェイス：robovlms/RoboFlamingo — モデル

引用

BibTeX および論文のリファレンスについては、プロジェクトサイトを参照してください。