← モデル

ロボフラミンゴ

効果的なロボット模倣者としての視覚言語基盤モデル。 OpenFlamingoベース。

概要

RoboFlamingo は OpenFlamingo を基盤として構築されており、単一ステップのビジョン言語理解と、逐次的なロボット制御のための明示的なポリシーヘッドを組み合わせています。 模倣学習によって微調整されます。 単一の GPU サーバーでトレーニング可能。

アーキテクチャとパフォーマンス

  • OpenFlamingo バックボーン (MPT-3B、4B、9B バリアント)
  • 政策責任者が順次意思決定を行う
  • CALVINベンチマークで強い
  • オープンループ制御、低リソース導入

公式リンク

引用

BibTeX および論文のリファレンスについては、プロジェクト サイトを参照してください。