RoboFlamingo

Modelos de Fundamento de Visão-Linguagem como Imitadores Eficazes de Robôs. Baseado em OpenFlamingo.

Visão Geral

RoboFlamingo baseia-se no OpenFlamingo para combinar compreensão de visão-linguagem em um único passo com uma cabeça de política explícita para controle sequencial de robôs. Ajustado por meio de aprendizado por imitação. Treinável em um único servidor GPU.

Arquitetura & Desempenho

Backbone OpenFlamingo (variantes MPT-3B, 4B, 9B)
Cabeça de política para tomada de decisão sequencial
Forte sem referência CALVIN
Controle em malha aberta, implantação de baixo recurso

Links Oficiais

roboflamingo.github.io — Site do projeto
github.com/RoboFlamingo/RoboFlamingo - Código (MIT)
Hugging Face: robovlms/RoboFlamingo — Modelos

Citação

Veja o site do projeto para referências BibTeX e de artigos.