RoboFlamingo
Modelos de Fundamento de Visão-Linguagem como Imitadores Eficazes de Robôs. Baseado em OpenFlamingo.
Visão Geral
RoboFlamingo baseia-se no OpenFlamingo para combinar compreensão de visão-linguagem em um único passo com uma cabeça de política explícita para controle sequencial de robôs. Ajustado por meio de aprendizado por imitação. Treinável em um único servidor GPU.
Arquitetura & Desempenho
- Backbone OpenFlamingo (variantes MPT-3B, 4B, 9B)
- Cabeça de política para tomada de decisão sequencial
- Forte sem referência CALVIN
- Controle em malha aberta, implantação de baixo recurso
Links Oficiais
- roboflamingo.github.io — Site do projeto
- github.com/RoboFlamingo/RoboFlamingo - Código (MIT)
- Hugging Face: robovlms/RoboFlamingo — Modelos
Citação
Veja o site do projeto para referências BibTeX e de artigos.