RoboFlamingo

Modelos de Fundamentos de Visión-Lenguaje como Imitadores Efectivos de Robots. Basado en OpenFlamingo.

Resumen

RoboFlamingo se basa en OpenFlamingo para combinar la comprensión de visión-lenguaje de un solo paso con una cabeza de política explícita para el control secuencial de robots. Ajustado a través del aprendizaje por imitación. Entrenable en un solo servidor GPU.

Arquitectura y Rendimiento

Espina dorsal de OpenFlamingo (variantes MPT-3B, 4B, 9B)
Cabeza de política para la toma de decisiones secuenciales
Fuerte en el benchmark CALVIN
Control en bucle abierto, implementación de bajo recurso

Enlaces Oficiales

roboflamingo.github.io — Sitio del proyecto
github.com/RoboFlamingo/RoboFlamingo — Código (MIT)
Hugging Face: robovlms/RoboFlamingo — Modelos

cita

Consulta el sitio del proyecto para referencias BibTeX y de artículos.