RoboFlamingo
Modelos de Fundamentos de Visión-Lenguaje como Imitadores Efectivos de Robots. Basado en OpenFlamingo.
Resumen
RoboFlamingo se basa en OpenFlamingo para combinar la comprensión de visión-lenguaje de un solo paso con una cabeza de política explícita para el control secuencial de robots. Ajustado a través del aprendizaje por imitación. Entrenable en un solo servidor GPU.
Arquitectura y Rendimiento
- Espina dorsal de OpenFlamingo (variantes MPT-3B, 4B, 9B)
- Cabeza de política para la toma de decisiones secuenciales
- Fuerte en el benchmark CALVIN
- Control en bucle abierto, implementación de bajo recurso
Enlaces Oficiales
- roboflamingo.github.io — Sitio del proyecto
- github.com/RoboFlamingo/RoboFlamingo — Código (MIT)
- Hugging Face: robovlms/RoboFlamingo — Modelos
cita
Consulta el sitio del proyecto para referencias BibTeX y de artículos.