← Modelos

RoboFlamingo

Modelos de Fundamentos de Visión-Lenguaje como Imitadores Efectivos de Robots. Basado en OpenFlamingo.

Resumen

RoboFlamingo se basa en OpenFlamingo para combinar la comprensión de visión-lenguaje de un solo paso con una cabeza de política explícita para el control secuencial de robots. Ajustado a través del aprendizaje por imitación. Entrenable en un solo servidor GPU.

Arquitectura y Rendimiento

  • Espina dorsal de OpenFlamingo (variantes MPT-3B, 4B, 9B)
  • Cabeza de política para la toma de decisiones secuenciales
  • Fuerte en el benchmark CALVIN
  • Control en bucle abierto, implementación de bajo recurso

Enlaces Oficiales

cita

Consulta el sitio del proyecto para referencias BibTeX y de artículos.