← Referencias

CALVIN

Composición de Acciones a partir de Lenguaje y Visión — manipulación a largo plazo, condicionada por lenguaje.

Resumen

CALVIN evalúa la manipulación condicionada por lenguaje a lo largo de horizontes largos. Los agentes deben componer múltiples habilidades a partir de instrucciones en lenguaje natural. Basado en simulación. RoboFlamingo y otras políticas basadas en VLM muestran un rendimiento sólido.

Enlaces Oficiales