← Modelos

InternVLA-M1

Marco de Visión-Lenguaje-Acción guiado espacialmente para políticas de robots generalistas. Laboratorio de IA de Shanghái.

Resumen

InternVLA-M1 utiliza un pipeline de dos etapas: (1) pre-entrenamiento de anclaje espacial en 2.3M de muestras para determinar "dónde actuar", (2) post-entrenamiento de acción guiada espacialmente para "cómo actuar". Modular, extensible, con supervisión dual.

Referencias

  • robot de Google 71.7% (WidowX), 76.0% (VM), 80.7% (VA)
  • LIBERO 95.9% de éxito
  • +14.6% en SimplerEnv, +20.6% en objetos no vistos con co-entrenamiento sintético

Enlaces Oficiales

cita

Consulta el sitio del proyecto para referencias BibTeX y de artículos.