InternVLA-M1

Marco de Visión-Lenguaje-Acción guiado espacialmente para políticas de robots generalistas. Laboratorio de IA de Shanghái.

Resumen

InternVLA-M1 utiliza un pipeline de dos etapas: (1) pre-entrenamiento de anclaje espacial en 2.3M de muestras para determinar "dónde actuar", (2) post-entrenamiento de acción guiada espacialmente para "cómo actuar". Modular, extensible, con supervisión dual.

Referencias

robot de Google 71.7% (WidowX), 76.0% (VM), 80.7% (VA)
LIBERO 95.9% de éxito
+14.6% en SimplerEnv, +20.6% en objetos no vistos con co-entrenamiento sintético

Enlaces Oficiales

internrobotics.github.io/internvla-m1 — Sitio del proyecto
github.com/InternRobotics/InternVLA-M1 — Código (MIT)
Hugging Face: InternRobotics — Modelos y conjuntos de datos

cita

Consulta el sitio del proyecto para referencias BibTeX y de artículos.