InternVLA-M1
Marco de Visión-Lenguaje-Acción guiado espacialmente para políticas de robots generalistas. Laboratorio de IA de Shanghái.
Resumen
InternVLA-M1 utiliza un pipeline de dos etapas: (1) pre-entrenamiento de anclaje espacial en 2.3M de muestras para determinar "dónde actuar", (2) post-entrenamiento de acción guiada espacialmente para "cómo actuar". Modular, extensible, con supervisión dual.
Referencias
- robot de Google 71.7% (WidowX), 76.0% (VM), 80.7% (VA)
- LIBERO 95.9% de éxito
- +14.6% en SimplerEnv, +20.6% en objetos no vistos con co-entrenamiento sintético
Enlaces Oficiales
- internrobotics.github.io/internvla-m1 — Sitio del proyecto
- github.com/InternRobotics/InternVLA-M1 — Código (MIT)
- Hugging Face: InternRobotics — Modelos y conjuntos de datos
cita
Consulta el sitio del proyecto para referencias BibTeX y de artículos.