StagiaireVLA-M1
Cadre vision-langage-action guidé spatialement pour une politique généraliste en matière de robots. Laboratoire d'IA de Shanghai.
Aperçu
InternVLA-M1 utilise un pipeline en deux étapes : (1) un pré-entraînement spatial sur 2,3 millions d'échantillons pour déterminer "où agir", (2) un post-entraînement à l'action guidée spatialement pour "comment agir". Modulaire, extensible, avec double supervision.
Repères
- Robots Google 71,7 % (VeuveX), 76,0 % (VM), 80,7 % (VA)
- LIBERO 95,9% de réussite
- +14,6% sur SimplerEnv, +20,6% sur les objets invisibles avec co-formation synthétique
Liens officiels
- internrobotics.github.io/internvla-m1 — Site du projet
- github.com/InternRobotics/InternVLA-M1 — Code (AVEC)
- Visage câlin : StagiaireRobotique — Modèles et ensembles de données
Citation
Voir le site du projet pour BibTeX et les références papier.