StagiaireVLA-M1

Cadre vision-langage-action guidé spatialement pour une politique généraliste en matière de robots. Laboratoire d'IA de Shanghai.

Aperçu

InternVLA-M1 utilise un pipeline en deux étapes : (1) un pré-entraînement spatial sur 2,3 millions d'échantillons pour déterminer "où agir", (2) un post-entraînement à l'action guidée spatialement pour "comment agir". Modulaire, extensible, avec double supervision.

Repères

Robots Google 71,7 % (VeuveX), 76,0 % (VM), 80,7 % (VA)
LIBERO 95,9% de réussite
+14,6% sur SimplerEnv, +20,6% sur les objets invisibles avec co-formation synthétique

Liens officiels

internrobotics.github.io/internvla-m1 — Site du projet
github.com/InternRobotics/InternVLA-M1 — Code (AVEC)
Visage câlin : StagiaireRobotique — Modèles et ensembles de données

Citation

Voir le site du projet pour BibTeX et les références papier.