← Modèles

StagiaireVLA-M1

Cadre vision-langage-action guidé spatialement pour une politique généraliste en matière de robots. Laboratoire d'IA de Shanghai.

Aperçu

InternVLA-M1 utilise un pipeline en deux étapes : (1) un pré-entraînement spatial sur 2,3 millions d'échantillons pour déterminer "où agir", (2) un post-entraînement à l'action guidée spatialement pour "comment agir". Modulaire, extensible, avec double supervision.

Repères

  • Robots Google 71,7 % (VeuveX), 76,0 % (VM), 80,7 % (VA)
  • LIBERO 95,9% de réussite
  • +14,6% sur SimplerEnv, +20,6% sur les objets invisibles avec co-formation synthétique

Liens officiels

Citation

Voir le site du projet pour BibTeX et les références papier.