← Modelle

InternVLA-M1

Räumlich geführtes Vision-Sprach-Aktions-Framework für die allgemeine Roboterpolitik. Shanghai AI Lab.

Überblick

InternVLA-M1 verwendet eine zweistufige Pipeline: (1) räumliches Erdungs-Vortraining auf 2,3 Mio. Proben, um zu bestimmen, „wo zu handeln ist“, (2) räumlich geführte Aktion nach dem Training, „wie zu handeln ist“. Modular, erweiterbar, mit doppelter Aufsicht.

Benchmarks

  • Google-Roboter 71,7 % (WidowX), 76,0 % (VM), 80,7 % (VA)
  • LIBERO 95,9 % Erfolg
  • +14,6 % bei SimplerEnv, +20,6 % bei unsichtbaren Objekten mit synthetischem Co-Training

Offizielle Links

Zitat

BibTeX- und Papierreferenzen finden Sie auf der Projektseite.