InternVLA-M1

Räumlich geführtes Vision-Sprach-Aktions-Framework für die allgemeine Roboterpolitik. Shanghai AI Lab.

Überblick

InternVLA-M1 verwendet eine zweistufige Pipeline: (1) räumliches Erdungs-Vortraining auf 2,3 Mio. Proben, um zu bestimmen, „wo zu handeln ist“, (2) räumlich geführte Aktion nach dem Training, „wie zu handeln ist“. Modular, erweiterbar, mit doppelter Aufsicht.

Benchmarks

Google-Roboter 71,7 % (WidowX), 76,0 % (VM), 80,7 % (VA)
LIBERO 95,9 % Erfolg
+14,6 % bei SimplerEnv, +20,6 % bei unsichtbaren Objekten mit synthetischem Co-Training

Offizielle Links

internrobotics.github.io/internvla-m1 — Projektseite
github.com/InternRobotics/InternVLA-M1 — Code (MIT)
Umarmendes Gesicht: InternRobotics – Modelle und Datensätze

Zitat

BibTeX- und Papierreferenzen finden Sie auf der Projektseite.