InternVLA-M1
Räumlich geführtes Vision-Sprach-Aktions-Framework für die allgemeine Roboterpolitik. Shanghai AI Lab.
Überblick
InternVLA-M1 verwendet eine zweistufige Pipeline: (1) räumliches Erdungs-Vortraining auf 2,3 Mio. Proben, um zu bestimmen, „wo zu handeln ist“, (2) räumlich geführte Aktion nach dem Training, „wie zu handeln ist“. Modular, erweiterbar, mit doppelter Aufsicht.
Benchmarks
- Google-Roboter 71,7 % (WidowX), 76,0 % (VM), 80,7 % (VA)
- LIBERO 95,9 % Erfolg
- +14,6 % bei SimplerEnv, +20,6 % bei unsichtbaren Objekten mit synthetischem Co-Training
Offizielle Links
- internrobotics.github.io/internvla-m1 — Projektseite
- github.com/InternRobotics/InternVLA-M1 — Code (MIT)
- Umarmendes Gesicht: InternRobotics – Modelle und Datensätze
Zitat
BibTeX- und Papierreferenzen finden Sie auf der Projektseite.