InternVLA-M1

Framework de Visão-Linguagem-Ação Guiado Espacialmente para política de robô generalista. Laboratório de IA de Xangai.

Visão Geral

InternVLA-M1 usa um pipeline de duas etapas: (1) pré-treinamento de ancoragem espacial em 2,3M de amostras para determinar "onde agir", (2) pós-treinamento de ação guiada espacialmente para "como agir". Modular, extensível, com supervisão dupla.

Referências

Robô Google 71,7% (ViúvaX), 76,0% (VM), 80,7% (VA)
LIBERO 95,9% de sucesso
+14,6% no SimplerEnv, +20,6% em objetos não vistos com co-treinamento sintético

Links Oficiais

internrobotics.github.io/internvla-m1 — Site do projeto
github.com/InternRobotics/InternVLA-M1 - Código (MIT)
Hugging Face: InternRobotics — Modelos e conjuntos de dados

Citação

Veja o site do projeto para referências BibTeX e de artigos.