InternVLA-M1
Framework de Visão-Linguagem-Ação Guiado Espacialmente para política de robô generalista. Laboratório de IA de Xangai.
Visão Geral
InternVLA-M1 usa um pipeline de duas etapas: (1) pré-treinamento de ancoragem espacial em 2,3M de amostras para determinar "onde agir", (2) pós-treinamento de ação guiada espacialmente para "como agir". Modular, extensível, com supervisão dupla.
Referências
- Robô Google 71,7% (ViúvaX), 76,0% (VM), 80,7% (VA)
- LIBERO 95,9% de sucesso
- +14,6% no SimplerEnv, +20,6% em objetos não vistos com co-treinamento sintético
Links Oficiais
- internrobotics.github.io/internvla-m1 — Site do projeto
- github.com/InternRobotics/InternVLA-M1 - Código (MIT)
- Hugging Face: InternRobotics — Modelos e conjuntos de dados
Citação
Veja o site do projeto para referências BibTeX e de artigos.