← Modelos

InternVLA-M1

Framework de Visão-Linguagem-Ação Guiado Espacialmente para política de robô generalista. Laboratório de IA de Xangai.

Visão Geral

InternVLA-M1 usa um pipeline de duas etapas: (1) pré-treinamento de ancoragem espacial em 2,3M de amostras para determinar "onde agir", (2) pós-treinamento de ação guiada espacialmente para "como agir". Modular, extensível, com supervisão dupla.

Referências

  • Robô Google 71,7% (ViúvaX), 76,0% (VM), 80,7% (VA)
  • LIBERO 95,9% de sucesso
  • +14,6% no SimplerEnv, +20,6% em objetos não vistos com co-treinamento sintético

Links Oficiais

Citação

Veja o site do projeto para referências BibTeX e de artigos.