← Modèles

PontVLA

Alignement entrées-sorties pour un apprentissage efficace de la manipulation 3D avec des modèles vision-langage.

Aperçu

BridgeVLA pré-entraîne un squelette VLM pour prendre des images 2D en entrée et produire des cartes thermiques 2D en sortie, puis peaufine tout en projetant des nuages ​​de points dans des images multi-vues. Permet une manipulation 3D efficace avec un minimum de données.

Repères

  • RLBanc 88,2 % (contre 81,4 %)
  • COLOSSEUM 64.0%
  • 10+ tâches 95,4% avec seulement 3 trajectoires par tâche

Liens officiels

Citation

NeurIPS 2025. Voir le site du projet pour BibTeX.