PontVLA
Alignement entrées-sorties pour un apprentissage efficace de la manipulation 3D avec des modèles vision-langage.
Aperçu
BridgeVLA pré-entraîne un squelette VLM pour prendre des images 2D en entrée et produire des cartes thermiques 2D en sortie, puis peaufine tout en projetant des nuages de points dans des images multi-vues. Permet une manipulation 3D efficace avec un minimum de données.
Repères
- RLBanc 88,2 % (contre 81,4 %)
- COLOSSEUM 64.0%
- 10+ tâches 95,4% avec seulement 3 trajectoires par tâche
Liens officiels
- bridgevla.github.io — Site du projet
- OuvrirReview — Article NeurIPS 2025
Citation
NeurIPS 2025. Voir le site du projet pour BibTeX.