PontVLA

Alignement entrées-sorties pour un apprentissage efficace de la manipulation 3D avec des modèles vision-langage.

Aperçu

BridgeVLA pré-entraîne un squelette VLM pour prendre des images 2D en entrée et produire des cartes thermiques 2D en sortie, puis peaufine tout en projetant des nuages de points dans des images multi-vues. Permet une manipulation 3D efficace avec un minimum de données.

Repères

RLBanc 88,2 % (contre 81,4 %)
COLOSSEUM 64.0%
10+ tâches 95,4% avec seulement 3 trajectoires par tâche

Liens officiels

bridgevla.github.io — Site du projet
OuvrirReview — Article NeurIPS 2025

Citation

NeurIPS 2025. Voir le site du projet pour BibTeX.