МостВЛА
Согласование ввода-вывода для эффективного обучения 3D-манипуляциям с помощью моделей на языке видения.
Обзор
BridgeVLA предварительно обучает магистраль VLM принимать 2D-изображения в качестве входных данных и создавать 2D-тепловые карты в качестве выходных, а затем выполняет точную настройку, проецируя облака точек в многопроекционные изображения. Обеспечивает эффективные 3D-манипуляции с минимальным использованием данных.
Тесты
- RLBench 88,2% (по сравнению с 81,4%)
- COLOSSEUM 64.0%
- 10+ задач 95,4% всего с 3 траекториями на задачу
Официальные ссылки
- bridgevla.github.io — Сайт проекта
- OpenReview — Документ NeurIPS 2025
Цитирование
NeurIPS 2025. См. сайт проекта BibTeX.