МостВЛА

Согласование ввода-вывода для эффективного обучения 3D-манипуляциям с помощью моделей на языке видения.

Обзор

BridgeVLA предварительно обучает магистраль VLM принимать 2D-изображения в качестве входных данных и создавать 2D-тепловые карты в качестве выходных, а затем выполняет точную настройку, проецируя облака точек в многопроекционные изображения. Обеспечивает эффективные 3D-манипуляции с минимальным использованием данных.

Тесты

RLBench 88,2% (по сравнению с 81,4%)
COLOSSEUM 64.0%
10+ задач 95,4% всего с 3 траекториями на задачу

Официальные ссылки

bridgevla.github.io — Сайт проекта
OpenReview — Документ NeurIPS 2025

Цитирование

NeurIPS 2025. См. сайт проекта BibTeX.