← Модели

МостВЛА

Согласование ввода-вывода для эффективного обучения 3D-манипуляциям с помощью моделей на языке видения.

Обзор

BridgeVLA предварительно обучает магистраль VLM принимать 2D-изображения в качестве входных данных и создавать 2D-тепловые карты в качестве выходных, а затем выполняет точную настройку, проецируя облака точек в многопроекционные изображения. Обеспечивает эффективные 3D-манипуляции с минимальным использованием данных.

Тесты

  • RLBench 88,2% (по сравнению с 81,4%)
  • COLOSSEUM 64.0%
  • 10+ задач 95,4% всего с 3 траекториями на задачу

Официальные ссылки

Цитирование

NeurIPS 2025. См. сайт проекта BibTeX.