桥VLA

输入输出对齐，通过视觉语言模型实现高效 3D 操作学习。

概述

BridgeVLA 预训练 VLM 主干，以 2D 图像作为输入并生成 2D 热图作为输出，然后在将点云投影到多视图图像时进行微调。使用最少的数据实现高效的 3D 操作。

NeurIPS 2025。请参阅 BibTeX 的项目站点。