桥VLA
输入输出对齐,通过视觉语言模型实现高效 3D 操作学习。
概述
BridgeVLA 预训练 VLM 主干,以 2D 图像作为输入并生成 2D 热图作为输出,然后在将点云投影到多视图图像时进行微调。 使用最少的数据实现高效的 3D 操作。
基准测试
- RLBench 88.2%(高于 81.4%)
- COLOSSEUM 64.0%
- 10+ 任务 95.4%,每个任务只有 3 个轨迹
官方链接
- bridgevla.github.io — 项目现场
- 开放评审 — NeurIPS 2025 论文
引文
NeurIPS 2025。请参阅 BibTeX 的项目站点。