← 模型

桥VLA

输入输出对齐,通过视觉语言模型实现高效 3D 操作学习。

概述

BridgeVLA 预训练 VLM 主干,以 2D 图像作为输入并生成 2D 热图作为输出,然后在将点云投影到多视图图像时进行微调。 使用最少的数据实现高效的 3D 操作。

基准测试

  • RLBench 88.2%(高于 81.4%)
  • COLOSSEUM 64.0%
  • 10+ 任务 95.4%,每个任务只有 3 个轨迹

官方链接

引文

NeurIPS 2025。请参阅 BibTeX 的项目站点。