VLA und VLM

Vision-Language-Action- und Vision-Language-Modelle – sprachbedingte Robotersteuerung.

Was sind VLA und VLM?

VLM (Vision-Language-Modell) – Multimodale Modelle, die sowohl Bilder als auch Text verstehen. Wird für Untertitel, VQA und Erdung verwendet.

VLA (Vision-Language-Action) – VLMs erweitert, um Roboteraktionen auszugeben. Nehmen Sie Bilder + Sprachanweisungen auf und geben Sie Steuerbefehle aus (z. B. Gelenkpositionen, Greifer). Aktivieren Sie die Stilsteuerung „Nimm den roten Block auf“.

Schlüsselmodelle

OpenVLA – 7 Milliarden Open-Source-VLA, 970.000 Demos
RT-2 / RT-X – Googles VLA-Familie
Okt — Diffusionspolitik mit Sprachkonditionierung
RoboFlamingo – OpenFlamingo-basiertes VLM für Roboter

VLA und VLM

Was sind VLA und VLM?

Schlüsselmodelle

Verwandte Ressourcen