VLA und VLM
Vision-Language-Action- und Vision-Language-Modelle – sprachbedingte Robotersteuerung.
Was sind VLA und VLM?
VLM (Vision-Language-Modell) – Multimodale Modelle, die sowohl Bilder als auch Text verstehen. Wird für Untertitel, VQA und Erdung verwendet.
VLA (Vision-Language-Action) – VLMs erweitert, um Roboteraktionen auszugeben. Nehmen Sie Bilder + Sprachanweisungen auf und geben Sie Steuerbefehle aus (z. B. Gelenkpositionen, Greifer). Aktivieren Sie die Stilsteuerung „Nimm den roten Block auf“.
Schlüsselmodelle
- OpenVLA – 7 Milliarden Open-Source-VLA, 970.000 Demos
- RT-2 / RT-X – Googles VLA-Familie
- Okt — Diffusionspolitik mit Sprachkonditionierung
- RoboFlamingo – OpenFlamingo-basiertes VLM für Roboter
Verwandte Ressourcen
- Open-Source-VLA- und VLM-Modelle — Vollständiger Katalog mit Links
- Datensätze – Sprachgekennzeichnete Manipulationsdaten