Политическое обучение
Сопоставление наблюдений с действиями — зрительно-моторные правила управления роботом.
Что такое политическое обучение?
Политика — это функция, которая отображает наблюдения (изображения, состояние) в действия (совместные команды, захват). Обучение политике тренирует это сопоставление на основе данных (имитация) или вознаграждения (RL). Зрительно-моторная политика использует зрение в качестве основного исходного материала.
Ключевые архитектуры
- ACT (Разбивка действий с помощью трансформеров) — Предсказывает фрагменты действий; плавное исполнение.
- Политика распространения — Шумоподавление диффузии для распределений мультимодального действия.
- Клонирование поведения — Простое контролируемое обучение на демонстрациях.
- VLA — Модели «Видение-язык-действие» (OpenVLA, RT-2) с языковым обуславливанием.
Связанные ресурсы
- Политические модели — ACT, Политика распространения, OpenVLA, Octo
- Имитационное обучение
- Службы передачи данных — Данные для обучения вашей политике