Имитационное обучение
Обучение на демонстрациях — роботы, которые копируют поведение человека на основе данных телеоперации.
Что такое имитационное обучение?
Имитационное обучение (ИЛ) — это парадигма, в которой робот учится выполнять задачи, наблюдая и воспроизводя демонстрации экспертов. Вместо обучения на сигналах вознаграждения (как при обучении с подкреплением), робот учится на парах состояние-действие, собранных во время телеоперации человека или кинестетического обучения.
Ключевые подходы
- Клонирование поведения (BC) — Обучение под наблюдением в парах (наблюдение, действие). Простой, но склонный к сдвигу распределения.
- Кинжал — Итеративный сбор данных: запускайте политику, получайте экспертные поправки, переобучайтесь. Уменьшает сдвиг распределения.
- Обратное обучение с подкреплением (IRL) — Сделайте вывод о функции вознаграждения на основе демонстраций, а затем оптимизируйте политику.
Связанные ресурсы
- Наборы данных с открытым исходным кодом — DROID, BridgeData, ALOHA, Open X-Embodiment
- Политические модели — ACT, Политика распространения, OpenVLA, Octo
- Службы передачи данных — Собираем готовые к обучению демонстрации под ваши задачи