Имитационное обучение

Обучение на демонстрациях — роботы, которые копируют поведение человека на основе данных телеоперации.

Что такое имитационное обучение?

Имитационное обучение (ИЛ) — это парадигма, в которой робот учится выполнять задачи, наблюдая и воспроизводя демонстрации экспертов. Вместо обучения на сигналах вознаграждения (как при обучении с подкреплением), робот учится на парах состояние-действие, собранных во время телеоперации человека или кинестетического обучения.

Ключевые подходы

Клонирование поведения (BC) — Обучение под наблюдением в парах (наблюдение, действие). Простой, но склонный к сдвигу распределения.
Кинжал — Итеративный сбор данных: запускайте политику, получайте экспертные поправки, переобучайтесь. Уменьшает сдвиг распределения.
Обратное обучение с подкреплением (IRL) — Сделайте вывод о функции вознаграждения на основе демонстраций, а затем оптимизируйте политику.

Связанные ресурсы

Наборы данных с открытым исходным кодом — DROID, BridgeData, ALOHA, Open X-Embodiment
Политические модели — ACT, Политика распространения, OpenVLA, Octo
Службы передачи данных — Собираем готовые к обучению демонстрации под ваши задачи