← Глоссарий

Имитационное обучение

Обучение на демонстрациях — роботы, которые копируют поведение человека на основе данных телеоперации.

Что такое имитационное обучение?

Имитационное обучение (ИЛ) — это парадигма, в которой робот учится выполнять задачи, наблюдая и воспроизводя демонстрации экспертов. Вместо обучения на сигналах вознаграждения (как при обучении с подкреплением), робот учится на парах состояние-действие, собранных во время телеоперации человека или кинестетического обучения.

Ключевые подходы

  • Клонирование поведения (BC) — Обучение под наблюдением в парах (наблюдение, действие). Простой, но склонный к сдвигу распределения.
  • Кинжал — Итеративный сбор данных: запускайте политику, получайте экспертные поправки, переобучайтесь. Уменьшает сдвиг распределения.
  • Обратное обучение с подкреплением (IRL) — Сделайте вывод о функции вознаграждения на основе демонстраций, а затем оптимизируйте политику.

Связанные ресурсы