← Глоссарий

Обучение с подкреплением

Обучение методом проб и ошибок — роботы, которые оптимизируют поведение с помощью сигналов вознаграждения.

Что такое обучение с подкреплением?

Обучение с подкреплением (RL) — это парадигма, в которой агент учится максимизировать совокупное вознаграждение за счет взаимодействия с окружающей средой. Агент предпринимает действия, получает вознаграждения (или штрафы) и обновляет свою политику, чтобы со временем улучшаться.

Ключевые понятия

  • Сигнал вознаграждения — Редкая или плотная обратная связь, указывающая ход выполнения задачи (например, объект схвачен, цель достигнута).
  • Политика — Сопоставление наблюдений с действиями. Часто нейронные сети (например, PPO, SAC).
  • Sim-to-real — Обучайтесь моделированию, применяйте реальных роботов. Рандомизация доменов помогает преодолеть разрыв.

Связанные ресурсы