Определение

Формирование вознаграждения добавляет дополнительные условия вознаграждения к базовому разреженному вознаграждению (например, успех/провал задачи), чтобы обеспечить более плотные сигналы обучения. В роботизированных манипуляциях сформированные награды могут включать расстояние до цели, прогресс в достижении подцели или установление контакта. Правильное формирование вознаграждения значительно ускоряет обучение, но рискует привести к хакингу вознаграждения — поведению, которое максимизирует сформированное вознаграждение без достижения истинной цели. Формирование вознаграждения на основе потенциала сохраняет оптимальные политические гарантии исходного MDP. Автоматический дизайн вознаграждений с использованием языковых моделей — активное направление исследований.

Почему это важно для команд роботов

Понимание формирования вознаграждений имеет важное значение для команд, создающих реальные роботизированные системы. Независимо от того, собираете ли вы демонстрационные данные, обучаете политикам моделирования или развертываете в рабочей среде, эта концепция напрямую влияет на ваш рабочий процесс и проектирование системы.