정의

보상 형성은 기본 희소 보상(예: 작업 성공/실패)에 보충 보상 조건을 추가하여 더 조밀한 학습 신호를 제공합니다. 로봇 조작에서 형상화된 보상에는 대상까지의 거리, 하위 목표를 향한 진행 상황 또는 접촉 설정이 포함될 수 있습니다. 좋은 보상 형성은 학습을 극적으로 가속화하지만 진정한 목표를 달성하지 않고 형성된 보상을 최대화하는 행동인 보상 해킹이 발생할 위험이 있습니다. 잠재적 기반 보상 형성은 원래 MDP의 최적 정책 보장을 유지합니다. 언어 모델을 활용한 자동 보상 설계가 활발한 연구 방향입니다.

로봇 팀에 중요한 이유

실제 로봇 시스템을 구축하는 팀에게는 보상 형성을 이해하는 것이 필수적입니다. 데모 데이터를 수집하든, 시뮬레이션에서 정책을 교육하든, 프로덕션에 배포하든 이 개념은 작업 흐름과 시스템 설계에 직접적인 영향을 미칩니다.