← 용어집

강화 학습

시행착오로부터 학습 — 보상 신호로부터 행동을 최적화하는 로봇.

강화 학습이란 무엇입니까?

강화 학습(RL)은 에이전트가 환경과의 상호 작용을 통해 누적 보상을 최대화하는 방법을 학습하는 패러다임입니다. 에이전트는 조치를 취하고, 보상(또는 페널티)을 받고, 시간이 지남에 따라 개선되도록 정책을 업데이트합니다.

주요 개념

  • 보상 신호 — 작업 진행 상황(예: 개체 파악, 목표 도달)을 나타내는 희박하거나 조밀한 피드백.
  • 정책 — 관찰에서 행동으로의 매핑. 주로 신경망(예: PPO, SAC)입니다.
  • 시뮬레이션-실제 — 시뮬레이션 교육을 받고 실제 로봇에 배포합니다. 도메인 무작위화는 격차를 해소하는 데 도움이 됩니다.

관련 자료