정책 학습
관찰을 행동으로 매핑 — 로봇 제어를 위한 시각 운동 정책.
정책 학습이란 무엇입니까?
정책은 관찰(이미지, 상태)을 작업(조인트 명령, 그리퍼)에 매핑하는 기능입니다. 정책 학습은 데이터(모방) 또는 보상(RL)을 통해 이 매핑을 훈련합니다. 시력 운동 정책은 시력을 주요 입력으로 사용합니다.
주요 아키텍처
- ACT(트랜스포머를 사용한 액션 청킹) — 액션 청크를 예측합니다. 원활한 실행.
- 확산정책 — 다중 모드 동작 분포를 위한 노이즈 제거 확산.
- 행동 복제 — 데모를 통한 간단한 지도 학습.
- VLA — 언어 조건을 갖춘 비전-언어-행동 모델(OpenVLA, RT-2).