정책 학습

관찰을 행동으로 매핑 — 로봇 제어를 위한 시각 운동 정책.

정책 학습이란 무엇입니까?

정책은 관찰(이미지, 상태)을 작업(조인트 명령, 그리퍼)에 매핑하는 기능입니다. 정책 학습은 데이터(모방) 또는 보상(RL)을 통해 이 매핑을 훈련합니다. 시력 운동 정책은 시력을 주요 입력으로 사용합니다.

주요 아키텍처

ACT(트랜스포머를 사용한 액션 청킹) — 액션 청크를 예측합니다. 원활한 실행.
확산정책 — 다중 모드 동작 분포를 위한 노이즈 제거 확산.
행동 복제 — 데모를 통한 간단한 지도 학습.
VLA — 언어 조건을 갖춘 비전-언어-행동 모델(OpenVLA, RT-2).

관련 자료

정책 모델 — ACT, 확산 정책, OpenVLA, Octo
모방 학습
데이터 서비스 — 정책 교육을 위한 데이터