단원 5: 첫 번째 정책 교육 — OpenArm 학습 경로

모방 학습이 실제로 하는 일

훈련 명령을 실행하기 전에 모델이 실제로 학습하는 내용을 이해하는 데 2분 정도 시간을 투자하세요. 모방 학습은 관찰(카메라 이미지 + 현재 관절 상태)을 행동(다음 관절 각도)에 매핑하도록 정책 네트워크를 훈련합니다. 네트워크는 결코 보상 신호를 받지 않습니다. 단지 데모만 보고 비슷한 상태에서 수행한 작업의 분포를 재현하는 방법을 학습합니다.

ACT(Action Chunking with Transformers)는 다음을 예측합니다. 큰 덩어리 한 단계가 아닌 100가지 미래 행동을 한 번에 수행할 수 있습니다. 이는 에피소드 전반에 걸쳐 오류가 누적되는 것을 방지합니다. 개별 예측이 약간 벗어나더라도 청크는 안정적인 궤적 버퍼를 제공합니다. 그런 다음 100번 단계(50Hz에서 2초)마다 다시 계획합니다. 이것이 바로 ACT가 일반 동작 복제보다 긴 작업을 더 잘 처리하는 이유입니다.

전체 이론적 배경을 보려면 다음을 읽어보세요. 모방 학습 기초 로봇공학 도서관에 있어요.

GPU 또는 CPU?

8GB+ VRAM을 갖춘 NVIDIA GPU에서 훈련하는 데는 100,000단계에 대해 약 45분이 소요됩니다. CPU 훈련은 동일한 실행에 3~4시간이 소요됩니다. 둘 다 동일한 모델 품질을 생성합니다. GPU가 더 빠릅니다. 로컬 GPU가 없는 경우 훈련 명령은 클라우드 인스턴스(Lambda Labs 또는 A100 런타임이 포함된 Google Colab)에서 동일하게 작동합니다. 지침은 LeRobot 저장소의 README에 있습니다.

데이터 세트에서 ACT 교육

가상 환경에서 훈련 스크립트를 실행하십시오. 아래 구성 값은 OpenArm의 50개 에피소드 선택 및 배치 데이터세트에 대해 보정되었습니다. 처음 실행할 때 값을 변경하지 마세요.

소스 ~/openarm-env/bin/activate python -m lerobot.scripts.train \ --dataset-path ~/openarm-datasets/pick-and-place \ --정책 행위 \ --배치 크기 8 \ --lr 1e-5 \ --num-train-steps 100000 \ --평가-주파수 5000 \ --저장 빈도 10000 \ --로그-주파수 500 \ --output-dir ~/openarm-policies/pick-and-place-v1

# Training will print loss every 500 steps and eval results every 5000 steps
# Checkpoints saved every 10k steps to ~/openarm-policies/pick-and-place-v1/

훈련을 시작한 다음 결과를 모니터링하십시오. 전체 시간을 시청할 필요는 없지만 20~30분마다 다시 확인하여 손실이 감소하고 실행이 중단되지 않았는지 확인하세요. 훈련은 잠자는 동안 밤새도록 실행할 수 있습니다.

훈련 곡선 이해

ACT의 훈련 결과에는 두 가지 주요 측정항목이 표시됩니다. 올바르게 읽는 법을 배우십시오. 훈련이 건강한지, 언제 중단해야 하는지 알려줍니다.

훈련 손실

처음 20,000단계에서는 급격하게 감소한 다음 계속해서 천천히 감소해야 합니다. 0.05 이상으로 정체되는 손실은 일반적으로 데이터 품질 문제를 나타냅니다. 데이터세트를 확인하세요. 광범위하게 진동하는 손실은 학습률이 너무 높다는 것을 의미합니다.

평가 성공률

5,000걸음마다 나타납니다(실제 팔이나 SIM 필요). 이것은 실제로 중요한 숫자입니다. 배포하기 전에 70% 이상을 원합니다. 훈련 손실보다 뒤처지는 경우가 많습니다. 성공률이 계속 향상되는 동안에도 손실이 좋아 보일 수 있습니다.

액션 MSE

예측된 행동과 실제 행동 사이의 평균 제곱 오차입니다. 잘 훈련된 픽 앤 플레이스 정책을 위해서는 0.01 미만으로 낮아져야 합니다. 80,000 단계 이후의 높은 작업 MSE는 모델이 작업 복잡성으로 인해 어려움을 겪고 있거나 데이터가 일관되지 않음을 의미합니다.

KL 발산(ACT 특정)

ACT는 훈련 중에 0에서 10까지 어닐링된 KL 가중치를 갖는 CVAE를 사용합니다. 40k 단계에서 이것이 안정화되는 것을 지켜보십시오. 수렴하지 않으면 모델이 스타일을 인코딩하지 못하는 것입니다. 데이터를 더 추가해 보세요.

훈련을 중단해야 할 때

단순히 10만 걸음을 달리고 멈춰서는 안 됩니다. 다음 신호를 사용하여 체크포인트 배포 준비 시기를 결정하세요.

평가 성공률은 3회 연속 평가 동안 정체되었습니다. - 모델이 수렴되었습니다. 더 많거나 다른 데이터가 없으면 추가 교육은 도움이 되지 않습니다.
평가 성공률이 70% 이상입니다. — 이것이 6호기 배치의 임계값입니다. 60,000걸음에서 70%에 도달하면 일찍 중단하고 해당 체크포인트를 배포할 수 있습니다.
훈련 손실은 여전히 감소하고 있지만 평가는 정체되거나 감소하고 있습니다. — 모델이 과적합되었습니다. 평가가 최고조에 달했던 마지막 체크포인트를 살펴보세요. 최고의 체크포인트입니다.
100,000걸음 이후 — 성공률이 40% 미만이면 단원 4로 돌아가세요. 이 시점에서는 교육 문제보다 데이터 문제가 발생할 가능성이 더 높습니다.

선택적 심층 분석

ACT를 넘어 — 확산 정책 및 π₀

작동하는 ACT 정책이 있으면 자연스러운 다음 실험은 확산 정책입니다. 추론 속도는 느려지지만 다중 모드 작업을 더 잘 처리합니다(예: 팔이 두 각도에서 물체에 접근할 수 있음). SVRC 연구 섹션에서는 두 가지를 모두 다룹니다. 연구 논문 찾아보기 →

단원 5 완료 시기...

훈련이 완료되었습니다(또는 적절한 체크포인트에서 중지했습니다). 귀하의 픽앤플레이스 작업 평가 성공률은 70% 이상입니다. 에 저장된 체크포인트가 있습니다. ~/openarm-policies/pick-and-place-v1/ 어떤 단계 번호가 가장 좋은 결과를 가져왔는지 알 수 있습니다. 이제 단원 6의 실제 팔에 이 정책을 적용할 준비가 되었습니다.