정책 선택
LeRobot은 세 가지 생산 준비 정책 아키텍처를 제공합니다. 훈련을 실행하기 전에 하나를 선택하십시오. 실행 도중에는 전환할 수 없습니다.
ACT
액션 청크 트랜스포머. 한 팔로 능숙하게 조작하는 데 가장 적합합니다. GPU에서 1~3시간 안에 훈련합니다. 예측 가능한 하이퍼파라미터. 이것을 사용하십시오.
확산정책
정밀 작업의 최고 정확도는 높지만 학습 및 추론 속도는 3~5배 더 느립니다. 작동 중인 ACT 기준선을 확보한 후에 이를 사용하십시오.
SmolVLA
언어 조건 VLA. 작업에 자연어 지침이나 다중 작업 일반화가 필요한 경우에 사용하세요. 더 많은 데이터가 필요합니다.
ACT 훈련사령부
바꾸다 $HF_USER/pick-place-v1 단원 3의 데이터세트 저장소 ID를 사용하세요.
단일 암 픽 앤 플레이스에 권장되는 하이퍼파라미터
| 매개변수 | 추천 | 왜 |
|---|---|---|
| num_steps | 50000 | 간단한 픽 앤 플레이스 데모 50~100개에 충분합니다. 손실 정체가 늦게 발생하는 경우 80,000으로 늘립니다. |
| 배치_크기 | 32 | 단일 부문 데이터 세트의 표준입니다. GPU 메모리가 부족하면 16개로 줄입니다. |
| 청크_크기 | 100 | ACT는 100단계 앞서 계획합니다. 30fps에서는 ~3.3초입니다. 이는 픽 앤 플레이스에 적합한 계획 기간입니다. |
| n_action_steps | 100 | Chunk_size와 일치해야 합니다. 추론 빈도를 줄이고 실행을 원활하게 합니다. |
| kl_체중 | 10 | 르로봇 기본값. 20,000걸음 이후 L_kl이 0에 가깝게 유지되지 않는 한 변경하지 마세요. |
| 난 | 1e-5 | ACT의 LeRobot 기본값. 재구성 손실이 수렴하는 대신 진동하는 경우 5e-6으로 낮춥니다. |
훈련 로그 읽기
훈련 로그는 터미널과 TensorBoard에 인쇄됩니다. 두 번째 터미널에서 TensorBoard를 실행합니다.
그런 다음 열어 http://localhost:6006 귀하의 브라우저에서. 다음 곡선을 살펴보세요.
손실/재구축(L_recon)
기본 훈련 신호입니다. ~2.5~3.5에서 0.1 미만으로 50,000단계씩 감소해야 합니다. 40,000단계 이후 0.15를 초과하는 정체는 일반적으로 데이터세트의 변동이 너무 크다는 것을 의미합니다. 단원 3의 좋은 데모 사례를 검토하고 보다 일관된 데모 기록을 고려하세요.
성/kl (L_kl)
0 근처에서 5~20까지 천천히 상승합니다. 이는 예상된 동작입니다. CVAE는 컴팩트 스타일 임베딩을 학습하고 있습니다. 40을 초과하면 데모에 행동 다양성이 너무 많이 포함되어 있는 것입니다. 20,000단계 후에도 0 근처에 머무르면 CVAE가 학습하지 않는 것입니다. kl_weight를 20으로 늘립니다.
열차/손실(총 손실)
L_recon + kl_weight × L_kl. 초기 훈련에서는 L_recon이 지배합니다. 단조롭게 감소해야 합니다. 초기 감소 후 증가하는 총 손실은 학습률 감소가 너무 공격적임을 나타냅니다. 스케줄러 구성을 확인하세요.
체크포인트 관리
체크포인트는 5,000걸음마다 저장됩니다. ~/lerobot-policies/pick-place-v1/checkpoints/. 최종 체크포인트가 최고라고 가정하지 마십시오. 정책은 특히 작은 데이터세트의 경우 걸음 수가 많을 때 과적합될 수 있습니다.
훈련 후 가장 좋은 체크포인트를 식별하십시오. 이는 L_reconstruction이 안정을 시작하기 전에 최소값에 도달한 단계입니다. 50개 시연의 경우 이는 일반적으로 35,000~50,000단계 범위에서 발생합니다. 이 단계 번호를 저장하세요. 단원 5에서 사용하게 됩니다.
단원 4 완료 시기...
훈련이 50,000단계를 완료하고 체크포인트가 저장됩니다. ~/lerobot-policies/pick-place-v1/checkpoints/. 최종 L_reconstruction 손실은 0.1 미만입니다. 손실 곡선을 기반으로 가장 좋은 체크포인트 단계를 식별했습니다. 훈련 실행에서 L_kl이 수행하는 작업을 이해했습니다. 이제 단원 5의 정책을 평가할 준비가 되었습니다.