단원 4: 정책 교육 — LeRobot 학습 경로

정책 선택

LeRobot은 세 가지 생산 준비 정책 아키텍처를 제공합니다. 훈련을 실행하기 전에 하나를 선택하십시오. 실행 도중에는 전환할 수 없습니다.

이 경로에 권장됨

ACT

액션 청크 트랜스포머. 한 팔로 능숙하게 조작하는 데 가장 적합합니다. GPU에서 1~3시간 안에 훈련합니다. 예측 가능한 하이퍼파라미터. 이것을 사용하십시오.

확산정책

정밀 작업의 최고 정확도는 높지만 학습 및 추론 속도는 3~5배 더 느립니다. 작동 중인 ACT 기준선을 확보한 후에 이를 사용하십시오.

SmolVLA

언어 조건 VLA. 작업에 자연어 지침이나 다중 작업 일반화가 필요한 경우에 사용하세요. 더 많은 데이터가 필요합니다.

ACT 훈련사령부

바꾸다 $HF_USER/pick-place-v1 단원 3의 데이터세트 저장소 ID를 사용하세요.

소스 ~/lerobot-env/bin/활성화 python -m lerobot.scripts.train \ --정책 유형 행위 \ --dataset-repo-id $HF_USER/pick-place-v1 \ --output-dir ~/lerobot-policies/pick-place-v1 \ --config-overrides \ training.num_steps=50000 \ training.eval_freq=5000 \ training.save_freq=5000 \ training.batch_size=32 \ policy.chunk_size=100 \ policy.n_action_steps=100

# Add --device cuda if you have a GPU (strongly recommended)
# Checkpoints save every 5k steps to ~/lerobot-policies/pick-place-v1/
# Start this before sleep — it can run unattended

GPU 대 CPU 훈련 시간: RTX 3090(24GB)에서는 50,000걸음에 약 60~80분이 소요됩니다. RTX 3080(10GB)에서는 약 90~120분입니다. CPU에서는 8~12시간이 예상됩니다. 클라우드 GPU 옵션(Lambda Labs, Vast.ai)은 필요한 하드웨어에 대해 시간당 0.50~1.50달러를 실행합니다.

단일 암 픽 앤 플레이스에 권장되는 하이퍼파라미터

매개변수	추천	왜
num_steps	50000	간단한 픽 앤 플레이스 데모 50~100개에 충분합니다. 손실 정체가 늦게 발생하는 경우 80,000으로 늘립니다.
배치_크기	32	단일 부문 데이터 세트의 표준입니다. GPU 메모리가 부족하면 16개로 줄입니다.
청크_크기	100	ACT는 100단계 앞서 계획합니다. 30fps에서는 ~3.3초입니다. 이는 픽 앤 플레이스에 적합한 계획 기간입니다.
n_action_steps	100	Chunk_size와 일치해야 합니다. 추론 빈도를 줄이고 실행을 원활하게 합니다.
kl_체중	10	르로봇 기본값. 20,000걸음 이후 L_kl이 0에 가깝게 유지되지 않는 한 변경하지 마세요.
난	1e-5	ACT의 LeRobot 기본값. 재구성 손실이 수렴하는 대신 진동하는 경우 5e-6으로 낮춥니다.

훈련 로그 읽기

훈련 로그는 터미널과 TensorBoard에 인쇄됩니다. 두 번째 터미널에서 TensorBoard를 실행합니다.

텐서보드 --logdir ~/lerobot-policies/

그런 다음 열어 http://localhost:6006 귀하의 브라우저에서. 다음 곡선을 살펴보세요.

손실/재구축(L_recon)

기본 훈련 신호입니다. ~2.5~3.5에서 0.1 미만으로 50,000단계씩 감소해야 합니다. 40,000단계 이후 0.15를 초과하는 정체는 일반적으로 데이터세트의 변동이 너무 크다는 것을 의미합니다. 단원 3의 좋은 데모 사례를 검토하고 보다 일관된 데모 기록을 고려하세요.

성/kl (L_kl)

0 근처에서 5~20까지 천천히 상승합니다. 이는 예상된 동작입니다. CVAE는 컴팩트 스타일 임베딩을 학습하고 있습니다. 40을 초과하면 데모에 행동 다양성이 너무 많이 포함되어 있는 것입니다. 20,000단계 후에도 0 근처에 머무르면 CVAE가 학습하지 않는 것입니다. kl_weight를 20으로 늘립니다.

열차/손실(총 손실)

L_recon + kl_weight × L_kl. 초기 훈련에서는 L_recon이 지배합니다. 단조롭게 감소해야 합니다. 초기 감소 후 증가하는 총 손실은 학습률 감소가 너무 공격적임을 나타냅니다. 스케줄러 구성을 확인하세요.

체크포인트 관리

체크포인트는 5,000걸음마다 저장됩니다. ~/lerobot-policies/pick-place-v1/checkpoints/. 최종 체크포인트가 최고라고 가정하지 마십시오. 정책은 특히 작은 데이터세트의 경우 걸음 수가 많을 때 과적합될 수 있습니다.

훈련 후 가장 좋은 체크포인트를 식별하십시오. 이는 L_reconstruction이 안정을 시작하기 전에 최소값에 도달한 단계입니다. 50개 시연의 경우 이는 일반적으로 35,000~50,000단계 범위에서 발생합니다. 이 단계 번호를 저장하세요. 단원 5에서 사용하게 됩니다.

단원 4 완료 시기...

훈련이 50,000단계를 완료하고 체크포인트가 저장됩니다. ~/lerobot-policies/pick-place-v1/checkpoints/. 최종 L_reconstruction 손실은 0.1 미만입니다. 손실 곡선을 기반으로 가장 좋은 체크포인트 단계를 식별했습니다. 훈련 실행에서 L_kl이 수행하는 작업을 이해했습니다. 이제 단원 5의 정책을 평가할 준비가 되었습니다.

정책 훈련