단원 5: 정책 평가 - LeRobot 학습 경로

시뮬레이션 평가

실제 로봇이 있더라도 항상 시뮬레이션에서 먼저 평가하십시오. Sim 평가는 빠르고 안전하며 재교육 후 비교할 수 있는 재현 가능한 기준 수치를 제공합니다.

소스 ~/lerobot-env/bin/활성화

# Evaluate your best checkpoint (replace step_050000 with your checkpoint step)
python -m lerobot.scripts.eval \ --사전 훈련된-정책 이름-또는-경로 \ ~/lerobot-policies/pick-place-v1/checkpoints/step_050000 \ --env.name gym_pusht/PushT-v0 \ --eval.n-에피소드 20 \ --eval.use-async-envs 거짓

# Outputs: success_rate, mean_reward, episode_videos/

무엇을 기대할 것인가: 50개의 시뮬레이션 시연에 대한 잘 훈련된 정책은 MuJoCo에서 60~85%의 성공률을 달성해야 합니다. 40% 미만은 데이터 세트 품질 문제를 나타냅니다. 85%를 초과하면 작업이 너무 쉽거나 시뮬레이션 환경이 너무 관대함을 의미합니다. 더 어려운 변형을 시도해 보세요.

실제 로봇 안전 체크리스트

실제 로봇을 평가하는 경우 첫 번째 출시 전에 이 체크리스트를 실행하세요. 테스트되지 않은 정책은 예상치 못한 방식으로 움직일 수 있습니다.

작업의 일부가 아닌 개체의 작업공간을 지웁니다. 특정 시각적 컨텍스트에서 작동하도록 학습된 정책 - 예상치 못한 개체로 인해 비정상적인 동작이 발생할 수 있습니다.
전체 평가 세션 동안 비상 정지(E-stop) 상태를 유지하거나 Ctrl+C를 누를 준비를 하십시오. 실행 중인 정책에서 벗어나지 마십시오.
속도는 최대 50%로 제한되어 시작됩니다. 첫 번째 시도가 불안정하거나 부정확해 보이는 경우 30%로 줄입니다.
교육 작업 공간 설정과 정확히 일치하도록 개체를 배치합니다. 동일한 카메라 각도, 동일한 조명, 동일한 개체 색상을 사용하세요. 배포 변화는 실제 성공률이 0이 되는 가장 일반적인 원인입니다.
로봇 관절의 물리적 정지 한계 이상으로 평가하지 마십시오. 처음 실행하기 전에 로봇 구성에서 이를 확인하세요.

실제 로봇 평가 프로토콜

정확히 20번의 시도를 실행하세요. 이는 신뢰할 수 있는 성공률 추정을 위한 충분한 샘플을 제공합니다(95% 신뢰 수준에서 ±10%). 각 시험을 비디오로 녹화하십시오. 실패 모드를 진단하려면 영상이 필요합니다.

# Run the policy on your real robot
python -m lerobot.scripts.control_robot \ --로봇 경로 lerobot/configs/robot/so100.yaml \ --제어 모드 평가 \ --사전 훈련된-정책 이름-또는-경로 \ ~/lerobot-policies/pick-place-v1/checkpoints/step_050000 \ --eval.n-에피소드 20 \ --기록-비디오 1

각 시도 후에는 수동으로 점수를 매깁니다. 완전한 작업 성공은 1점, 실패(부분 파악, 떨어짐, 실패)는 0점입니다. 성공률은 합계를 20으로 나눈 값입니다.

실패 모드 진단

비디오 녹화를 보고 실패를 분류하십시오. 대부분의 실패는 세 가지 범주 중 하나에 속합니다.

데이터 품질

일관되지 않은 접근 궤적 - 팔이 완전히 그립에 전념하지 않음

정책은 훈련 데이터의 여러 파악 전략에 걸쳐 평균화됩니다. 이는 일부 시연이 왼쪽에서 접근하고 다른 시연은 오른쪽에서 접근하거나 그리퍼 닫힘 타이밍이 일관되지 않을 때 발생합니다. 수정: 모든 시연에서 하나의 의도적인 전략으로 다시 녹음합니다.

모델 용량

탄도는 적당해 보이지만 정밀도는 지속적으로 1~2cm씩 떨어집니다.

모델은 올바른 행동을 학습하지만 정확할 수 있는 능력은 부족합니다. 이는 Chunk_size가 너무 짧거나(계획 기간이 충분하지 않음), Dim_feedforward가 너무 작은 경우에 발생합니다. 수정: Chunk_size를 150으로 늘리고 다시 학습시키세요. 또는 더 다양한 데모를 추가하여 네트워크를 정규화하세요.

유통교대

일부 위치에서는 완벽하게 작동하지만 다른 위치에서는 완전히 실패합니다.

평가 중 객체 위치는 훈련 데이터의 분포를 벗어납니다. 정책은 이전에 그러한 입장을 본 적이 없습니다. 수정: 더 다양한 개체 위치로 더 많은 데모를 수집하거나 교육 데이터에 잘 나타나는 위치로 평가를 제한합니다.

단원 5 완료 시기...

시뮬레이션이나 실제 로봇에서 20번의 평가 시험을 실행하고 성공률을 측정했습니다. 모든 오류 모드 비디오를 시청하고 주요 오류가 데이터 품질, 모델 용량 또는 분포 변화인지 확인했습니다. 이 진단을 기록해 두십시오. 이를 사용하여 단원 6에서 데이터 수집을 안내하게 됩니다.

귀하의 정책을 평가하십시오