데이터 품질이 데이터 양보다 중요한 이유

1,000개의 고품질의 다양한 데모로 구성된 데이터 세트는 종종 10,000개의 시끄러운 데모보다 성능이 뛰어납니다. 센서 비동기화, 작업 중단, 성공과 혼합된 작업 실패, 일관되지 않은 라벨링 등의 품질 문제가 훈련된 정책으로 전파되어 알 수 없는 배포 실패를 유발합니다.

15가지 품질 체크리스트

훈련 세트에 추가하기 전에 수집된 모든 에피소드 배치에 이러한 검사를 적용하세요.

  • 10ms 이내에 동기화되는 센서 타임스탬프
  • 카메라 프레임 손실 없음(프레임 수와 지속 시간 확인)
  • 물리적 관절 한계 내 동작 값
  • 평균 단계 크기에서 2σ를 초과하는 동작 불연속 없음
  • 두 번째 검토자가 확인한 성공/실패 라벨
  • 예상 기간 내에 완료된 작업
  • 최종 데이터 세트에는 운영자 자체 수정이 없습니다.
  • 중요한 단계에서 카메라가 가려지지 않음
  • 고유 감각은 명령된 행동과 일치합니다.
  • 정확한 순간에 그리퍼 상태가 전환됩니다.
  • 중복된 에피소드 없음
  • 메타데이터 필드 완료(작업 ID, 연산자, 날짜)
  • 대상 형식으로 저장된 에피소드(RLDS/LeRobot)
  • 예상 분포 내의 배치 통계
  • 무작위 샘플을 시각적으로 확인함