데이터 품질이 수량보다 더 중요한 이유

로봇 학습에 대한 일반적인 오해는 더 많은 시연이 자동으로 더 나은 정책을 생성한다는 것입니다. 이것은 거짓입니다. 신경망은 모방하는 법을 배웁니다. 분포 데이터 세트의 행동. 데모가 일관되지 않은 경우(다른 경로, 다른 속도, 다른 개체 위치) 네트워크는 실제 성공적인 전략과 일치하지 않는 모호한 평균을 학습합니다.

팔이 동일한 깨끗한 경로를 취하고, 동일한 위치에서 물체를 잡고, 동일한 홈 위치로 돌아가는 50번의 시연은 높은 분산으로 500번의 시연보다 더 나은 일반화 정책을 생성할 것입니다. 첫 번째 수집 세션은 일관성을 확립할 수 있는 기회입니다. 천천히 시간을 가지세요. 잘못되었다고 생각되는 데모를 삭제하고 다시 녹음하세요.

파이프라인 설계에 대한 더 깊은 기초를 알아보려면 다음을 읽어보세요. 데이터 수집 파이프라인 개요 로봇공학 도서관에 있어요.

LeRobot 데이터세트 형식

녹음 내용은 다음 위치에 저장됩니다. 르로봇 형식 — Hugging Face의 LeRobot 라이브러리에서 사용되는 표준이며 단원 5에서 사용할 ACT 및 확산 정책 트레이너와 호환됩니다.

녹음되는 내용

관절 위치(6 DOF + 그리퍼), 관절 속도, 엔드 이펙터 포즈, 카메라 프레임(RGB + 선택적 깊이), 타임스탬프 및 작업 메타데이터.

파일 구조

에피소드당 하나의 폴더입니다. 각 에피소드에는 data.parquet 상태/동작 배열과 video/ 카메라 스트림이 있는 하위 폴더.

샘플링 속도

기본적으로 50Hz입니다. 원격조작의 매초마다 50개의 시간 단계가 생성됩니다. 10초의 픽 앤 플레이스는 500개의(상태, 동작) 쌍을 생성합니다.

호환성

LeRobot 형식은 직접 로드됩니다. lerobot.common.datasets. TF-Agents 파이프라인용 RLDS로 변환할 수도 있습니다. 참조 데이터 세트 찾아보기 →

녹음 세션

작업 이름과 대상 에피소드 수를 사용하여 녹화 스크립트를 시작하세요. 스크립트는 에피소드 관리, 파일 이름 지정 및 품질 플래그 지정을 자동으로 처리합니다.

# Activate your environment first 소스 ~/openarm-env/bin/activate # Launch recording — saves to ~/openarm-datasets/pick-and-place/ 파이썬 -m openarm.collect \ --작업 선택 및 배치 \ --에피소드 50 \ --fps 50 \ --output ~/openarm-datasets/픽 앤 플레이스 # Press ENTER to start a new episode, BACKSPACE to discard the last one # The script prints a summary after every 10 episodes

모든 에피소드에 대해 동일한 시작 위치에 동일한 개체를 사용하여 작업 공간을 설정하세요. 물체 위치를 일관되게 유지하려면 테이블에 테이프 표시를 사용하십시오. 각 에피소드가 시작되기 전에 팔은 정확히 동일한 홈 자세로 돌아와야 합니다. 기록 스크립트는 원점 복귀 확인을 통해 이를 시행합니다.

실용적인 팁: 각각 8~15초 사이의 에피소드를 목표로 하세요. 너무 짧으면(5초 미만) 정책이 원활한 궤적을 계획할 시간이 없습니다. 너무 길고(20초 이상) 변형이 적습니다. 표준 픽 앤 플레이스의 경우 에피소드당 10초가 목표입니다.

데이터 품질 체크리스트

단원 5로 진행하기 전에 데이터세트가 이러한 5가지 검사를 모두 통과하는지 확인하세요. 항목에 실패한 에피소드를 삭제하고 다시 녹화하세요.

  • 1 실패한 파악이 없습니다. 모든 에피소드는 물체가 목표 위치에 성공적으로 배치되는 것으로 끝납니다. 팔이 움켜쥐지 못하거나 물체를 떨어뜨린 에피소드는 삭제해야 합니다. 이는 모델이 실패하도록 가르칩니다.
  • 2 일관된 시작 자세. 팔은 모든 에피소드에서 원위치에서 시작됩니다. 데이터 세트 뷰어에서 시간 단계 0의 관절 ​​각도가 전체 50개 에피소드에서 서로 ±2° 내에 있는지 확인합니다.
  • 3 갑작스러운 점프나 갑작스러운 움직임은 없습니다. 3~5개의 무작위 에피소드를 시각화합니다. python -m lerobot.visualize_dataset --dataset ~/openarm-datasets/pick-and-place. 액션 시퀀스는 스파이크가 아닌 부드럽고 연속적인 곡선이어야 합니다.
  • 4 카메라 프레임이 선명하고 초점이 맞습니다. 작업 공간 카메라가 가려지거나 직사광선에 의해 날아가지 않는지, 각 에피소드 전체에서 물체가 선명하게 보이는지 확인하세요. 흐릿하거나 어두운 영상은 정책 성과를 저하시킵니다.
  • 5 50개의 완전한 에피소드가 저장되었습니다. 달리다 python -m lerobot.inspect ~/openarm-datasets/pick-and-place 손상된 파일 없이 정확히 50개의 에피소드가 있는지 확인하세요. 스크립트는 누락된 프레임이나 잘린 액션 시퀀스가 ​​있는 에피소드에 플래그를 지정합니다.

비교를 위한 참조 데이터 세트 찾아보기

SVRC 데이터 세트 라이브러리에는 품질 참조로 사용할 수 있는 픽 앤 플레이스 녹음 예시가 포함되어 있습니다. 데이터가 상당히 다르게 보이는 경우 훈련 전에 조사하십시오. SVRC 데이터세트 열기 →

단원 4 완료 시기...

LeRobot 형식으로 저장된 50개의 클린 에피소드가 있습니다. ~/openarm-datasets/pick-and-place. 품질 체크리스트 5개 항목 모두 통과했습니다. 달리기 lerobot.inspect 50화를 보여주네요. 오류는 없습니다. 이 데이터세트를 단원 5의 학습 파이프라인에 전달할 준비가 되었습니다.