데이터 플라이휠

로봇 학습 정책을 개선하는 가장 확실한 방법은 모델을 변경하는 것이 아니라 데이터를 개선하는 것입니다. 데이터 플라이휠은 모든 심각한 로봇 학습 프로젝트의 핵심 반복 루프입니다.

1

평가하다

20번의 시험을 실행하세요. 성공률을 측정합니다. 유형별로 실패를 분류합니다. 5단원에서 이 작업을 수행했습니다.

2

주요 실패 모드 식별

데이터 품질(일관되지 않은 데모), 분포 변화(보이지 않는 위치) 또는 모델 용량(정확한 궤적이지만 잘못됨)입니까? 귀하의 Unit 5 진단이 이에 대한 답변입니다.

3

타겟 데이터 수집

특히 실패 체제를 다루는 20~30개의 시연을 기록합니다. 작업 공간 왼쪽에 있는 개체에서 정책이 실패하면 해당 특정 위치에 대한 데모 20개를 기록하세요. 이미 작동 중인 내용을 더 이상 기록하지 마세요.

4

재교육 및 재평가

새 데이터를 기존 데이터세트와 병합하고 재훈련한 후 20회 평가를 다시 실행하세요. 진단이 정확하면 주기당 10~20% 포인트 개선이 예상됩니다.

데이터 세트 혼합

LeRobot은 여러 데이터 세트를 동시에 훈련할 수 있으며, 이는 대상 컬렉션 데이터를 원본 데이터 세트와 결합하거나 동일한 작업 및 로봇 유형에 대한 공개 커뮤니티 데이터 세트와 결합하는 데 유용합니다.

# Merge two datasets into a new combined dataset python -m lerobot.scripts.push_dataset_to_hub \ --dataset-dir ~/lerobot-datasets/pick-place-v1 \ --repo-id $HF_USER/pick-place-v2-merged # OR train directly on multiple repo IDs python -m lerobot.scripts.train \ --정책 유형 행위 \ --dataset-repo-id "$HF_USER/pick-place-v1,$HF_USER/pick-place-targeted" \ --dataset-repo-id-weights "1.0,2.0" \ --output-dir ~/lerobot-policies/pick-place-v2 # The weights parameter upsamples the targeted data 2x # relative to the original dataset
공개 데이터세트와 혼합: 커뮤니티 데이터 세트를 혼합하기 전에 로봇 유형과 행동 공간 차원이 귀하의 것과 일치하는지 확인하십시오. 7-DOF 데이터 세트를 6-DOF 훈련 실행에 혼합하면 자동 모양 불일치 오류가 발생합니다. 항상 점검하십시오. info.json 혼합하려는 데이터세트

HuggingFace Hub에서 모델을 공유하세요

훈련된 모델을 공유하면 커뮤니티에서 사용할 수 있고 다른 사람들이 정책을 시작점으로 사용할 수 있습니다. 표준 LeRobot 형식으로 공유된 모델은 누구나 직접 로드할 수 있습니다. pip install lerobot.

# Push your best checkpoint to HuggingFace Hub python -m lerobot.scripts.push_policy_to_hub \ --체크포인트 경로 \ ~/lerobot-policies/pick-place-v1/checkpoints/step_050000 \ --repo-id $HF_USER/act-pick-place-so100 # Add a model card (recommended) # The push command creates a README.md template — fill it in with: # - Robot type and task description # - Training dataset repo ID # - Evaluation success rate # - Video of the policy running on your robot

커뮤니티와 데이터 세트 공유

데이터세트(단원 3에서 푸시한)는 이미 HuggingFace Hub에 있습니다. 다른 사람이 더 쉽게 검색하고 유용하게 만들려면 다음을 수행하세요.

  • 추가 데이터 세트 카드 HuggingFace에서 — 작업, 로봇, 녹음 설정 및 에피소드 수를 설명합니다. 이는 데이터 세트 검색 가능성을 위해 수행할 수 있는 가장 영향력 있는 작업입니다.
  • 태그를 지정하세요. lerobot, 로봇 유형(예: so100) 및 작업 카테고리(예: pick-and-place).
  • 에 제출하세요. SVRC 데이터세트 라이브러리 큐레이션 및 커뮤니티 색인 포함을 위해.

LeRobot에 하드웨어 구성 기여

Unit 1에서 지원되지 않는 로봇에 대한 사용자 정의 하드웨어 구성을 추가한 경우 LeRobot 저장소에 다시 기여하는 것을 고려해보세요. 다음에 대한 풀 요청을 엽니다. huggingface/lerobot 구성 파일을 사용하여 lerobot/configs/robot/. 유지관리자는 하드웨어 기여도를 신속하게 검토하며 이는 해당 하드웨어를 사용하는 모든 향후 사용자에게 직접적인 혜택을 줍니다.

다음 단계: 더욱 강력한 정책

이제 완전한 LeRobot 작업 흐름이 완성되었습니다. 여기에서 갈 곳은 다음과 같습니다.

언어

SmolVLA — 언어 조건 정책

정책이 자연어 지침("파란색 블록 선택")에 응답하거나 작업 전반에 걸쳐 일반화되도록 하려면 ACT에서 SmolVLA로 전환하세요. ~200개 이상의 데모와 보다 구조화된 프롬프트 형식이 필요합니다. SmolVLA 논문과 LeRobot 예제를 참조하세요.

규모

Pi0Fast — 고속 VLA 추론

Pi0Fast는 100Hz 추론(ACT의 30Hz 대비)에서 실행되므로 더 빠른 조작 작업과 더 엄격한 제어 루프가 가능합니다. 추론 시 GPU가 필요하지만 규모에 따라 훨씬 더 능숙한 동작을 생성합니다.

일반화

다중 작업 정책

에피소드당 task_index 값이 서로 다른 혼합 데이터 세트를 사용하여 여러 작업에 대한 단일 정책을 교육합니다. SmolVLA와 Pi0Fast는 모두 기본적으로 다중 작업 교육을 지원합니다. GitHub 예제에서 LeRobot 다중 작업 레시피를 참조하세요.

르로봇 경로를 완료하셨습니다.

LeRobot을 설치하고, 데이터 세트 형식을 이해하고, 데모를 기록하고, ACT 정책을 교육하고, 체계적으로 평가하고, 데이터 플라이휠을 실행했습니다. 이것이 바로 전 세계 연구실 및 로봇 공학 스타트업에서 사용하는 것과 동일한 완전한 오픈 소스 로봇 학습 워크플로입니다.

질문? 가입하다 HuggingFace Discord #lerobot — 관리자와 커뮤니티는 적극적이고 환영합니다.