단원 6: 배포 및 개선 - OpenArm 학습 경로

실제 팔에 대한 추론 실행

배포란 학습된 체크포인트를 실시간으로 실행하고, 실시간 카메라와 공동 관찰을 네트워크에 제공하고, 실제 팔에서 출력 작업을 실행하는 것을 의미합니다. 추론 스크립트는 50Hz에서 관찰-작업 루프를 처리합니다.

소스 ~/openarm-env/bin/activate

# Make sure ROS 2 is running (real hardware mode, from Unit 1)

python -m lerobot.scripts.eval \ --policy-checkpoint ~/openarm-policies/pick-and-place-v1/checkpoint_XXXXX \ --device cuda \ --num-eval-episodes 10 \ --녹화-비디오 \ --output-dir ~/openarm-evals/v1

# Replace XXXXX with your best checkpoint step number from Unit 5
# --record-video saves each episode as an mp4 for review

첫 번째 배포 실행의 경우 손을 물리적 E-stop 근처에 두십시오. 새로 배포된 정책은 실제 하드웨어 환경에 적응하는 동안 때때로 예상치 못한 움직임을 보일 수 있습니다. 이는 처음 2~3개의 에피소드에서는 정상적인 현상입니다. 그 후에는 행동이 안정되어야 합니다.

안전 범위 및 감시 타이머를 포함한 포괄적인 배포 및 생산 지침은 다음을 참조하세요. OpenArm 생산 가이드.

평가 방법론

귀하의 정책을 비공식적으로 평가하지 마십시오. 구조화된 프로토콜을 사용하십시오. 이는 변경(더 많은 데이터, 다른 체크포인트, 다른 작업 프레이밍)이 실제로 성능을 향상시켰는지 알 수 있는 유일한 방법입니다.

프로토콜 항목	사양
평가당 에피소드 수	최소 10개, 신뢰도가 높은 결과의 경우 20개
개체 시작 위치	결정된. 테이프 표시를 사용하십시오. 매 회마다 같은 입장.
객체 유형	훈련과 동일한 개체입니다. 조명은 훈련 조건과 일치해야 합니다.
성공으로 간주되는 것	대상으로부터 3cm 이내에 물체가 놓여 있습니다. 팔이 집으로 돌아왔습니다. 에피소드 중에는 인간의 개입이 없습니다.
고장 분류	로그 실패 유형: 파악 실패/객체 떨어짐/잘못된 대상/시간 초과. 이는 무엇을 고쳐야 할지 알려줍니다.
보고서 측정항목	성공률 = 성공한 에피소드 수 / 총 에피소드 수. 에피소드 수를 보고합니다(예: "7/10 = 70%").

데이터 플라이휠: 개선 방법

7/10번 성공하는 정책은 좋은 시작이지만 9/10 이상으로 가는 길은 데이터 플라이휠을 통하는 것입니다. 이는 프로덕션에서 로봇 학습의 핵심 루프입니다.

모으다

현재 정책에서 어려움을 겪고 있는 실패 사례를 포함하여 데모를 기록하세요.

기차

새로운 데모가 추가되어 확장된 데이터 세트를 재교육(또는 미세 조정)하세요.

평가하다

구조화된 평가 프로토콜을 실행합니다. 성공률이 좋아졌나요? 어떤 실패 모드가 남아 있습니까?

분석하다

실패 영상을 시청해보세요. 정책이 무너지는 구체적인 상태를 식별합니다. 그곳에서 타겟 데이터를 수집하세요.

플라이휠의 주요 통찰력: 타겟 데이터가 무작위 데이터를 능가함. 50번의 무작위 시연을 더 녹화하는 대신 실패 동영상을 시청하고 문제가 발생하는 정확한 순간을 파악하세요. 특히 어려운 상태(예: 작업 공간 가장자리를 잡는 동작, 특이한 각도의 물체를 잡는 동작)를 다루는 20개의 시연을 기록하세요. 50개의 무작위 데모보다 20개의 타겟 데모를 사용하면 성공률이 더 빠르게 향상됩니다.

일반적인 실패 모드 및 해결 방법

팔이 파악 위치를 초과합니다. 정책의 작업 청크가 너무 크거나 데이터의 속도 변화가 높습니다. 파악 지점 근처에서 느린 속도로 10번의 데모를 더 녹음하세요. 아니면 줄이세요 chunk_size 훈련 구성에서는 100에서 50까지입니다.
Arm은 훈련 개체에서는 성공했지만 약간 다른 개체에서는 실패했습니다. 훈련 데이터에 물체 위치 다양성이 부족했습니다. 반경 10cm 내 5가지 다른 위치에서 물체를 사용하여 20번의 데모를 기록하세요. 이것은 일반화하는 정책을 가르친다.
정책이 정지되거나 반복 동작을 생성합니다. CVAE 스타일 변수가 축소되었습니다. 이는 종종 데이터세트에 변동이 너무 많다는 것을 의미합니다. 즉, 모델이 일관된 스타일을 찾을 수 없습니다. 혼합된 데모(다른 연산자, 다른 작업 프레이밍)를 확인하고 데이터세트를 정리하세요.

단원 6 완료 시기...

팔은 구조화된 평가 실행에서 10번 중 7번 선택 및 배치 작업을 자동으로 완료합니다. 3개의 실패 동영상을 시청하고 무엇이 잘못되었는지 확인했습니다. 다음 개선 반복을 계획할 수 있을 만큼 데이터 플라이휠을 잘 이해하고 있습니다. 이것이 구조화된 경로의 끝이지만 로봇 학습 실습의 시작입니다.

다음은 무엇입니까

당신은 기초를 가지고 있습니다. 여기에서 갈 곳은 다음과 같습니다.

배포 및 개선

실제 팔에 대한 추론 실행

평가 방법론

데이터 플라이휠: 개선 방법

모으다

기차

평가하다

분석하다

일반적인 실패 모드 및 해결 방법

단원 6 완료 시기...

당신이 해냈습니다.

다음은 무엇입니까

OpenArm 생산 가이드

더 자세히 알아보기: 확산 정책

DK1 바이매뉴얼 키트

결과 공유