단원 4: 동기화된 양손 시연 기록 — DK1 학습 경로

양방향 데이터 수집이 더 어려운 이유

단일 팔 데이터 수집에서 잘못된 시연은 한쪽 팔의 궤적에만 영향을 미칩니다. 50개의 데모를 기록하고 5개의 잘못된 데모를 삭제하고 45개의 데모를 훈련합니다. 이중 수동 데이터 수집에서 핸드오프 지점의 실수는 무효화됩니다. 둘 다 해당 데모에 대한 무기의 궤적을 동시에 보여줍니다. 실패 모드는 결합되어 있습니다.

이 결합에는 두 가지 실질적인 의미가 있습니다. 첫째, 양손 작업은 분산이 더 크고 조정 구조를 학습하려면 정책에 더 많은 예가 필요하기 때문에 더 많은 데모(50개 대신 100개)가 필요합니다. 둘째, 데모마다 더 엄격한 일관성이 필요합니다. 80% 일관성이 있는 단일 암 데모는 합리적으로 잘 훈련됩니다. 한쪽 팔은 일관되고 다른 쪽 팔은 변하는 이중 수동 데모는 조정 타이밍에 대해 정책에 아무런 도움이 되지 않는다는 것을 가르칩니다.

작업 공간 범위 문제도 더 큽니다. 프레임에 두 팔이 모두 필요하고 가장 복잡한 순간인 핸드오프 지점을 하나 이상의 카메라로 안정적으로 캡처해야 합니다. 시작하기 전에 카메라 각도를 확인하고 작업 공간 카메라의 시야 밖에서 핸드오프가 발생하는 경우 조정하십시오.

LeRobot Bimanual 데이터 세트 형식

LeRobot과의 DK1 통합은 이중 관절 상태 어레이로 표준 단일 암 형식을 확장합니다. 데이터 세트의 각 시간 단계에는 다음이 포함됩니다.

# Bimanual dataset observation keys per timestep:
관찰.조인트_상태.왼쪽    # shape: (6,) — left follower joint angles in radians
관찰.joint_states.right   # shape: (6,) — right follower joint angles in radians
관찰.그리퍼.왼쪽         # shape: (1,) — left gripper position [0=open, 1=closed]
관찰.그리퍼.오른쪽        # shape: (1,) — right gripper position
관찰.이미지.작업공간     # shape: (H, W, 3) — workspace overhead/front camera
관찰.이미지.손목         # shape: (H, W, 3) — primary wrist camera

action.joint_states.left         # shape: (6,) — target left joint angles
action.joint_states.right        # shape: (6,) — target right joint angles
액션.그리퍼.왼쪽              # shape: (1,)
액션.그리퍼.오른쪽             # shape: (1,)

단일 암과의 주요 차이점: 작업 공간은 14차원입니다(6+6개 관절 + 2개 그리퍼). ACT는 이를 기본적으로 처리합니다. 교육 구성에서 작업 차원을 지정하면 다른 변경이 필요하지 않습니다.

녹음 작업 흐름

소스 ~/dk1-env/bin/활성화

# Start a recording session — 100 episodes for the cube handoff task
python -m lerobot.scripts.record \ --robot-path ~/dk1-config.yaml \ --로봇 유형 dk1_bimanual \ --fps 50 \ --root ~/dk1-datasets \ --repo-id 큐브-핸드오프-v1 \ --num-episodes 100 \ --준비 시간-초 3 \ --에피소드 시간-s 30 \ --재설정 시간-s 5

# --warmup-time-s: time after pressing record before capture starts (use this to position the cube)
# --episode-time-s: max demo length — cube handoff should complete in under 20s; 30s gives buffer
# --reset-time-s: time between episodes to return arms to home and reposition the cube

녹음 세션을 시작하기 전에 10~15개의 연습 데모를 실행하여 작업에 대한 모터 메모리를 준비하세요. 처음 5~10개의 녹음된 데모는 최악의 데모가 될 것입니다. 예상대로입니다. 세션 중에 멈추지 말고 검토해 보세요. 100개 전체가 녹음된 후 잘못된 데모를 검토하고 선별합니다.

양방향 데이터에 대한 품질 체크리스트

LeRobot의 재생 뷰어를 사용하여 녹화 후 모든 데모를 검토하세요. 다음 기준 중 두 가지 이상을 충족하지 못하는 데모는 폐기합니다.

⇄

핸드오프 시 암 동기화 두 팔은 동시에 의도한 핸드오프 지점에서 3cm 이내에 있어야 합니다. 한쪽 팔이 다른 쪽 팔을 기다리는 비동기 핸드오프는 정책이 일시 중지되도록 가르치므로 전송이 제대로 이루어지지 않습니다.

⊞

일관된 시작 위치 큐브는 모든 데모에서 동일한 위치의 2cm 이내에서 시작해야 합니다. 단원 1의 테이프 표시를 사용합니다. 시작 위치의 차이로 인해 정책은 핵심 작업을 학습하기 전에 일반화됩니다.

✦

깔끔하게 쥐기 - 두 팔 각 팔은 다음 단계로 이동하기 전에 안정적인 그립을 달성해야 합니다. 전송 중에 파악이 미끄러지면 정책이 안정적으로 복제할 수 없는 궤도가 생성됩니다.

⌂

홈 포즈 리턴 각 시연이 끝날 때 두 팔은 모두 홈 자세로 깔끔하게 돌아와야 합니다. 모션 중간에 종료되는 데모는 에피소드 경계가 모호한 데이터세트를 생성합니다.

◎

작업 공간 카메라 범위 핸드오프 순간은 작업 공간 카메라 프레임에 표시되어야 합니다. 로봇 본체가 시야를 가리는 경우 계속하기 전에 카메라 각도를 조정하십시오.

⏱

일관된 타이밍 에피소드 길이는 데모 전반에 걸쳐 ±5초 이내로 달라야 합니다. 타이밍 차이가 크면 실행이 일관되지 않음을 나타내며 작업 공간 엔트로피가 높은 데이터세트를 생성합니다.

대상 데이터세트 크기: 100개의 데모는 양손 ACT 교육에 권장되는 최소값입니다. 연구 결과에 따르면 양손 작업에는 관절 조정 구조가 더 복잡하고 작업 공간이 더 크기 때문에 비교 가능한 단일 팔 작업에 비해 대략 2배의 데이터가 필요합니다. 단원 5에서 교육한 후 성공률이 40% 미만인 경우 다른 50개의 대상 데모를 수집하는 것이 가장 먼저 시도됩니다.

단원 4 완료 시기...

LeRobot 형식으로 녹음된 시연이 100개 있습니다. ~/dk1-datasets/cube-handoff-v1/. 검토 및 선별 후 최소 90개의 데모가 품질 체크리스트를 통과했습니다. 두 조인트 상태 어레이는 모든 에피소드에 대해 50Hz로 존재합니다. 두 카메라 피드가 모두 존재하며 핸드오프 순간을 포함한 전체 작업 순서를 보여줍니다. 당신은 달렸다 python -m lerobot.scripts.visualize_dataset --repo-id cube-handoff-v1 데이터 세트 구조가 유효한지 확인했습니다.