Unidade 6: Execute e Melhore Sua Política Bimanual — Caminho de Aprendizado DK1

Configuração de Inferência para Dois Braços

A inferência bimanual executa uma única rede de política que produz ações para ambos os braços simultaneamente. O loop de observação-ação funciona a 50Hz — a mesma frequência dos seus dados de treinamento — com ambos os braços seguidores executando seus respectivos blocos de ação em sincronia.

source ~/dk1-env/bin/activate

# Keep your hand near the E-stop for the first 3 evaluation episodes

python -m lerobot.scripts.eval \

# Replace XXXXX with your best checkpoint step (from Unit 5 loss curve analysis)
# --record-video saves both arm views as separate mp4 files for failure analysis

Para a primeira execução de avaliação, permita que a política execute sem interrupção, a menos que uma colisão física seja iminente. Políticas bimanuals frequentemente produzem movimentos inesperados nos primeiros 1–2 episódios enquanto se adaptam ao ambiente real. Os episódios 3–10 são os dados de avaliação significativos. Observe se a política atinge consistentemente as mesmas fases da tarefa (aproximação, apreensão, transferência, colocação, retorno) mesmo quando falha no final — o sucesso parcial é uma informação diagnóstica.

Protocolo de Avaliação Bimanual

Use um protocolo estruturado. A avaliação informal — "parece que está funcionando" — é pouco confiável para políticas bimanuals porque sucessos parciais são muito mais comuns e podem mascarar uma transferência fundamentalmente quebrada.

Item do Protocolo	Especificação Bimanual
Número de episódios	10 no mínimo; 20 para resultados de alta confiança antes de adicionar mais dados
Posição inicial do cubo	Posição fixa, marcada com fita — mesma configuração de treinamento da Unidade 4
Iluminação	Deve corresponder às condições de treinamento. Mesmo abrir uma janela pode alterar a iluminação o suficiente para afetar a câmera do espaço de trabalho
O que conta como sucesso total	O cubo começa do lado direito, termina do lado esquerdo, ambos os braços retornam à pose inicial, sem contato humano durante o episódio
O que conta como sucesso parcial	Apreensão correta alcançada, mas a transferência falha, ou a transferência é bem-sucedida, mas a colocação está fora do alvo. Registre isso separadamente.
Classificação de falhas	Registre: (A) falha de apreensão, (B) falha de transferência — queda de transferência de braço para braço, (C) falha de colocação, (D) tempo esgotado. A categoria de falha de transferência (B) é única para bimanual e mais informativa para melhorias.
Métrica de relatório	Taxa de sucesso total (episódios com todas as 4 fases corretas). Também relate a taxa de sucesso parcial. Exemplo: "4/10 total, 7/10 alcançou a fase de transferência".

Modos Comuns de Falha Bimanual

Esses modos de falha são distintos das falhas de braço único e requerem correções específicas para bimanual:

Os braços chegam ao ponto de entrega de forma assíncrona: Um braço alcança a posição de entrega e espera; o outro chega atrasado. A política não aprendeu o tempo relativo entre os braços. Correção: adicione 20 demonstrações onde ambos os braços pausam explicitamente no ponto de entrega por 1-2 segundos antes de completar a transferência. Isso torna o requisito de sincronização explícito nos dados.
Queda na entrega — o cubo cai entre os dois braços: A falha específica mais comum em bimanual. O braço receptor fecha seu gripper muito cedo ou muito tarde em relação à liberação do braço que dá. Correção: colete 15 demonstrações de entrega em câmera lenta especificamente a 25% da velocidade. O tempo exagerado dá à política um sinal mais claro sobre a sequência de transição do estado do gripper.
A política converge para uma estratégia de braço único: A política aprende a completar a tarefa com apenas um braço, ignorando as capacidades do outro braço. Isso acontece quando as demonstrações de um braço são mais consistentes do que as do outro. Correção: revise o erro de ação de cada braço a partir das curvas de treinamento (Unidade 5) e colete demonstrações adicionais especificamente direcionadas às fases do braço mais fraco.
Colisão entre braços: Ambos os braços tentam ocupar o mesmo local de trabalho. Este é um evento de segurança — habilite a prevenção de colisões no servidor de hardware DK1 (collision_avoidance: true em dk1-config.yaml) durante a avaliação. Treinar em demonstrações que respeitam consistentemente a separação segura dos braços evitará a maioria das colisões; a proteção em nível de hardware lida com casos extremos.
Desincronização de fase na implementação: A política executa as ações corretas, mas não na ordem temporal certa — por exemplo, o braço direito coloca antes que o braço esquerdo tenha transferido. Isso é um artefato de agrupamento de ações onde os limites do agrupamento não se alinham com as transições de fase da tarefa. Correção: reduza chunk_size de 100 para 50 e re-treine.

O Flywheel de Dados para Melhoria Bimanual

O mesmo ciclo de melhoria que funciona para políticas de braço único funciona para bimanual — com uma adição específica para bimanual: sempre direcione o primeiro modo de falha na sequência da tarefa. A entrega (fase B) não pode ser melhorada se a apreensão (fase A) ainda for inconsistente. Corrija falhas na ordem da sequência da tarefa.

Avaliar

Execute 10 episódios. Classifique cada falha por fase (A/B/C/D)

Direcionar

Identifique a primeira fase de falha. Colete 20-30 demonstrações especificamente cobrindo essa fase

Retreinar

Adicione demonstrações direcionadas ao conjunto de dados. Retreine do zero ou ajuste o melhor ponto de verificação.

Avaliar

Execute 10 episódios novamente. A taxa de sucesso total melhorou? Passe para a próxima fase de falha.

O que vem a seguir

Você agora tem um pipeline de aprendizado bimanual funcionando. A transferência do cubo é a base — a mesma arquitetura se escala para tarefas significativamente mais complexas:

Teleoperação de Velocidade Variável

Teleoperação adaptativa à velocidade para tarefas ricas em contato onde o feedback de força altera a velocidade de movimento ideal.

Adicione Mãos Hábil

Combine os braços DK1 com a Mão Orca para destreza em nível de dedo em tarefas que exigem manipulação precisa na mão.

Escale Seu Conjunto de Dados

Técnicas para escalar a coleta de dados bimanual entre operadores, tarefas e configurações de hardware.

Compartilhe Seus Resultados

Publique sua taxa de sucesso, conjunto de dados e política no fórum DK1. Os resultados bimanual são alguns dos mais valiosos que a comunidade coleta.

Unidade 6 Completa Quando...

Seu DK1 completa a tarefa de transferência do cubo de forma autônoma com uma taxa de sucesso total de pelo menos 6/10 em uma execução de avaliação estruturada. Você classificou todos os episódios de falha por fase (A/B/C/D) e identificou qual fase é responsável pela maioria das falhas. Você assistiu aos vídeos de falha e pode articular especificamente o que deu errado. Você entende o ciclo de dados bimanual o suficiente para planejar sua próxima iteração de melhoria.

Você construiu um sistema de aprendizado de robô bimanual funcional.

Você configurou uma arquitetura de líder/seguidor, coletou demonstrações sincronizadas de dois braços, treinou uma política coordenada do zero e a implantou em hardware real. A manipulação bimanual neste nível é onde os laboratórios de pesquisa operam. A base que você construiu aqui se escala para montagem, culinária e tarefas ricas em contato que estavam fora de alcance antes de você começar este caminho.

Executar e Melhorar Sua Política Bimanual

Configuração de Inferência para Dois Braços

Protocolo de Avaliação Bimanual

Modos Comuns de Falha Bimanual

O Flywheel de Dados para Melhoria Bimanual

Avaliar

Direcionar

Retreinar

Avaliar

O que vem a seguir

Teleoperação de Velocidade Variável

Adicione Mãos Hábil

Escale Seu Conjunto de Dados

Compartilhe Seus Resultados

Unidade 6 Completa Quando...

Você construiu um sistema de aprendizado de robô bimanual funcional.