Configuração de Inferência para Dois Braços
A inferência bimanual executa uma única rede de política que produz ações para ambos os braços simultaneamente. O loop de observação-ação funciona a 50Hz — a mesma frequência dos seus dados de treinamento — com ambos os braços seguidores executando seus respectivos blocos de ação em sincronia.
Para a primeira execução de avaliação, permita que a política execute sem interrupção, a menos que uma colisão física seja iminente. Políticas bimanuals frequentemente produzem movimentos inesperados nos primeiros 1–2 episódios enquanto se adaptam ao ambiente real. Os episódios 3–10 são os dados de avaliação significativos. Observe se a política atinge consistentemente as mesmas fases da tarefa (aproximação, apreensão, transferência, colocação, retorno) mesmo quando falha no final — o sucesso parcial é uma informação diagnóstica.
Protocolo de Avaliação Bimanual
Use um protocolo estruturado. A avaliação informal — "parece que está funcionando" — é pouco confiável para políticas bimanuals porque sucessos parciais são muito mais comuns e podem mascarar uma transferência fundamentalmente quebrada.
| Item do Protocolo | Especificação Bimanual |
|---|---|
| Número de episódios | 10 no mínimo; 20 para resultados de alta confiança antes de adicionar mais dados |
| Posição inicial do cubo | Posição fixa, marcada com fita — mesma configuração de treinamento da Unidade 4 |
| Iluminação | Deve corresponder às condições de treinamento. Mesmo abrir uma janela pode alterar a iluminação o suficiente para afetar a câmera do espaço de trabalho |
| O que conta como sucesso total | O cubo começa do lado direito, termina do lado esquerdo, ambos os braços retornam à pose inicial, sem contato humano durante o episódio |
| O que conta como sucesso parcial | Apreensão correta alcançada, mas a transferência falha, ou a transferência é bem-sucedida, mas a colocação está fora do alvo. Registre isso separadamente. |
| Classificação de falhas | Registre: (A) falha de apreensão, (B) falha de transferência — queda de transferência de braço para braço, (C) falha de colocação, (D) tempo esgotado. A categoria de falha de transferência (B) é única para bimanual e mais informativa para melhorias. |
| Métrica de relatório | Taxa de sucesso total (episódios com todas as 4 fases corretas). Também relate a taxa de sucesso parcial. Exemplo: "4/10 total, 7/10 alcançou a fase de transferência". |
Modos Comuns de Falha Bimanual
Esses modos de falha são distintos das falhas de braço único e requerem correções específicas para bimanual:
- Os braços chegam ao ponto de entrega de forma assíncrona: Um braço alcança a posição de entrega e espera; o outro chega atrasado. A política não aprendeu o tempo relativo entre os braços. Correção: adicione 20 demonstrações onde ambos os braços pausam explicitamente no ponto de entrega por 1-2 segundos antes de completar a transferência. Isso torna o requisito de sincronização explícito nos dados.
- Queda na entrega — o cubo cai entre os dois braços: A falha específica mais comum em bimanual. O braço receptor fecha seu gripper muito cedo ou muito tarde em relação à liberação do braço que dá. Correção: colete 15 demonstrações de entrega em câmera lenta especificamente a 25% da velocidade. O tempo exagerado dá à política um sinal mais claro sobre a sequência de transição do estado do gripper.
- A política converge para uma estratégia de braço único: A política aprende a completar a tarefa com apenas um braço, ignorando as capacidades do outro braço. Isso acontece quando as demonstrações de um braço são mais consistentes do que as do outro. Correção: revise o erro de ação de cada braço a partir das curvas de treinamento (Unidade 5) e colete demonstrações adicionais especificamente direcionadas às fases do braço mais fraco.
- Colisão entre braços: Ambos os braços tentam ocupar o mesmo local de trabalho. Este é um evento de segurança — habilite a prevenção de colisões no servidor de hardware DK1 (
collision_avoidance: trueem dk1-config.yaml) durante a avaliação. Treinar em demonstrações que respeitam consistentemente a separação segura dos braços evitará a maioria das colisões; a proteção em nível de hardware lida com casos extremos. - Desincronização de fase na implementação: A política executa as ações corretas, mas não na ordem temporal certa — por exemplo, o braço direito coloca antes que o braço esquerdo tenha transferido. Isso é um artefato de agrupamento de ações onde os limites do agrupamento não se alinham com as transições de fase da tarefa. Correção: reduza
chunk_sizede 100 para 50 e re-treine.
O Flywheel de Dados para Melhoria Bimanual
O mesmo ciclo de melhoria que funciona para políticas de braço único funciona para bimanual — com uma adição específica para bimanual: sempre direcione o primeiro modo de falha na sequência da tarefa. A entrega (fase B) não pode ser melhorada se a apreensão (fase A) ainda for inconsistente. Corrija falhas na ordem da sequência da tarefa.
Avaliar
Execute 10 episódios. Classifique cada falha por fase (A/B/C/D)
Direcionar
Identifique a primeira fase de falha. Colete 20-30 demonstrações especificamente cobrindo essa fase
Retreinar
Adicione demonstrações direcionadas ao conjunto de dados. Retreine do zero ou ajuste o melhor ponto de verificação.
Avaliar
Execute 10 episódios novamente. A taxa de sucesso total melhorou? Passe para a próxima fase de falha.
O que vem a seguir
Você agora tem um pipeline de aprendizado bimanual funcionando. A transferência do cubo é a base — a mesma arquitetura se escala para tarefas significativamente mais complexas:
Unidade 6 Completa Quando...
Seu DK1 completa a tarefa de transferência do cubo de forma autônoma com uma taxa de sucesso total de pelo menos 6/10 em uma execução de avaliação estruturada. Você classificou todos os episódios de falha por fase (A/B/C/D) e identificou qual fase é responsável pela maioria das falhas. Você assistiu aos vídeos de falha e pode articular especificamente o que deu errado. Você entende o ciclo de dados bimanual o suficiente para planejar sua próxima iteração de melhoria.