Executando Inferência no Braço Real
A implantação significa executar seu ponto de verificação treinado em tempo real, alimentando observações de câmera e articulações ao vivo na rede e executando as ações de saída no braço físico. O script de inferência gerencia o loop de observação-ação a 50Hz.
Para a primeira execução de implantação, mantenha sua mão perto do E-stop físico. Uma política recém-implantada pode ocasionalmente fazer movimentos inesperados enquanto se adapta ao ambiente de hardware real. Isso é normal para os primeiros 2–3 episódios. Depois disso, o comportamento deve se estabilizar.
Para orientações abrangentes sobre implantação e produção, incluindo envelopes de segurança e temporizadores de vigilância, consulte o Guia de Produção OpenArm.
Metodologia de Avaliação
Não avalie sua política de forma informal. Use um protocolo estruturado — é a única maneira de saber se uma mudança que você faz (mais dados, ponto de verificação diferente, enquadramento de tarefa diferente) realmente melhorou o desempenho:
| Item do Protocolo | Especificação |
|---|---|
| Número de episódios por avaliação | 10 no mínimo, 20 para resultados de alta confiança |
| Posição inicial do objeto | Fixa. Use marcas de fita. Mesma posição em cada episódio. |
| Tipo de objeto | Mesmo objeto do treinamento. A iluminação deve corresponder às condições de treinamento. |
| O que conta como sucesso | Objeto colocado a 3cm do alvo. O braço retorna à posição inicial. Sem intervenção humana durante o episódio. |
| Classificação de falhas | Registre o tipo de falha: pegada perdida / objeto solto / alvo errado / tempo esgotado. Isso lhe diz o que corrigir. |
| Métrica de relatório | Taxa de sucesso = episódios bem-sucedidos / total de episódios. Relatório com contagem de episódios (por exemplo, "7/10 = 70%"). |
O Ciclo de Dados: Como Melhorar
Uma política que tem sucesso 7 em 10 vezes é um bom começo — mas o caminho para 9 em 10 ou mais é através do ciclo de dados. Este é o loop central do aprendizado de robôs em produção:
Coletar
Registre demonstrações, incluindo casos de falha com os quais sua política atual tem dificuldades
Treinar
Re-treine (ou ajuste fino) em seu conjunto de dados expandido com as novas demonstrações adicionadas
Avaliar
Execute o protocolo de avaliação estruturada. A taxa de sucesso melhorou? Quais modos de falha permanecem?
Análise
Assista aos vídeos de falha. Identifique o estado específico onde a política falha. Colete dados direcionados lá.
A chave do ciclo: dados direcionados superam dados aleatóriosEm vez de gravar 50 demonstrações aleatórias a mais, assista aos seus vídeos de falha e identifique o momento exato em que as coisas dão errado. Registre 20 demonstrações que cobrem especificamente aquele estado difícil (por exemplo, a pegada na borda da área de trabalho, ou o objeto em um ângulo incomum). Sua taxa de sucesso melhorará mais rapidamente com 20 demonstrações direcionadas do que com 50 aleatórias.
Modos Comuns de Falha e Como Corrigi-los
- O braço ultrapassa a posição de pegada: Os blocos de ação da política são muito grandes ou seus dados tinham alta variação de velocidade. Registre 10 demonstrações a mais em velocidade lenta perto do ponto de pegada. Ou reduza
chunk_sizede 100 para 50 na configuração de treinamento. - O braço tem sucesso com o objeto de treinamento, mas falha com objetos ligeiramente diferentes: Seus dados de treinamento careciam de diversidade na posição do objeto. Registre 20 demonstrações com o objeto em 5 posições diferentes dentro de um raio de 10 cm. Isso ensina a política a generalizar.
- A política congela ou produz movimentos repetidos: O estilo variável do CVAE está colapsando. Isso geralmente significa que seu conjunto de dados tem muita variação — o modelo não consegue encontrar um estilo consistente. Verifique se há demonstrações mistas (diferentes operadores, diferentes enquadramentos de tarefa) e limpe seu conjunto de dados.
Unidade 6 Completa Quando...
Seu braço completa a tarefa de pegar e colocar de forma autônoma 7 em 10 vezes em uma execução de avaliação estruturada. Você assistiu aos 3 vídeos de falha e identificou o que deu errado. Você entende o ciclo de dados o suficiente para planejar sua próxima iteração de melhoria. Este é o fim do caminho estruturado — mas é o começo da sua prática de aprendizado de robôs.
O que vem a seguir
Você tem a base. Aqui está para onde ir a partir daqui: