Executando Inferência no Braço Real

A implantação significa executar seu ponto de verificação treinado em tempo real, alimentando observações de câmera e articulações ao vivo na rede e executando as ações de saída no braço físico. O script de inferência gerencia o loop de observação-ação a 50Hz.

source ~/openarm-env/bin/activate # Make sure ROS 2 is running (real hardware mode, from Unit 1) python -m lerobot.scripts.eval \ # Replace XXXXX with your best checkpoint step number from Unit 5 # --record-video saves each episode as an mp4 for review

Para a primeira execução de implantação, mantenha sua mão perto do E-stop físico. Uma política recém-implantada pode ocasionalmente fazer movimentos inesperados enquanto se adapta ao ambiente de hardware real. Isso é normal para os primeiros 2–3 episódios. Depois disso, o comportamento deve se estabilizar.

Para orientações abrangentes sobre implantação e produção, incluindo envelopes de segurança e temporizadores de vigilância, consulte o Guia de Produção OpenArm.

Metodologia de Avaliação

Não avalie sua política de forma informal. Use um protocolo estruturado — é a única maneira de saber se uma mudança que você faz (mais dados, ponto de verificação diferente, enquadramento de tarefa diferente) realmente melhorou o desempenho:

Item do Protocolo Especificação
Número de episódios por avaliação10 no mínimo, 20 para resultados de alta confiança
Posição inicial do objetoFixa. Use marcas de fita. Mesma posição em cada episódio.
Tipo de objetoMesmo objeto do treinamento. A iluminação deve corresponder às condições de treinamento.
O que conta como sucessoObjeto colocado a 3cm do alvo. O braço retorna à posição inicial. Sem intervenção humana durante o episódio.
Classificação de falhasRegistre o tipo de falha: pegada perdida / objeto solto / alvo errado / tempo esgotado. Isso lhe diz o que corrigir.
Métrica de relatórioTaxa de sucesso = episódios bem-sucedidos / total de episódios. Relatório com contagem de episódios (por exemplo, "7/10 = 70%").

O Ciclo de Dados: Como Melhorar

Uma política que tem sucesso 7 em 10 vezes é um bom começo — mas o caminho para 9 em 10 ou mais é através do ciclo de dados. Este é o loop central do aprendizado de robôs em produção:

1

Coletar

Registre demonstrações, incluindo casos de falha com os quais sua política atual tem dificuldades

2

Treinar

Re-treine (ou ajuste fino) em seu conjunto de dados expandido com as novas demonstrações adicionadas

3

Avaliar

Execute o protocolo de avaliação estruturada. A taxa de sucesso melhorou? Quais modos de falha permanecem?

4

Análise

Assista aos vídeos de falha. Identifique o estado específico onde a política falha. Colete dados direcionados lá.

A chave do ciclo: dados direcionados superam dados aleatóriosEm vez de gravar 50 demonstrações aleatórias a mais, assista aos seus vídeos de falha e identifique o momento exato em que as coisas dão errado. Registre 20 demonstrações que cobrem especificamente aquele estado difícil (por exemplo, a pegada na borda da área de trabalho, ou o objeto em um ângulo incomum). Sua taxa de sucesso melhorará mais rapidamente com 20 demonstrações direcionadas do que com 50 aleatórias.

Modos Comuns de Falha e Como Corrigi-los

  • O braço ultrapassa a posição de pegada: Os blocos de ação da política são muito grandes ou seus dados tinham alta variação de velocidade. Registre 10 demonstrações a mais em velocidade lenta perto do ponto de pegada. Ou reduza chunk_size de 100 para 50 na configuração de treinamento.
  • O braço tem sucesso com o objeto de treinamento, mas falha com objetos ligeiramente diferentes: Seus dados de treinamento careciam de diversidade na posição do objeto. Registre 20 demonstrações com o objeto em 5 posições diferentes dentro de um raio de 10 cm. Isso ensina a política a generalizar.
  • A política congela ou produz movimentos repetidos: O estilo variável do CVAE está colapsando. Isso geralmente significa que seu conjunto de dados tem muita variação — o modelo não consegue encontrar um estilo consistente. Verifique se há demonstrações mistas (diferentes operadores, diferentes enquadramentos de tarefa) e limpe seu conjunto de dados.

Unidade 6 Completa Quando...

Seu braço completa a tarefa de pegar e colocar de forma autônoma 7 em 10 vezes em uma execução de avaliação estruturada. Você assistiu aos 3 vídeos de falha e identificou o que deu errado. Você entende o ciclo de dados o suficiente para planejar sua próxima iteração de melhoria. Este é o fim do caminho estruturado — mas é o começo da sua prática de aprendizado de robôs.

Você conseguiu.

Você passou de desembalar um robô para treinar e implantar uma política de aprendizado por imitação real. Isso coloca você à frente de 99% das pessoas que já tocaram em um braço robótico. O que você construiu aqui — a configuração de teleoperação, o pipeline de dados, o fluxo de trabalho de treinamento — se escala para qualquer tarefa e qualquer hardware.

O que vem a seguir

Você tem a base. Aqui está para onde ir a partir daqui: