Unidade 6: Implantar e Melhorar — Caminho de Aprendizado OpenArm

Executando Inferência no Braço Real

A implantação significa executar seu ponto de verificação treinado em tempo real, alimentando observações de câmera e articulações ao vivo na rede e executando as ações de saída no braço físico. O script de inferência gerencia o loop de observação-ação a 50Hz.

source ~/openarm-env/bin/activate

# Make sure ROS 2 is running (real hardware mode, from Unit 1)

python -m lerobot.scripts.eval \

# Replace XXXXX with your best checkpoint step number from Unit 5
# --record-video saves each episode as an mp4 for review

Para a primeira execução de implantação, mantenha sua mão perto do E-stop físico. Uma política recém-implantada pode ocasionalmente fazer movimentos inesperados enquanto se adapta ao ambiente de hardware real. Isso é normal para os primeiros 2–3 episódios. Depois disso, o comportamento deve se estabilizar.

Para orientações abrangentes sobre implantação e produção, incluindo envelopes de segurança e temporizadores de vigilância, consulte o Guia de Produção OpenArm.

Metodologia de Avaliação

Não avalie sua política de forma informal. Use um protocolo estruturado — é a única maneira de saber se uma mudança que você faz (mais dados, ponto de verificação diferente, enquadramento de tarefa diferente) realmente melhorou o desempenho:

Item do Protocolo	Especificação
Número de episódios por avaliação	10 no mínimo, 20 para resultados de alta confiança
Posição inicial do objeto	Fixa. Use marcas de fita. Mesma posição em cada episódio.
Tipo de objeto	Mesmo objeto do treinamento. A iluminação deve corresponder às condições de treinamento.
O que conta como sucesso	Objeto colocado a 3cm do alvo. O braço retorna à posição inicial. Sem intervenção humana durante o episódio.
Classificação de falhas	Registre o tipo de falha: pegada perdida / objeto solto / alvo errado / tempo esgotado. Isso lhe diz o que corrigir.
Métrica de relatório	Taxa de sucesso = episódios bem-sucedidos / total de episódios. Relatório com contagem de episódios (por exemplo, "7/10 = 70%").

O Ciclo de Dados: Como Melhorar

Uma política que tem sucesso 7 em 10 vezes é um bom começo — mas o caminho para 9 em 10 ou mais é através do ciclo de dados. Este é o loop central do aprendizado de robôs em produção:

Coletar

Registre demonstrações, incluindo casos de falha com os quais sua política atual tem dificuldades

Treinar

Re-treine (ou ajuste fino) em seu conjunto de dados expandido com as novas demonstrações adicionadas

Avaliar

Execute o protocolo de avaliação estruturada. A taxa de sucesso melhorou? Quais modos de falha permanecem?

Análise

Assista aos vídeos de falha. Identifique o estado específico onde a política falha. Colete dados direcionados lá.

A chave do ciclo: dados direcionados superam dados aleatóriosEm vez de gravar 50 demonstrações aleatórias a mais, assista aos seus vídeos de falha e identifique o momento exato em que as coisas dão errado. Registre 20 demonstrações que cobrem especificamente aquele estado difícil (por exemplo, a pegada na borda da área de trabalho, ou o objeto em um ângulo incomum). Sua taxa de sucesso melhorará mais rapidamente com 20 demonstrações direcionadas do que com 50 aleatórias.

Modos Comuns de Falha e Como Corrigi-los

O braço ultrapassa a posição de pegada: Os blocos de ação da política são muito grandes ou seus dados tinham alta variação de velocidade. Registre 10 demonstrações a mais em velocidade lenta perto do ponto de pegada. Ou reduza chunk_size de 100 para 50 na configuração de treinamento.
O braço tem sucesso com o objeto de treinamento, mas falha com objetos ligeiramente diferentes: Seus dados de treinamento careciam de diversidade na posição do objeto. Registre 20 demonstrações com o objeto em 5 posições diferentes dentro de um raio de 10 cm. Isso ensina a política a generalizar.
A política congela ou produz movimentos repetidos: O estilo variável do CVAE está colapsando. Isso geralmente significa que seu conjunto de dados tem muita variação — o modelo não consegue encontrar um estilo consistente. Verifique se há demonstrações mistas (diferentes operadores, diferentes enquadramentos de tarefa) e limpe seu conjunto de dados.

Unidade 6 Completa Quando...

Seu braço completa a tarefa de pegar e colocar de forma autônoma 7 em 10 vezes em uma execução de avaliação estruturada. Você assistiu aos 3 vídeos de falha e identificou o que deu errado. Você entende o ciclo de dados o suficiente para planejar sua próxima iteração de melhoria. Este é o fim do caminho estruturado — mas é o começo da sua prática de aprendizado de robôs.

O que vem a seguir

Você tem a base. Aqui está para onde ir a partir daqui:

Implemente e Melhore

Executando Inferência no Braço Real

Metodologia de Avaliação

O Ciclo de Dados: Como Melhorar

Coletar

Treinar

Avaliar

Análise

Modos Comuns de Falha e Como Corrigi-los

Unidade 6 Completa Quando...

Você conseguiu.

O que vem a seguir

Guia de Produção OpenArm

Aprofunde-se: Política de Difusão

Kit Bimanual DK1

Compartilhe Seus Resultados