Avaliação de Simulação

Sempre avalie primeiro em simulação, mesmo que você tenha um robô real. A avaliação em simulação é rápida, segura e fornece um número base reproduzível que você pode comparar após o re-treinamento.

source ~/lerobot-env/bin/activate # Evaluate your best checkpoint (replace step_050000 with your checkpoint step) python -m lerobot.scripts.eval \ # Outputs: success_rate, mean_reward, episode_videos/
O que esperar: Uma política bem treinada em 50 demonstrações de simulação deve alcançar uma taxa de sucesso de 60–85% no MuJoCo. Abaixo de 40% sugere um problema de qualidade do conjunto de dados. Acima de 85% significa que a tarefa é muito fácil ou o ambiente de simulação é muito permissivo — tente uma variante mais difícil.

Lista de Verificação de Segurança para Robôs Reais

Se você estiver avaliando em um robô real, passe por esta lista de verificação antes do seu primeiro teste. Uma política não testada pode se mover de maneiras inesperadas.

  • Limpe o espaço de trabalho de quaisquer objetos que não façam parte da tarefa. A política aprendeu a agir em um contexto visual específico — objetos inesperados podem causar comportamentos erráticos.
  • Fique no botão de parada de emergência (E-stop) ou esteja pronto para pressionar Ctrl+C durante toda a sessão de avaliação. Não se afaste de uma política em execução.
  • Comece com a velocidade limitada a 50% do máximo. Reduza para 30% se o primeiro teste parecer tremido ou impreciso.
  • Posicione os objetos para corresponder exatamente à configuração do seu espaço de trabalho de treinamento. Use o mesmo ângulo de câmera, mesma iluminação, mesmas cores de objetos. A mudança de distribuição é a causa mais comum de taxa de sucesso zero no mundo real.
  • Nunca avalie acima dos limites físicos de parada das articulações do seu robô. Verifique isso na configuração do seu robô antes da primeira execução.

Protocolo de Avaliação de Robô Real

Realize exatamente 20 testes. Isso lhe dará amostras suficientes para uma estimativa confiável da taxa de sucesso (±10% no nível de confiança de 95%). Grave cada teste em vídeo — você precisará das filmagens para diagnosticar modos de falha.

# Run the policy on your real robot python -m lerobot.scripts.control_robot \

Após cada teste, classifique manualmente: 1 para sucesso completo da tarefa, 0 para qualquer falha (agarramentos parciais, quedas, erros). Sua taxa de sucesso é a soma dividida por 20.

Diagnóstico de Modos de Falha

Assista suas gravações em vídeo e categorize as falhas. A maioria das falhas se enquadra em uma das três categorias:

Qualidade dos dados

Trajetória de abordagem inconsistente — o braço nunca se compromete totalmente com o agarramento

A política está fazendo uma média entre várias estratégias de agarramento nos seus dados de treinamento. Isso acontece quando algumas demonstrações se aproximam pela esquerda e outras pela direita, ou quando o tempo de fechamento do gripper é inconsistente. Solução: regrave com uma única estratégia deliberada em todas as demonstrações.

Capacidade do modelo

A trajetória parece razoável, mas a precisão está errada em 1–2 cm consistentemente.

O modelo está aprendendo o comportamento correto, mas falta capacidade para ser preciso. Isso acontece quando o chunk_size é muito curto (não há horizonte de planejamento suficiente) ou quando dim_feedforward é muito pequeno. Solução: aumente o chunk_size para 150, re-treine. Ou adicione mais demonstrações diversas para regularizar a rede.

Mudança de distribuição

Funciona perfeitamente em algumas posições, falha completamente em outras.

As posições dos objetos durante a avaliação estão fora da distribuição dos seus dados de treinamento. A política não viu essas posições antes. Solução: colete mais demonstrações com posições de objetos mais diversas, ou restrinja sua avaliação a posições que estão bem representadas nos seus dados de treinamento.

Unidade 5 Completa Quando...

Você executou 20 testes de avaliação (em simulação ou no seu robô real) e mediu uma taxa de sucesso. Você assistiu a todos os vídeos de modos de falha e identificou se a falha principal é qualidade dos dados, capacidade do modelo ou mudança de distribuição. Você tem esse diagnóstico anotado — você usará isso para guiar sua coleta de dados na Unidade 6.