Unidade 5: Treine sua Primeira Política — Caminho de Aprendizado OpenArm

O que a Aprendizagem por Imit ação Realmente Faz

Antes de executar o comando de treinamento, reserve dois minutos para entender o que o modelo está realmente aprendendo. A aprendizagem por imitação treina uma rede de políticas para mapear observações (imagens da câmera + estado atual da junta) para ações (próximos ângulos das juntas). A rede nunca recebe um sinal de recompensa — ela apenas vê suas demonstrações e aprende a reproduzir a distribuição de ações que você realizou em estados semelhantes.

ACT (Divisão de Ação com Transformers) prevê um bloco de 100 ações futuras de uma vez em vez de um único passo. Isso previne a acumulação de erros ao longo do episódio: mesmo que uma previsão individual esteja ligeiramente errada, o bloco fornece um buffer de trajetória estável. Ele então replaneja a cada 100 passos de tempo (2 segundos a 50Hz). É por isso que o ACT lida melhor com tarefas mais longas do que a clonagem de comportamento simples.

Para o contexto teórico completo, leia Fundamentos da Aprendizagem por Imitação na Biblioteca de Robótica.

GPU ou CPU?

O treinamento em uma GPU NVIDIA com 8GB+ de VRAM leva aproximadamente 45 minutos para 100k passos. O treinamento em CPU leva de 3 a 4 horas para a mesma execução. Ambos produzem qualidade de modelo equivalente — a GPU é apenas mais rápida. Se você não tiver uma GPU local, o comando de treinamento funciona de forma idêntica em uma instância na nuvem (Lambda Labs ou Google Colab com runtime A100). As instruções estão no README do repositório LeRobot.

Treine o ACT em seu Conjunto de Dados

Execute o script de treinamento do seu ambiente virtual. Os valores de configuração abaixo estão calibrados para conjuntos de dados de pick-and-place de 50 episódios no OpenArm — não os altere para sua primeira execução:

source ~/openarm-env/bin/activate

# Training will print loss every 500 steps and eval results every 5000 steps
# Checkpoints saved every 10k steps to ~/openarm-policies/pick-and-place-v1/

Comece o treinamento, depois monitore a saída. Você não precisa assisti-lo o tempo todo — mas verifique a cada 20–30 minutos para confirmar que a perda está diminuindo e que a execução não travou. O treinamento pode rodar durante a noite enquanto você dorme.

Compreendendo as Curvas de Treinamento

A saída de treinamento do ACT mostra duas métricas principais. Aprenda a lê-las corretamente — elas informam se seu treinamento está saudável e quando parar.

Perda de Treinamento

Deve diminuir acentuadamente nos primeiros 20k passos, depois continuar diminuindo mais lentamente. Uma perda que se estabiliza acima de 0,05 geralmente indica problemas de qualidade de dados — verifique seu conjunto de dados. Uma perda que oscila amplamente sugere que sua taxa de aprendizado está muito alta.

Taxa de Sucesso de Avaliação

Aparece a cada 5k passos (requer um braço físico ou simulação). Este é o número que realmente importa. Você quer que isso esteja acima de 70% antes de implantar. Muitas vezes, isso fica atrás da perda de treinamento — a perda pode parecer boa enquanto a taxa de sucesso ainda está melhorando.

MSE de Ação

Erro quadrático médio entre ações previstas e ações reais. Deve cair abaixo de 0,01 para uma política de pick-and-place bem treinada. Um MSE de ação alto após 80k passos significa que o modelo está lutando com a complexidade da tarefa ou seus dados são inconsistentes.

Divergência KL (específica do ACT)

O ACT usa um CVAE com um peso KL que é reduzido de 0 a 10 durante o treinamento. Fique atento a isso estabilizando em torno do passo 40k. Se nunca convergir, o modelo está falhando em codificar o estilo — tente adicionar mais dados.

Quando Parar de Treinar

Não simplesmente corra para 100k passos e pare. Use esses sinais para decidir quando seu ponto de verificação está pronto para implantação:

A taxa de sucesso da avaliação se estabilizou por 3 avaliações consecutivas — o modelo convergiu. Mais treinamento não ajudará sem mais ou diferentes dados.
A taxa de sucesso da avaliação está acima de 70% — este é o limite para a implantação da Unidade 6. Se você atingir 70% em 60k passos, pode parar mais cedo e implantar esse ponto de verificação.
A perda de treinamento ainda está diminuindo, mas a avaliação está estável ou em declínio — o modelo está superajustando. Pegue o último ponto de verificação onde a avaliação estava no seu pico. Este é o melhor ponto de verificação.
Após 100k passos — se a taxa de sucesso estiver abaixo de 40%, volte para a Unidade 4. O problema de dados é mais provável do que um problema de treinamento neste ponto.

Mergulhos Opcionais

Além do ACT — Política de Difusão e π₀

Uma vez que você tenha uma política ACT funcional, o próximo experimento natural é a Política de Difusão. Ela lida melhor com tarefas multimodais (por exemplo, o braço pode se aproximar do objeto de dois ângulos) à custa de uma inferência mais lenta. A seção de Pesquisa SVRC cobre ambos. Navegue por artigos de pesquisa →

Unidade 5 Completa Quando...

O treinamento foi concluído (ou você o parou em um bom ponto de verificação). Sua taxa de sucesso na avaliação está acima de 70% na tarefa de pegar e colocar. Você tem um ponto de verificação salvo em ~/openarm-policies/pick-and-place-v1/ e você sabe qual número de passo produziu seu melhor resultado. Você está pronto para colocar essa política no braço real na Unidade 6.

Treine Sua Primeira Política