O Flywheel de Dados

A maneira mais confiável de melhorar uma política de aprendizado de robô não é mudar o modelo — é melhorar os dados. O flywheel de dados é o núcleo do ciclo de iteração para qualquer projeto sério de aprendizado de robô:

1

Avaliar

Execute 20 testes. Meça a taxa de sucesso. Categorize falhas por tipo. Você fez isso na Unidade 5.

2

Identifique o modo de falha principal.

É qualidade dos dados (demonstrações inconsistentes), mudança de distribuição (posições não vistas) ou capacidade do modelo (trajetória precisa o suficiente, mas errada)? Seu diagnóstico da Unidade 5 responde a isso.

3

Coletar dados direcionados

Registrar 20–30 demonstrações cobrindo especificamente o regime de falha. Se a política falhar em objetos do lado esquerdo do espaço de trabalho, registre 20 demonstrações dessa posição específica. Não registre mais do que já está funcionando.

4

Re-treinar e reavaliar

Mesclar os novos dados com seu conjunto de dados existente, re-treinar e executar novamente a avaliação de 20 tentativas. Espere uma melhora de 10–20 pontos percentuais por ciclo quando o diagnóstico estiver correto.

Misturando Conjuntos de Dados

O LeRobot pode treinar em múltiplos conjuntos de dados simultaneamente, o que é útil para combinar seus dados de coleta direcionada com seu conjunto de dados original — ou até mesmo com conjuntos de dados públicos da comunidade para a mesma tarefa e tipo de robô.

# Merge two datasets into a new combined dataset python -m lerobot.scripts.push_dataset_to_hub\ # OR train directly on multiple repo IDs python -m lerobot.scripts.train \ # The weights parameter upsamples the targeted data 2x # relative to the original dataset
Misturando com conjuntos de dados públicos: Antes de misturar um conjunto de dados da comunidade, verifique se o tipo de robô e as dimensões do espaço de ação correspondem aos seus. Misturar um conjunto de dados de 7-DOF em uma execução de treinamento de 6-DOF causará um erro silencioso de incompatibilidade de forma. Sempre inspecione o info.json de qualquer conjunto de dados que você planeja misturar.

Compartilhe Seu Modelo no HuggingFace Hub

Compartilhar seu modelo treinado o torna disponível para a comunidade e permite que outros usem sua política como ponto de partida. Modelos compartilhados no formato padrão do LeRobot podem ser carregados diretamente por qualquer pessoa com pip install lerobot.

# Push your best checkpoint to HuggingFace Hub python -m lerobot.scripts.push_policy_to_hub\ # Add a model card (recommended) # The push command creates a README.md template — fill it in with: # - Robot type and task description # - Training dataset repo ID # - Evaluation success rate # - Video of the policy running on your robot

Compartilhe Seu Conjunto de Dados com a Comunidade

Seu conjunto de dados (que você enviou na Unidade 3) já está no HuggingFace Hub. Para torná-lo mais descobrível e útil para outros:

  • Adicione um cartão de conjunto de dados no HuggingFace — descreva a tarefa, robô, configuração de gravação e número de episódios. Esta é a única coisa mais impactante que você pode fazer para a descobribilidade do conjunto de dados.
  • Marque-o com lerobot, seu tipo de robô (por exemplo, so100), e sua categoria de tarefa (por exemplo, pick-and-place).
  • Envie para o Biblioteca de conjuntos de dados SVRC para curadoria e inclusão no índice da comunidade.

Contribuindo com Configurações de Hardware de Volta para o LeRobot

Se você adicionou uma configuração de hardware personalizada para um robô não suportado na Unidade 1, considere contribuir de volta para o repositório do LeRobot. Abra um pull request para huggingface/lerobot com seu arquivo de configuração em lerobot/configs/robot/. Os mantenedores revisam as contribuições de hardware rapidamente e isso beneficia diretamente cada futuro usuário desse hardware.

O que vem a seguir: Políticas Mais Capazes

Você agora tem o fluxo de trabalho completo do LeRobot. Aqui está para onde ir a partir daqui:

Linguagem

SmolVLA — políticas condicionadas à linguagem

Mude de ACT para SmolVLA quando quiser que a política responda a instruções em linguagem natural ("pegue o bloco azul") ou generalize entre tarefas. Requer ~200+ demonstrações e um formato de prompt mais estruturado. Veja o artigo do SmolVLA e os exemplos do LeRobot.

Escala

Pi0Fast — inferência VLA de alta velocidade

Pi0Fast opera a 100Hz de inferência (contra 30Hz do ACT), permitindo tarefas de manipulação mais rápidas e laços de controle mais apertados. Requer uma GPU no momento da inferência, mas produz um comportamento significativamente mais ágil em escala.

Generalização

Políticas de múltiplas tarefas

Treine uma única política em várias tarefas usando um conjunto de dados misto com diferentes valores de task_index por episódio. SmolVLA e Pi0Fast suportam treinamento de múltiplas tarefas nativamente. Veja a receita de múltiplas tarefas do LeRobot nos exemplos do GitHub.

Você completou o caminho do LeRobot.

Você instalou o LeRobot, entendeu o formato do conjunto de dados, gravou suas próprias demonstrações, treinou uma política ACT, avaliou-a sistematicamente e executou o ciclo de dados. Esse é o fluxo de trabalho completo de aprendizado de robô de código aberto — o mesmo usado por laboratórios de pesquisa e startups de robótica em todo o mundo.

Perguntas? Junte-se ao Discord do HuggingFace #lerobot — os mantenedores e a comunidade são ativos e acolhedores.