Aprendizado de Robôs

LeRobot: A Biblioteca de Aprendizado de Robôs de Código Aberto Explicada

LeRobot é a biblioteca de código aberto da Hugging Face para aprendizado de robôs — uma estrutura unificada que abrange coleta de dados, armazenamento de conjuntos de dados, treinamento de políticas e interfaces de hardware para as plataformas de pesquisa mais amplamente utilizadas. Tornou-se o ponto de partida padrão para novos projetos de aprendizado de robôs em 2025 e 2026.

O que é LeRobot?

LeRobot é uma biblioteca Python mantida pela Hugging Face que fornece infraestrutura de ponta a ponta para pesquisa em aprendizado de robôs. Ela lida com quatro preocupações distintas: gravação de demonstrações de robôs a partir de hardware real, armazenamento e versionamento dessas demonstrações em um formato de conjunto de dados padronizado, treinamento de políticas de aprendizado por imitação e aprendizado por reforço de última geração nesses conjuntos de dados, e implantação de políticas treinadas de volta ao hardware real para avaliação. Cada uma dessas capacidades é modular — você pode usar o LeRobot apenas para armazenamento de dados ou para treinamento e implantação de pilha completa.

O projeto vive no GitHub sob a organização huggingface e, a partir do início de 2026, acumulou dezenas de milhares de estrelas e centenas de colaboradores. Conjuntos de dados podem ser publicados e baixados do Hugging Face Hub, dando ao LeRobot um repositório de conjuntos de dados compartilhados em crescimento que funciona como um mercado de dados comunitário.

Algoritmos Suportados

O LeRobot vem com implementações nativas de três classes de políticas. ACT (Action Chunking with Transformers) é o algoritmo principal para tarefas de manipulação de alta precisão: utiliza uma arquitetura CVAE baseada em transformadores com agrupamento temporal e é o ponto de partida recomendado para a maioria dos fluxos de trabalho de manipulação habilidosa. A Política de Difusão implementa tanto as variantes baseadas em CNN quanto as baseadas em transformadores de difusão de desnoising para previsão de ações, que se destaca em tarefas com distribuições de ações multimodais. TDMPC2 (Controle Preditivo de Diferença Temporal) é um algoritmo de RL baseado em modelo que aprende tanto um modelo do mundo quanto uma política, oferecendo treinamento eficiente em amostras quando um ambiente de simulação está disponível.

Cada algoritmo é implementado em PyTorch com scripts de treinamento padrão, gerenciamento de configuração hydra e integração com Weights & Biases para rastreamento de experimentos. A troca entre algoritmos é uma única alteração no arquivo de configuração, tornando a avaliação comparativa direta.

Hardware Suportado

Integrações de hardware prontas para uso incluem sistemas bimanual ALOHA (braços ViperX), braços Koch, braços de baixo custo SO-100 e SO-101, plataformas móveis Lekiwi e vários braços personalizados baseados em servos Dynamixel. O OpenArm, disponível através do SVRC, loja, tem suporte nativo ao LeRobot para gravação de teleoperação e implantação de políticas. Adicionar uma nova plataforma de hardware requer implementar uma classe de interface de robô com métodos para ler o estado das juntas e enviar comandos de juntas — tipicamente algumas centenas de linhas de código para um novo braço.

O suporte a câmeras abrange câmeras USB via OpenCV, câmeras de profundidade Intel RealSense e arrays de webcams. O sistema de gravação lida com sincronização de múltiplas câmeras com timestamping de software e suporta taxas de quadros e resoluções configuráveis por câmera.

O Formato de Conjunto de Dados LeRobot

O LeRobot armazena conjuntos de dados como arquivos HDF5 com uma estrutura de episódio padronizada. Cada episódio contém arrays para observações (imagens comprimidas como fluxos de vídeo, estados das juntas como arrays float32), ações (alvos de posição das juntas), timestamps e anotações (strings de linguagem de tarefa, flags de sucesso). Arquivos de metadados descrevem a configuração do robô, calibração da câmera e estatísticas do conjunto de dados. Este formato foi projetado para ser auto-descritivo e portátil: um conjunto de dados gravado em uma máquina pode ser carregado para treinamento em qualquer outra máquina sem modificação.

Conjuntos de dados publicados no Hugging Face Hub incluem um cartão de conjunto de dados com estatísticas, descrições de tarefas e exemplos de uso. Isso facilita a descoberta e a reutilização de conjuntos de dados da comunidade, reduzindo a carga de coleta de dados para tarefas comuns.

Começando com o LeRobot

A instalação requer Python 3.10+ e PyTorch. O primeiro projeto recomendado é gravar 50 demonstrações de uma tarefa simples de pegar e colocar em qualquer hardware suportado, e depois treinar uma política ACT com essas demonstrações. A documentação do LeRobot fornece um guia completo desde a configuração do hardware até a avaliação da política. Para equipes sem seu próprio hardware, a SVRC oferece leasing de robôs através do nosso programa de leasing especificamente para permitir a coleta de dados baseada no LeRobot.

Compatibilidade de Exportação SVRC

SVRC's plataforma de dados exporta conjuntos de dados no formato nativo HDF5 do LeRobot, com todos os campos de metadados necessários preenchidos a partir da sessão de gravação. Os conjuntos de dados coletados através da instalação ou serviços de coleta de dados da SVRC chegam prontos para treinamento — nenhuma etapa de conversão é necessária. A SVRC também fornece hospedagem de conjuntos de dados no Hugging Face Hub para parceiros de pesquisa que desejam compartilhar seus dados publicamente. Se você tiver dúvidas sobre como integrar os dados da SVRC com seu pipeline de treinamento LeRobot, o equipe de engenharia do SVRC está disponível para ajudar.