Por que a Qualidade dos Dados Importa Mais que a Quantidade
Uma concepção errônea comum no aprendizado de robôs é que mais demonstrações automaticamente produzem uma melhor política. Isso é falso. Redes neurais aprendem a imitar o distribuição de comportamento em seu conjunto de dados. Se suas demonstrações forem inconsistentes — caminhos diferentes, velocidades diferentes, posições de objetos diferentes — a rede aprende uma média borrada que não corresponde a nenhuma estratégia bem-sucedida real.
50 demonstrações onde o braço segue o mesmo caminho limpo, agarra o objeto na mesma localização e retorna à mesma posição inicial produzirão uma política que generaliza melhor do que 500 demonstrações com alta variância. A primeira sessão de coleta é sua chance de estabelecer essa consistência. Leve seu tempo. Exclua e regrave qualquer demonstração que pareça errada.
Para um entendimento mais profundo no design de pipeline, leia o Visão geral do Pipeline de Coleta de Dados na Biblioteca de Robótica.
O Formato de Conjunto de Dados LeRobot
Suas gravações serão salvas em formato LeRobot — o padrão usado pela biblioteca LeRobot da Hugging Face e compatível com os treinadores de Política ACT e Diffusion que você usará na Unidade 5.
O que é gravado
Posições das juntas (6 DOF + garra), velocidades das juntas, pose do efetor final, quadros da câmera (RGB + profundidade opcional), timestamps e metadados da tarefa.
Estrutura de arquivos
Uma pasta por episódio. Cada episódio contém um data.parquet com arrays de estado/ação e um video/ subpasta com fluxos de câmera.
Taxa de amostragem
50Hz por padrão. Cada segundo de teleoperação produz 50 timesteps. Um pick-and-place de 10 segundos produz 500 pares (estado, ação).
Compatibilidade
O formato LeRobot carrega diretamente em lerobot.common.datasets. Também é conversível para RLDS para pipelines do TF-Agents. Navegue por conjuntos de dados de referência →
Sua Sessão de Gravação
Inicie o script de gravação com o nome da sua tarefa e a contagem de episódios alvo. O script gerencia automaticamente a gestão de episódios, nomeação de arquivos e sinalização de qualidade:
Configure seu espaço de trabalho com o mesmo objeto na mesma posição inicial para cada episódio. Use marcas de fita na mesa para manter a posição do objeto consistente. Seu braço deve retornar à mesma pose inicial exata antes de cada episódio começar — o script de gravação impõe isso com uma verificação de retorno.
Dica prática: Busque episódios entre 8–15 segundos cada. Muito curtos (menos de 5s) e a política não tem tempo para planejar uma trajetória suave. Muito longos (mais de 20s) e pequenas variações se acumulam. Para um pick-and-place padrão, 10 segundos por episódio é o alvo.
Lista de Verificação de Qualidade de Dados
Antes de avançar para a Unidade 5, verifique se seu conjunto de dados passa por todas essas cinco verificações. Descarte e regrave episódios que falhem em qualquer item.
- Sem pegadas falhadas. Cada episódio termina com o objeto colocado com sucesso no local alvo. Episódios onde o braço errou a pegada ou deixou o objeto cair devem ser excluídos — eles ensinam o modelo a falhar.
- Pose inicial consistente. O braço começa da posição inicial em cada episódio. Verifique no visualizador de conjuntos de dados se os ângulos das juntas no tempo 0 estão dentro de ±2° uns dos outros em todos os 50 episódios.
-
Sem saltos ou movimentos bruscos. Visualize 3–5 episódios aleatórios com
python -m lerobot.visualize_dataset --dataset ~/openarm-datasets/pick-and-place. As sequências de ação devem ser curvas contínuas suaves, não picos. - Os quadros da câmera estão claros e em foco. Verifique se a câmera do seu espaço de trabalho não está obstruída, não está estourada pela luz direta e se o objeto está claramente visível durante cada episódio. Vídeo borrado ou escuro degrada o desempenho da política.
-
50 episódios completos salvos. Executar
python -m lerobot.inspect ~/openarm-datasets/pick-and-placee confirme que você tem exatamente 50 episódios sem arquivos corrompidos. O script sinalizará quaisquer episódios com quadros ausentes ou sequências de ação truncadas.
Navegue por conjuntos de dados de referência para comparação
A biblioteca de conjuntos de dados SVRC contém gravações de exemplo de pegar e colocar que você pode usar como referência de qualidade. Se seus dados parecerem significativamente diferentes, investigue antes de treinar. Abrir Conjuntos de Dados SVRC →
Unidade 4 Completa Quando...
Você tem 50 episódios limpos salvos no formato LeRobot em ~/openarm-datasets/pick-and-place. Todos os cinco itens da lista de verificação de qualidade foram aprovados. Executando lerobot.inspect mostra 50 episódios, sem erros. Você está pronto para entregar este conjunto de dados ao pipeline de treinamento na Unidade 5.