Por que a Qualidade dos Dados é mais Importante que a Quantidade de Dados

Um conjunto de dados de 1.000 demonstrações de alta qualidade e diversas frequentemente supera 10.000 demonstrações ruidosas. Problemas de qualidade — dessincronização de sensores, descontinuidades de ação, falhas de tarefa misturadas com sucessos e rotulagem inconsistente — se propagam em políticas treinadas e causam falhas misteriosas na implantação.

A Lista de Verificação de Qualidade de 15 Pontos

Aplique essas verificações a cada lote de episódios coletados antes de adicioná-los ao seu conjunto de treinamento.

  • Carimbos de data e hora do sensor sincronizados em 10 ms
  • Sem quadros de câmera perdidos (verifique a contagem de quadros vs duração)
  • Valores de ação dentro dos limites físicos das juntas
  • Sem descontinuidades de ação >2σ do tamanho médio do passo
  • Rótulos de sucesso/falha verificados por um segundo revisor
  • Tarefa concluída dentro dos limites de duração esperados
  • Sem autocorreções do operador no conjunto de dados final
  • Câmera não obstruída durante fases críticas
  • Propriocepção corresponde às ações comandadas
  • Transições de estado do gripper nos momentos corretos
  • Sem episódios duplicados
  • Campos de metadados completos (ID da tarefa, operador, data)
  • Episódio armazenado no formato alvo (RLDS/LeRobot)
  • Estatísticas de lote dentro das distribuições esperadas
  • Amostra aleatória verificada visualmente