Por que a Qualidade dos Dados é mais Importante que a Quantidade de Dados
Um conjunto de dados de 1.000 demonstrações de alta qualidade e diversas frequentemente supera 10.000 demonstrações ruidosas. Problemas de qualidade — dessincronização de sensores, descontinuidades de ação, falhas de tarefa misturadas com sucessos e rotulagem inconsistente — se propagam em políticas treinadas e causam falhas misteriosas na implantação.
A Lista de Verificação de Qualidade de 15 Pontos
Aplique essas verificações a cada lote de episódios coletados antes de adicioná-los ao seu conjunto de treinamento.
- Carimbos de data e hora do sensor sincronizados em 10 ms
- Sem quadros de câmera perdidos (verifique a contagem de quadros vs duração)
- Valores de ação dentro dos limites físicos das juntas
- Sem descontinuidades de ação >2σ do tamanho médio do passo
- Rótulos de sucesso/falha verificados por um segundo revisor
- Tarefa concluída dentro dos limites de duração esperados
- Sem autocorreções do operador no conjunto de dados final
- Câmera não obstruída durante fases críticas
- Propriocepção corresponde às ações comandadas
- Transições de estado do gripper nos momentos corretos
- Sem episódios duplicados
- Campos de metadados completos (ID da tarefa, operador, data)
- Episódio armazenado no formato alvo (RLDS/LeRobot)
- Estatísticas de lote dentro das distribuições esperadas
- Amostra aleatória verificada visualmente