Por que Métricas de Simulação Não São Suficientes
As taxas de sucesso em simulação muitas vezes não se transferem para o desempenho no mundo real. Mudanças de iluminação, variações de objetos, deriva de calibração e ruído de sensores afetam o desempenho real. Um protocolo rigoroso de avaliação no mundo real é essencial para resultados publicáveis e decisões de implantação.
O Protocolo de Avaliação
Realizar no mínimo 50 testes por condição (100 preferidos para intervalos de confiança apertados). Variar instâncias de objetos, posições, condições de iluminação e operador. Relatar taxa de sucesso com intervalos de confiança de 95% usando a pontuação de Wilson. Registrar e revisar todos os episódios de falha. Documentar as condições do ambiente para reprodutibilidade.
- 50+ testes por condição
- Pelo menos 3 variações de objeto
- 2+ condições de iluminação
- Intervalos de confiança do escore de Wilson
- Gravação em vídeo de todos os testes
Armadilhas Comuns
Selecionar configurações iniciais fáceis, não relatar modos de falha, usar a mesma instância de objeto para todos os testes e realizar avaliações imediatamente após o ajuste (overfitting às condições atuais). Os serviços de avaliação do SVRC fornecem ambientes de teste padronizados e reproduzíveis.