Por que Métricas de Simulação Não São Suficientes

As taxas de sucesso em simulação muitas vezes não se transferem para o desempenho no mundo real. Mudanças de iluminação, variações de objetos, deriva de calibração e ruído de sensores afetam o desempenho real. Um protocolo rigoroso de avaliação no mundo real é essencial para resultados publicáveis e decisões de implantação.

O Protocolo de Avaliação

Realizar no mínimo 50 testes por condição (100 preferidos para intervalos de confiança apertados). Variar instâncias de objetos, posições, condições de iluminação e operador. Relatar taxa de sucesso com intervalos de confiança de 95% usando a pontuação de Wilson. Registrar e revisar todos os episódios de falha. Documentar as condições do ambiente para reprodutibilidade.

  • 50+ testes por condição
  • Pelo menos 3 variações de objeto
  • 2+ condições de iluminação
  • Intervalos de confiança do escore de Wilson
  • Gravação em vídeo de todos os testes

Armadilhas Comuns

Selecionar configurações iniciais fáceis, não relatar modos de falha, usar a mesma instância de objeto para todos os testes e realizar avaliações imediatamente após o ajuste (overfitting às condições atuais). Os serviços de avaliação do SVRC fornecem ambientes de teste padronizados e reproduzíveis.