Cómo evaluar políticas de robots en el mundo real

Por qué las métricas de simulación no son suficientes

Las tasas de éxito de simulación a menudo no se transfieren al rendimiento en el mundo real. Los cambios de iluminación, variaciones de objetos, deriva de calibración y ruido de sensores afectan el rendimiento real. Un protocolo de evaluación riguroso en el mundo real es esencial para resultados publicables y decisiones de implementación.

El protocolo de evaluación

Realizar un mínimo de 50 ensayos por condición (100 preferidos para intervalos de confianza ajustados). Variar instancias de objetos, posiciones, condiciones de iluminación y operador. Reportar tasa de éxito con intervalos de confianza del 95% utilizando la puntuación de Wilson. Grabar y revisar todos los episodios de fallo. Documentar las condiciones del entorno para reproducibilidad.

Más de 50 ensayos por condición
Al menos 3 variaciones de objetos
2 o más condiciones de iluminación
Intervalos de confianza del puntaje de Wilson
Grabación en video de todos los ensayos

Errores comunes

Seleccionar configuraciones iniciales fáciles, no informar sobre modos de fallo, usar la misma instancia de objeto para todos los ensayos y realizar evaluaciones inmediatamente después de la sintonización (sobreajuste a las condiciones actuales). Los servicios de evaluación de SVRC proporcionan entornos de prueba estandarizados y reproducibles.

Cómo evaluar políticas de robots en el mundo real

Por qué las métricas de simulación no son suficientes

El protocolo de evaluación

Errores comunes

Páginas relacionadas

Todos los Artículos de Investigación

Explorar Productos

Academia de Robótica

Contáctanos