Comment nous pensons à l'évaluation dans le monde réel
Pourquoi la réussite d’une tâche ne suffit pas à elle seule lorsque vous évaluez des robots qui doivent survivre à des conditions de fonctionnement réelles.
Évaluation adaptée au risque de déploiement
L’évaluation des robots échoue souvent de la même manière que l’analyse des produits : les équipes optimisent pour la mesure visible la plus simple et supposent qu’elle représente l’ensemble du système. En robotique, cela signifie généralement un taux de réussite étroit, mesuré dans des conditions contrôlées. L’évaluation du monde réel nécessite un cadre plus large.
Le succès est nécessaire, pas suffisant
Une politique peut accomplir une tâche tout en restant fragile. Cela peut dépendre de conditions initiales étroites, éviter complètement le contact ou réussir uniquement lorsque le timing, l’éclairage et le placement des objets sont inhabituellement propres. Plus une tâche évolue dans des environnements réels, plus ces hypothèses cachées apparaissent.
Ce que nous regardons à la place
- Répétabilité — Le système peut-il fonctionner sur plusieurs exécutions, pas seulement sur un exemple marquant ?
- Récupération — Que se passe-t-il lorsque la première tentative est imparfaite ?
- Qualité des contacts — Le robot se comporte-t-il de manière prévisible lorsque la force et la friction sont importantes ?
- Robustesse opérationnelle — Dans quelle mesure la configuration est-elle sensible à la dérive d'étalonnage, au coût de réinitialisation et au bruit ambiant ?
L'évaluation doit correspondre à la forme du déploiement
La référence correcte dépend de l’endroit où le robot va vivre. Un robot de démonstration, une plateforme de recherche et une cellule de production ne partagent pas le même profil de risque. De bonnes configurations d'évaluation gardent cela à l'esprit au lieu de prétendre qu'une seule mesure peut couvrir les trois.
Pourquoi les preuves du monde réel sont importantes
C’est l’une des raisons pour lesquelles nous accordons autant d’importance aux environnements robotiques réels et aux systèmes opérationnels. La simulation est utile, mais elle masque bon nombre des perturbations qui donnent du sens à l’évaluation : détection imparfaite, usure réelle, comportement humain réinitialisé et contexte de tâche plus difficile à écrire qu’à observer.
Règle pratique — Si votre benchmark ne révèle pas ce qui se passe après la première petite panne, il surestime probablement la qualité du système.