Évaluation par simulation
Évaluez toujours d'abord en simulation, même si vous disposez d'un vrai robot. L'évaluation Sim est rapide, sûre et vous donne un numéro de référence reproductible auquel vous pouvez comparer après le recyclage.
Liste de contrôle de sécurité des vrais robots
Si vous évaluez sur un vrai robot, parcourez cette liste de contrôle avant votre premier déploiement. Une politique non testée peut évoluer de manière inattendue.
- Effacez l’espace de travail de tous les objets ne faisant pas partie de la tâche. La politique a appris à agir dans un contexte visuel spécifique : des objets inattendus peuvent provoquer un comportement erratique.
- Restez à l'arrêt d'urgence (E-stop) ou soyez prêt à appuyer sur Ctrl+C pendant toute la session d'évaluation. Ne vous éloignez pas d’une politique en vigueur.
- Commencez avec une vitesse limitée à 50% maximum. Réduire à 30 % si le premier essai semble saccadé ou imprécis.
- Positionnez les objets pour qu'ils correspondent exactement à la configuration de votre espace de travail de formation. Utilisez le même angle de caméra, le même éclairage, les mêmes couleurs d’objets. Le changement de distribution est la cause la plus courante d’un taux de réussite nul dans le monde réel.
- N'évaluez jamais au-dessus des limites d'arrêt physiques des articulations de votre robot. Vérifiez-les dans la configuration de votre robot avant la première exécution.
Protocole d'évaluation de robot réel
Exécutez exactement 20 essais. Cela vous donne suffisamment d'échantillons pour une estimation fiable du taux de réussite (± 10 % au niveau de confiance de 95 %). Enregistrez chaque essai sur vidéo : vous aurez besoin des images pour diagnostiquer les modes de défaillance.
Après chaque essai, notez-le manuellement : 1 pour la réussite complète de la tâche, 0 pour tout échec (saisies partielles, chutes, échecs). Votre taux de réussite est la somme divisée par 20.
Diagnostic des modes de défaillance
Regardez vos enregistrements vidéo et catégorisez les échecs. La plupart des échecs appartiennent à l’une des trois catégories suivantes :
Trajectoire d’approche incohérente – le bras ne s’engage jamais complètement dans la préhension
La politique fait la moyenne de plusieurs stratégies de saisie dans vos données d'entraînement. Cela se produit lorsque certaines démonstrations approchent par la gauche et d'autres par la droite, ou lorsque le timing de fermeture des pinces est incohérent. Correctif : réenregistrez avec une stratégie unique et délibérée tout au long de toutes les démonstrations.
La trajectoire semble raisonnable, mais la précision est constamment décalée de 1 à 2 cm.
Le modèle apprend le bon comportement mais n’a pas la capacité d’être précis. Cela se produit lorsque chunk_size est trop court (horizon de planification insuffisant) ou lorsque dim_feedforward est trop petit. Correctif : augmentez chunk_size à 150, recyclez-vous. Ou ajoutez des manifestations plus diversifiées pour régulariser le réseau.
Fonctionne parfaitement dans certaines positions, échoue complètement dans d'autres
Les positions des objets lors de l'évaluation sont en dehors de la distribution de vos données d'entraînement. La politique n’a jamais vu ces positions auparavant. Correctif : collectez davantage de démonstrations avec des positions d'objets plus diversifiées ou limitez votre évaluation à des positions bien représentées dans vos données d'entraînement.
Unité 5 terminée quand...
Vous avez réalisé 20 essais d'évaluation (en simulation ou sur votre vrai robot) et mesuré un taux de réussite. Vous avez regardé toutes les vidéos en mode échec et identifié si l'échec principal concerne la qualité des données, la capacité du modèle ou le changement de distribution. Vous avez écrit ce diagnostic – vous l’utiliserez pour guider votre collecte de données dans l’unité 6.