Unité 5 : Évaluez votre politique — Parcours d'apprentissage LeRobot

Évaluation par simulation

Évaluez toujours d'abord en simulation, même si vous disposez d'un vrai robot. L'évaluation Sim est rapide, sûre et vous donne un numéro de référence reproductible auquel vous pouvez comparer après le recyclage.

source ~/lerobot-env/bin/activate

# Evaluate your best checkpoint (replace step_050000 with your checkpoint step)
python -m lerobot.scripts.eval \ --nom-ou-chemin-de-politique-pré-entraînée \ ~/lerobot-policies/pick-place-v1/checkpoints/step_050000 \ --env.name gym_pusht/PushT-v0 \ --eval.n-épisodes 20 \ --eval.use-async-envs faux

# Outputs: success_rate, mean_reward, episode_videos/

À quoi s'attendre : Une politique bien formée sur 50 démonstrations de simulation devrait atteindre un taux de réussite de 60 à 85 % dans MuJoCo. En dessous de 40 %, cela suggère un problème de qualité de l'ensemble de données. Au-dessus de 85 % signifie que la tâche est trop facile ou que l'environnement de simulation est trop indulgent – essayez une variante plus difficile.

Liste de contrôle de sécurité des vrais robots

Si vous évaluez sur un vrai robot, parcourez cette liste de contrôle avant votre premier déploiement. Une politique non testée peut évoluer de manière inattendue.

Effacez l’espace de travail de tous les objets ne faisant pas partie de la tâche. La politique a appris à agir dans un contexte visuel spécifique : des objets inattendus peuvent provoquer un comportement erratique.
Restez à l'arrêt d'urgence (E-stop) ou soyez prêt à appuyer sur Ctrl+C pendant toute la session d'évaluation. Ne vous éloignez pas d’une politique en vigueur.
Commencez avec une vitesse limitée à 50% maximum. Réduire à 30 % si le premier essai semble saccadé ou imprécis.
Positionnez les objets pour qu'ils correspondent exactement à la configuration de votre espace de travail de formation. Utilisez le même angle de caméra, le même éclairage, les mêmes couleurs d’objets. Le changement de distribution est la cause la plus courante d’un taux de réussite nul dans le monde réel.
N'évaluez jamais au-dessus des limites d'arrêt physiques des articulations de votre robot. Vérifiez-les dans la configuration de votre robot avant la première exécution.

Protocole d'évaluation de robot réel

Exécutez exactement 20 essais. Cela vous donne suffisamment d'échantillons pour une estimation fiable du taux de réussite (± 10 % au niveau de confiance de 95 %). Enregistrez chaque essai sur vidéo : vous aurez besoin des images pour diagnostiquer les modes de défaillance.

# Run the policy on your real robot
python -m lerobot.scripts.control_robot \ --robot-path lerobot/configs/robot/so100.yaml \ --évaluation du mode contrôle \ --nom-ou-chemin-de-politique-pré-entraînée \ ~/lerobot-policies/pick-place-v1/checkpoints/step_050000 \ --eval.n-épisodes 20 \ --enregistrement-vidéo 1

Après chaque essai, notez-le manuellement : 1 pour la réussite complète de la tâche, 0 pour tout échec (saisies partielles, chutes, échecs). Votre taux de réussite est la somme divisée par 20.

Diagnostic des modes de défaillance

Regardez vos enregistrements vidéo et catégorisez les échecs. La plupart des échecs appartiennent à l’une des trois catégories suivantes :

Qualité des données

Trajectoire d’approche incohérente – le bras ne s’engage jamais complètement dans la préhension

La politique fait la moyenne de plusieurs stratégies de saisie dans vos données d'entraînement. Cela se produit lorsque certaines démonstrations approchent par la gauche et d'autres par la droite, ou lorsque le timing de fermeture des pinces est incohérent. Correctif : réenregistrez avec une stratégie unique et délibérée tout au long de toutes les démonstrations.

Capacité du modèle

La trajectoire semble raisonnable, mais la précision est constamment décalée de 1 à 2 cm.

Le modèle apprend le bon comportement mais n’a pas la capacité d’être précis. Cela se produit lorsque chunk_size est trop court (horizon de planification insuffisant) ou lorsque dim_feedforward est trop petit. Correctif : augmentez chunk_size à 150, recyclez-vous. Ou ajoutez des manifestations plus diversifiées pour régulariser le réseau.

Changement de distribution

Fonctionne parfaitement dans certaines positions, échoue complètement dans d'autres

Les positions des objets lors de l'évaluation sont en dehors de la distribution de vos données d'entraînement. La politique n’a jamais vu ces positions auparavant. Correctif : collectez davantage de démonstrations avec des positions d'objets plus diversifiées ou limitez votre évaluation à des positions bien représentées dans vos données d'entraînement.

Unité 5 terminée quand...

Vous avez réalisé 20 essais d'évaluation (en simulation ou sur votre vrai robot) et mesuré un taux de réussite. Vous avez regardé toutes les vidéos en mode échec et identifié si l'échec principal concerne la qualité des données, la capacité du modèle ou le changement de distribution. Vous avez écrit ce diagnostic – vous l’utiliserez pour guider votre collecte de données dans l’unité 6.