Exécution de l'inférence sur le bras réel

Le déploiement signifie exécuter votre point de contrôle formé en temps réel, introduire des caméras en direct et des observations conjointes dans le réseau et exécuter les actions de sortie sur le bras physique. Le script d'inférence gère la boucle observation-action à 50 Hz.

source ~/openarm-env/bin/activate # Make sure ROS 2 is running (real hardware mode, from Unit 1) python -m lerobot.scripts.eval \ --policy-checkpoint ~/openarm-policies/pick-and-place-v1/checkpoint_XXXXX \ --device cuda\ --num-eval-épisodes 10 \ --enregistrement-vidéo \ --output-dir ~/openarm-evals/v1 # Replace XXXXX with your best checkpoint step number from Unit 5 # --record-video saves each episode as an mp4 for review

Lors du premier déploiement, gardez votre main près de l'arrêt d'urgence physique. Une stratégie récemment déployée peut occasionnellement effectuer des mouvements inattendus pendant qu'elle s'adapte à l'environnement matériel réel. C'est normal pour les 2 à 3 premiers épisodes. Après cela, le comportement devrait se stabiliser.

Pour obtenir des conseils complets sur le déploiement et la production, y compris les enveloppes de sécurité et les minuteries de surveillance, consultez le Guide de production OpenArm.

Méthodologie d'évaluation

N’évaluez pas votre politique de manière informelle. Utilisez un protocole structuré — c'est le seul moyen de savoir si un changement que vous apportez (plus de données, un point de contrôle différent, un cadrage des tâches différent) a réellement amélioré les performances :

Élément de protocole Spécification
Nombre d'épisodes par évaluation10 minimum, 20 pour des résultats de haute confiance
Position de départ de l'objetFixé. Utilisez des marques de ruban adhésif. Même position à chaque épisode.
Type d'objetMême objet que la formation. L'éclairage doit correspondre aux conditions d'entraînement.
Ce qui compte comme succèsObjet placé à moins de 3 cm de la cible. Arm rentre à la maison. Aucune intervention humaine pendant l'épisode.
Classement des échecsType d'échec du journal : saisie manquée / objet abandonné / mauvaise cible / délai d'attente. Cela vous indique quoi réparer.
Statistique du rapportTaux de réussite = épisodes réussis / épisodes total. Rapport avec le nombre d'épisodes (par exemple, "7/10 = 70 %").

Le volant de données : comment s'améliorer

Une politique qui réussit 7 fois sur 10 est un bon début, mais le chemin vers 9/10 ou au-delà passe par le volant d’inertie des données. Il s’agit de la boucle centrale de l’apprentissage des robots en production :

1

Collecter

Enregistrez les démonstrations, y compris les cas d’échec avec lesquels votre politique actuelle est confrontée à des difficultés.

2

Ancienne

Recycler (ou affiner) votre ensemble de données étendu avec les nouvelles démonstrations ajoutées

3

Évaluer

Exécutez le protocole d'évaluation structuré. Le taux de réussite s’est-il amélioré ? Quels modes de défaillance subsistent ?

4

Analyseur

Regardez les vidéos d'échec. Identifiez l’état spécifique dans lequel la politique échoue. Collectez-y des données ciblées.

L'information clé du volant d'inertie : les données ciblées battent les données aléatoires. Au lieu d'enregistrer 50 démonstrations aléatoires supplémentaires, regardez vos vidéos d'échec et identifiez le moment exact où les choses tournent mal. Enregistrez 20 démonstrations qui couvrent spécifiquement cet état difficile (par exemple, la saisie au bord de l'espace de travail ou l'objet sous un angle inhabituel). Votre taux de réussite s'améliorera plus rapidement avec 20 démos ciblées qu'avec 50 démos aléatoires.

Modes de défaillance courants et comment les corriger

  • Le bras dépasse la position de préhension : Les segments d'action de la stratégie sont trop volumineux ou vos données présentent une variance de vitesse élevée. Enregistrez 10 démos supplémentaires à vitesse lente près du point de saisie. Ou réduire chunk_size de 100 à 50 dans la config formation.
  • Arm réussit sur un objet d'entraînement mais échoue sur des objets légèrement différents : Vos données d'entraînement manquaient de diversité de position des objets. Enregistrez 20 démos avec l'objet à 5 positions différentes dans un rayon de 10 cm. Cela apprend à la politique à généraliser.
  • La stratégie gèle ou produit des mouvements répétés : La variable de style CVAE est en train de s'effondrer. Cela signifie souvent que votre ensemble de données présente trop de variance : le modèle ne parvient pas à trouver un style cohérent. Recherchez les démonstrations mixtes (différents opérateurs, différents cadrages de tâches) et nettoyez votre ensemble de données.

Unité 6 terminée quand...

Votre bras effectue la tâche de sélection et de placement de manière autonome 7 fois sur 10 au cours d'une évaluation structurée. Vous avez regardé les 3 vidéos d'échec et identifié ce qui n'allait pas. Vous comprenez suffisamment bien le volant de données pour planifier votre prochaine itération d'amélioration. C'est la fin du parcours structuré, mais c'est le début de votre pratique d'apprentissage des robots.

Vous l'avez fait.

Vous êtes passé du déballage d’un robot à la formation et au déploiement d’une véritable politique d’apprentissage par imitation. Cela vous place devant 99 % des personnes ayant déjà touché un bras de robot. Ce que vous avez construit ici (la configuration de téléopération, le pipeline de données, le flux de travail de formation) s'adapte à n'importe quelle tâche et à n'importe quel matériel.

Quelle est la prochaine étape

Vous avez la base. Voici où aller à partir d’ici :