Unité 4 : Former une politique — Parcours d'apprentissage LeRobot

Choix politiques

LeRobot propose trois architectures de politiques prêtes pour la production. Choisissez-en un avant de vous entraîner – vous ne pouvez pas changer en cours de course.

Recommandé pour ce chemin

ACT

Transformateurs fragmentés d'action. Idéal pour la manipulation adroite d’un seul bras. S'entraîne en 1 à 3 heures sur GPU. Hyperparamètres prévisibles. Utilisez ceci.

Politique de diffusion

Précision maximale plus élevée sur les tâches de précision, mais 3 à 5 fois plus lente à entraîner et à déduire. Utilisez-le après avoir obtenu une base de référence ACT fonctionnelle.

SmolVLA

VLA conditionné par le langage. À utiliser lorsque votre tâche nécessite des instructions en langage naturel ou une généralisation multitâche. Nécessite plus de données.

Commandement de formation ACT

Remplacer $HF_USER/pick-place-v1 avec l'ID de dépôt de votre ensemble de données de l'unité 3.

source ~/lerobot-env/bin/activate python -m lerobot.scripts.train \ --acte de type politique \ --dataset-repo-id $HF_USER/pick-place-v1 \ --output-dir ~/lerobot-policies/pick-place-v1 \ --config-overrides \ formation.num_steps=50000 \ formation.eval_freq=5000 \ formation.save_freq=5000 \ formation.batch_size=32 \ politique.chunk_size=100 \ politique.n_action_steps=100

# Add --device cuda if you have a GPU (strongly recommended)
# Checkpoints save every 5k steps to ~/lerobot-policies/pick-place-v1/
# Start this before sleep — it can run unattended

Temps de formation GPU vs CPU : Sur un RTX 3090 (24 Go), 50 000 pas prennent environ 60 à 80 minutes. Sur un RTX 3080 (10 Go), environ 90 à 120 minutes. Sur le processeur, attendez 8 à 12 heures. Les options Cloud GPU (Lambda Labs, Vast.ai) coûtent entre 0,50 et 1,50 $/heure pour le matériel nécessaire.

Hyperparamètres recommandés pour le système Pick-and-Place à un seul bras

Paramètre	Recommandée	Pourquoi
num_steps	50000	Suffisant pour 50 à 100 démos d’un simple pick-and-place. Augmentez à 80 000 si votre plateau de perte survient tardivement.
taille_lot	32	Norme pour les ensembles de données à un seul bras. Réduisez à 16 si vous manquez de mémoire GPU.
taille_morceau	100	ACT prévoit 100 pas d’avance. À 30 images par seconde, cela représente environ 3,3 secondes – un bon horizon de planification pour le choix et le placement.
n_action_steps	100	Doit correspondre à chunk_size. Réduit la fréquence d’inférence et facilite l’exécution.
kl_poids	10	LeRobot par défaut. Ne changez pas à moins que L_kl reste proche de zéro après 20 000 pas.
mdr	1e-5	LeRobot par défaut pour ACT. Baisser à 5e-6 si la perte de reconstruction oscille au lieu de converger.

Lecture des journaux d'entraînement

Les journaux de formation s'impriment sur le terminal et sur TensorBoard. Lancez TensorBoard dans un deuxième terminal :

tensorboard --logdir ~/lerobot-policies/

Puis ouvrez http://localhost:6006 dans votre navigateur. Regardez ces courbes :

perte/reconstruction (L_recon)

Le signal d’entraînement principal. Devrait diminuer d’environ 2,5 à 3,5 jusqu’à moins de 0,1 par 50 000 étapes. Un plateau supérieur à 0,15 après 40 000 étapes signifie généralement que votre ensemble de données présente trop de variance : consultez les bonnes pratiques de démonstration de l'unité 3 et envisagez d'enregistrer des démonstrations plus cohérentes.

château/kl (L_kl)

Augmente lentement de près de 0 à 5–20. Il s'agit d'un comportement attendu : le CVAE apprend une intégration de style compact. S'il dépasse 40, vos manifestations contiennent trop de diversité comportementale. S'il reste proche de 0 après 20 000 pas, le CVAE n'apprend pas ; augmentez kl_weight à 20.

train/perte (perte totale)

L_recon + kl_weight × L_kl. Dominé par L_recon en début d'entraînement. Devrait diminuer de façon monotone. Une perte totale qui augmente après une diminution initiale indique que la diminution du taux d'apprentissage est trop agressive : vérifiez la configuration du planificateur.

Gestion des points de contrôle

Les points de contrôle enregistrent tous les 5 000 pas pour ~/lerobot-policies/pick-place-v1/checkpoints/. Ne présumez pas que le point de contrôle final est le meilleur. La stratégie peut être surajustée en cas de nombre de pas élevé, en particulier avec de petits ensembles de données.

Après l'entraînement, identifiez votre meilleur point de contrôle : c'est l'étape où L_reconstruction a atteint son minimum avant de commencer à plafonner. Pour 50 démonstrations, cela se produit généralement entre 35 000 et 50 000 étapes. Enregistrez ce numéro d'étape - vous l'utiliserez dans l'unité 5.

Unité 4 terminée quand...

La formation a complété 50 000 étapes et les points de contrôle sont enregistrés dans ~/lerobot-policies/pick-place-v1/checkpoints/. La perte L_reconstruction finale est inférieure à 0,1. Vous avez identifié votre meilleure étape de point de contrôle en fonction des courbes de perte. Vous comprenez ce que fait L_kl lors de votre entraînement. Vous êtes prêt à évaluer la politique de l’unité 5.