ポリシーの選択
LeRobot には、実稼働対応の 3 つのポリシー アーキテクチャが同梱されています。 トレーニングを実行する前にいずれかを選択します。実行中に切り替えることはできません。
ACT
アクションチャンクトランスフォーマー。 シングルアームによる器用な操作に最適です。 GPU で 1 ~ 3 時間でトレーニングします。 予測可能なハイパーパラメータ。 これを使ってください。
普及政策
精密なタスクではピーク精度が高くなりますが、トレーニングと推論には 3 ~ 5 倍の時間がかかります。 動作する ACT ベースラインを取得した後に使用してください。
SmolVLA
言語条件付き VLA。 タスクで自然言語による指示やマルチタスクの一般化が必要な場合に使用します。 より多くのデータが必要です。
ACTトレーニングコマンド
交換する $HF_USER/pick-place-v1 ユニット 3 のデータセット リポジトリ ID に置き換えます。
シングルアームのピックアンドプレイスに推奨されるハイパーパラメータ
| パラメータ | 推奨 | なぜ |
|---|---|---|
| num_steps | 50000 | 単純なピックアンドプレイスの 50 ~ 100 回のデモには十分です。 損失のプラトーが遅く発生する場合は、80,000 に増やしてください。 |
| バッチサイズ | 32 | シングルアーム データセットの標準。 GPU メモリが不足している場合は、16 に減らしてください。 |
| チャンクサイズ | 100 | ACT は 100 歩先を計画します。 30fps では、これは約 3.3 秒であり、ピック アンド プレイスの適切な計画期間です。 |
| n_action_steps | 100 | chunk_size と一致する必要があります。 推論の頻度を減らし、実行をスムーズにします。 |
| kl_weight | 10 | ルロボットのデフォルト。 20k ステップ後に L_kl がゼロ付近に留まらない限り、変更しないでください。 |
| lr | 1e-5 | LeRobot の ACT のデフォルト。 再構成損失が収束せずに振動する場合は、5e-6 に下がります。 |
トレーニングログを読む
トレーニング ログは端末と TensorBoard に出力されます。 2 番目のターミナルで TensorBoard を起動します。
次に開きます http://localhost:6006 ブラウザで。 これらの曲線に注目してください。
損失/再構築 (L_recon)
主要なトレーニング信号。 約 2.5 ~ 3.5 から 0.1 未満まで 50,000 ステップずつ減少するはずです。 40,000 ステップ後のプラトーが 0.15 を超える場合は、通常、データセットの分散が大きすぎることを意味します。ユニット 3 の優れたデモ プラクティスを見直し、より一貫性のあるデモンストレーションを記録することを検討してください。
城/kl (L_kl)
0 付近から 5 ~ 20 までゆっくりと上昇します。 これは予期された動作です。CVAE はコンパクトなスタイルの埋め込みを学習しています。 40 を超える場合、デモンストレーションには行動の多様性が多すぎます。 20k ステップ後も 0 付近に留まる場合、CVAE は学習していません。 kl_weight を 20 に増やします。
列車/損失 (全損失)
L_recon + kl_weight × L_kl。 初期のトレーニングでは L_recon が優勢でした。 単調減少するはずです。 最初の減少後に合計損失が増加する場合は、学習率の減衰が過度に激しいことを示します。スケジューラの設定を確認してください。
チェックポイント管理
チェックポイントは 5,000 ステップごとに保存されます ~/lerobot-policies/pick-place-v1/checkpoints/。 最後のチェックポイントが最適であるとは考えないでください。 このポリシーは、特に小さなデータセットの場合、ステップ数が多い場合にオーバーフィットする可能性があります。
トレーニング後、最適なチェックポイントを特定します。これは、L_reconstruction がプラトーに達し始める前に最小値に達するステップです。 50 回のデモンストレーションの場合、これは通常 35,000 ~ 50,000 ステップの範囲で発生します。 このステップ番号を保存します。これはユニット 5 で使用します。
ユニット 4 が完了したら...
トレーニングは 50,000 ステップを完了し、チェックポイントは次の場所に保存されます。 ~/lerobot-policies/pick-place-v1/checkpoints/。 最終的な L_reconstruction loss は 0.1 未満です。 損失曲線に基づいて最適なチェックポイント ステップを特定しました。 L_kl がトレーニング実行で何をしているのか理解できました。 ユニット 5 でポリシーを評価する準備が整いました。