第四单元：训练策略——乐机器人学习路径| SVRC学院

政策选择

乐机器人提供了三种生产就绪的策略架构。在进行训练之前选择一项 — 您无法在训练中途切换。

推荐此路径

ACT

动作分块变形金刚。最适合灵巧的单臂操作。在 GPU 上训练需要 1-3 小时。可预测的超参数。用这个。

扩散政策

精密任务的峰值准确度更高，但训练和推理速度慢 3-5 倍。在您拥有有效的 ACT 基线后使用它。

斯摩尔VLA

语言条件 VLA。当您的任务需要自然语言指令或多任务概括时使用。需要更多数据。

ACT训练指挥部

代替 $HF_USER/pick-place-v1 使用第 3 单元中的数据集存储库 ID。

源〜/lerobot-env/bin/activate python -m lerobot.scripts.train \ --政策型行为 \ --dataset-repo-id $HF_USER/pick-place-v1 \ --output-dir ~/lerobot-policies/pick-place-v1 \ --config-覆盖 \ 训练.num_steps=50000 \ 训练.eval_freq=5000 \ 训练.save_freq=5000 \ 训练.batch_size=32 \ 策略.chunk_size=100 \ 政策.n_action_steps=100

# Add --device cuda if you have a GPU (strongly recommended)
# Checkpoints save every 5k steps to ~/lerobot-policies/pick-place-v1/
# Start this before sleep — it can run unattended

GPU 与 CPU 训练时间： 在 RTX 3090 (24GB) 上，50,000 步大约需要 60-80 分钟。在 RTX 3080 (10GB) 上，大约 90-120 分钟。对于 CPU，预计需要 8-12 小时。云 GPU 选项（Lambda Labs、Vast.ai）所需硬件的运行费用为 0.50-1.50 美元/小时。

单臂拾放的推荐超参数

范围	受到推崇的	为什么
步数	50000	足以进行 50-100 个简单拾放演示。如果您的损失稳定期出现较晚，则增加至 80k。
批量大小	32	单臂数据集的标准。如果 GPU 内存不足，则减少到 16。
块大小	100	ACT 计划提前 100 步。在 30 fps 下，这大约为 3.3 秒——对于拾放来说是一个很好的规划范围。
n_action_steps	100	必须匹配 chunk_size。降低推理频率并平滑执行。
kl_权重	10	乐机器人默认。除非 L_kl 在 20k 步后保持在零附近，否则不要更改。
LR	1e-5	乐机器人默认为ACT。如果重建损失振荡而不是收敛，则降低至 5e-6。

阅读培训日志

训练日志打印到终端和 TensorBoard。在第二个终端中启动 TensorBoard：

张量板 --logdir ~/lerobot-policies/

然后打开 http://localhost:6006 在您的浏览器中。观察这些曲线：

丢失/重建（L_recon）

主要训练信号。应以 50,000 步从 ~2.5–3.5 减少到 0.1 以下。 40,000 步后高于 0.15 的平台通常意味着您的数据集有太多方差 - 查看第 3 单元的良好演示实践并考虑记录更一致的演示。

城堡/吉隆坡 (L_kl)

从接近 0 缓慢上升到 5-20。这是预期的行为——CVAE 正在学习紧凑风格的嵌入。如果超过 40，则说明您的演示包含过多的行为多样性。如果 20k 步后它保持在 0 附近，则 CVAE 没有学习；将 kl_weight 增加到 20。

火车/损失（总损失）

L_recon + kl_weight × L_kl。早期训练中以L_recon为主。应单调递减。初始下降后总损失上升表明学习率衰减过于激进 - 检查调度程序配置。

检查点管理

检查点每 5,000 步保存一次 ~/lerobot-policies/pick-place-v1/checkpoints/。不要假设最终检查点是最好的。该策略可能会在高步数下过度拟合，尤其是对于小数据集。

训练后，确定最佳检查点：这是 L_reconstruction 在开始稳定之前达到最小值的步骤。对于 50 次演示，这种情况通常发生在 35,000–50,000 步范围内。保存此步骤编号 - 您将在第 5 单元中使用它。

第 4 单元完成时...

训练已完成 50,000 步，检查点保存在 ~/lerobot-policies/pick-place-v1/checkpoints/。最终的L_reconstruction损失低于0.1。您已经根据损失曲线确定了最佳检查点步骤。您了解 L_kl 在训练中正在做什么。您已准备好评估第 5 单元中的策略。

培训政策