政策选择

乐机器人提供了三种生产就绪的策略架构。 在进行训练之前选择一项 — 您无法在训练中途切换。

扩散政策

精密任务的峰值准确度更高,但训练和推理速度慢 3-5 倍。 在您拥有有效的 ACT 基线后使用它。

斯摩尔VLA

语言条件 VLA。 当您的任务需要自然语言指令或多任务概括时使用。 需要更多数据。

ACT训练指挥部

代替 $HF_USER/pick-place-v1 使用第 3 单元中的数据集存储库 ID。

源〜/lerobot-env/bin/activate python -m lerobot.scripts.train \ --政策型行为 \ --dataset-repo-id $HF_USER/pick-place-v1 \ --output-dir ~/lerobot-policies/pick-place-v1 \ --config-覆盖 \ 训练.num_steps=50000 \ 训练.eval_freq=5000 \ 训练.save_freq=5000 \ 训练.batch_size=32 \ 策略.chunk_size=100 \ 政策.n_action_steps=100 # Add --device cuda if you have a GPU (strongly recommended) # Checkpoints save every 5k steps to ~/lerobot-policies/pick-place-v1/ # Start this before sleep — it can run unattended
GPU 与 CPU 训练时间: 在 RTX 3090 (24GB) 上,50,000 步大约需要 60-80 分钟。 在 RTX 3080 (10GB) 上,大约 90-120 分钟。 对于 CPU,预计需要 8-12 小时。 云 GPU 选项(Lambda Labs、Vast.ai)所需硬件的运行费用为 0.50-1.50 美元/小时。

单臂拾放的推荐超参数

范围 受到推崇的 为什么
步数50000足以进行 50-100 个简单拾放演示。 如果您的损失稳定期出现较晚,则增加至 80k。
批量大小32单臂数据集的标准。 如果 GPU 内存不足,则减少到 16。
块大小100ACT 计划提前 100 步。 在 30 fps 下,这大约为 3.3 秒——对于拾放来说是一个很好的规划范围。
n_action_steps100必须匹配 chunk_size。 降低推理频率并平滑执行。
kl_权重10乐机器人默认。 除非 L_kl 在 20k 步后保持在零附近,否则不要更改。
LR1e-5乐机器人默认为ACT。 如果重建损失振荡而不是收敛,则降低至 5e-6。

阅读培训日志

训练日志打印到终端和 TensorBoard。 在第二个终端中启动 TensorBoard:

张量板 --logdir ~/lerobot-policies/

然后打开 http://localhost:6006 在您的浏览器中。 观察这些曲线:

丢失/重建(L_recon)

主要训练信号。 应以 50,000 步从 ~2.5–3.5 减少到 0.1 以下。 40,000 步后高于 0.15 的平台通常意味着您的数据集有太多方差 - 查看第 3 单元的良好演示实践并考虑记录更一致的演示。

城堡/吉隆坡 (L_kl)

从接近 0 缓慢上升到 5-20。 这是预期的行为——CVAE 正在学习紧凑风格的嵌入。 如果超过 40,则说明您的演示包含过多的行为多样性。 如果 20k 步后它保持在 0 附近,则 CVAE 没有学习; 将 kl_weight 增加到 20。

火车/损失(总损失)

L_recon + kl_weight × L_kl。 早期训练中以L_recon为主。 应单调递减。 初始下降后总损失上升表明学习率衰减过于激进 - 检查调度程序配置。

检查点管理

检查点每 5,000 步保存一次 ~/lerobot-policies/pick-place-v1/checkpoints/。 不要假设最终检查点是最好的。 该策略可能会在高步数下过度拟合,尤其是对于小数据集。

训练后,确定最佳检查点:这是 L_reconstruction 在开始稳定之前达到最小值的步骤。 对于 50 次演示,这种情况通常发生在 35,000–50,000 步范围内。 保存此步骤编号 - 您将在第 5 单元中使用它。

第 4 单元完成时...

训练已完成 50,000 步,检查点保存在 ~/lerobot-policies/pick-place-v1/checkpoints/。 最终的L_reconstruction损失低于0.1。 您已经根据损失曲线确定了最佳检查点步骤。 您了解 L_kl 在训练中正在做什么。 您已准备好评估第 5 单元中的策略。