模倣学習

デモンストレーションから学ぶ — 遠隔操作データから人間の行動を再現するロボット。

模倣学習とは何ですか?

模倣学習 (IL) は、ロボットが専門家のデモンストレーションを観察および複製することでタスクの実行方法を学習するパラダイムです。ロボットは、(強化学習のように) 報酬信号から学習するのではなく、人間の遠隔操作や運動感覚教育中に収集された状態と行動のペアから学習します。

主要なアプローチ

動作クローニング (BC) — (観察、アクション) ペアからの教師あり学習。シンプルですが、分布が変化しやすいです。
短剣 — 反復的なデータ収集: ポリシーを実行し、専門家による修正を取得し、再トレーニングします。分布のシフトを軽減します。
逆強化学習 (IRL) — デモンストレーションから報酬関数を推測し、ポリシーを最適化します。

関連リソース

オープンソースのデータセット — DROID、BridgeData、ALOHA、Open X の実施形態
ポリシーモデル — ACT、発散ポリシー、OpenVLA、Octo
データサービス — タスクに合わせてすぐに学習できるデモンストレーションを収集します