政策学習

観察をアクションにマッピングする — ロボット制御のための視覚運動ポリシー。

政策学習とは何ですか?

ポリシーは、観察 (画像、状態) をアクション (共同コマンド、グリッパー) にマッピングする機能です。ポリシー学習は、データ (模倣) または報酬 (RL) からこのマッピングをトレーニングします。 Visumotor ポリシーでは、視覚を主な入力として使用します。

主要なアーキテクチャ

ACT (トランスフォーマーによるアクションチャンク) — アクションチャンクを予測します。スムーズな実行。
普及政策 — マルチモーダルアクション分布のためのノイズ除去拡散。
動作のクローン作成 — デモからの単純な教師あり学習。
VLA — 言語条件付けを備えたビジョン言語アクションモデル (OpenVLA、RT-2)。

関連リソース

ポリシーモデル — ACT、発散ポリシー、OpenVLA、Octo
模倣学習
データサービス — ポリシーをトレーニングするためのデータ