意味
拡散ポリシーは、ノイズ除去拡散確率モデル (DDPM) をアクション生成に適用します。 単一のアクションを予測する代わりに、モデルはアクションの軌跡にランダムなサンプルを繰り返しノイズ除去します。 これにより、考えられる動作全体にわたってマルチモーダルな分布を捕捉できるようになります。これは、複数の有効な戦略が存在する接触が多い操作にとって重要です。 拡散政策は、両手作業、道具の使用、布のたたみに関して優れた結果を示しています。 通常、単一ステップの予測ではなく、アクション チャンク (8 ~ 32 個の将来のアクションのシーケンス) に対して動作します。
ロボットチームにとってそれが重要な理由
現実世界のロボット システムを構築するチームにとって、普及ポリシーを理解することは不可欠です。 デモンストレーション データを収集する場合でも、シミュレーションでポリシーをトレーニングする場合でも、運用環境に展開する場合でも、この概念はワークフローとシステム設計に直接影響します。