Définition
La politique de diffusion applique des modèles probabilistes de diffusion avec débruitage (DDPM) à la génération d'actions. Au lieu de prédire une action unique, le modèle débruite de manière itérative un échantillon aléatoire en une trajectoire d'action. Cela permet de capturer des distributions multimodales sur les comportements possibles, ce qui est essentiel pour une manipulation riche en contacts où plusieurs stratégies valides existent. La politique de diffusion a montré de bons résultats sur les tâches bimanuelles, l'utilisation des outils et le pliage du tissu. Il fonctionne généralement sur des morceaux d'action (séquences de 8 à 32 actions futures) plutôt que sur des prédictions en une seule étape.
Pourquoi c'est important pour les équipes de robots
Comprendre la politique de diffusion est essentiel pour les équipes qui construisent des systèmes robotiques réels. Que vous collectiez des données de démonstration, formiez des politiques en simulation ou déployiez en production, ce concept affecte directement votre flux de travail et la conception de votre système.