Política de Difusão para Aprendizado de Robôs: O Que É e Como Usá-la

A Política de Difusão, introduzida por Chi et al. em 2023, trouxe a revolução da modelagem generativa para o controle de robôs. Ao tratar a geração de ações como um problema de remoção de ruído, ela lida com a natureza multimodal e de alta dimensão do comportamento de manipulação de maneiras que algoritmos mais simples de clonagem comportamental não conseguem. Aqui está o que você precisa saber para aplicá-la ao seu próprio projeto de robótica.

O Que É Política de Difusão?

A Política de Difusão é uma classe de políticas de controle de robôs baseadas em modelos probabilísticos de difusão de remoção de ruído (DDPMs) — a mesma estrutura matemática que fundamenta modelos de texto para imagem como o Stable Diffusion. No contexto robótico, a "imagem" sendo gerada é uma sequência de ações do robô (uma trajetória). Começando a partir de ruído gaussiano puro no espaço de ações, o modelo remove iterativamente o ruído condicionado à observação visual atual e ao estado do robô, produzindo uma sequência de ações coerente e de alta qualidade após 10 a 100 etapas de remoção de ruído.

A principal percepção é que os modelos de difusão aprendem uma distribuição de probabilidade completa sobre as ações em vez de prever uma única melhor ação. Para a robótica, isso é crítico. Demonstrações humanas da mesma tarefa são naturalmente multimodais: uma pessoa pode pegar uma xícara pelo lado esquerdo ou pelo lado direito dependendo de sutis pistas contextuais. Um modelo que deve colapsar essa distribuição em uma única previsão irá, ou se comprometer a um modo e falhar na outra metade do tempo, ou fazer uma média dos modos e produzir uma trajetória bizarra que falha sempre. A Política de Difusão evita isso modelando a distribuição explicitamente e amostrando dela no momento da inferência.

Por Que a Política de Difusão Supera a Clonagem Comportamental Padrão

A clonagem comportamental padrão (BC) treina uma política como um problema de regressão supervisionada: dada uma observação, prever uma ação. Isso funciona quando o mapeamento de observações para ações é determinístico e unimodal. Na prática, tarefas de manipulação raramente são. Mesmo tarefas "simples" como pegar um bloco de uma mesa envolvem múltiplos ângulos de abordagem válidos, poses de agarre e configurações pré-agarre. A BC ingênua produz políticas que hesitam em pontos de decisão, fazem escolhas de movimento comprometidas ou falham completamente quando a distribuição de teste difere ligeiramente do treinamento.

A Política de Difusão supera consistentemente as linhas de base da BC em suítes de manipulação de referência. No artigo original, ela alcançou resultados de ponta em 11 das 12 tarefas no benchmark Robomimic, com margens particularmente grandes em tarefas com alta multimodalidade de ações. Em avaliações com robôs reais, a Política de Difusão demonstrou um comportamento de recuperação mais robusto — quando o robô alcançou um estado intermediário ligeiramente errado, a política pôde se recuperar porque estava amostrando de uma ampla distribuição em vez de seguir um caminho determinístico.

Comparado ao ACT (Divisão de Ação com Transformers), a Política de Difusão geralmente se sai melhor em tarefas com forte multimodalidade e pior em tarefas com dependências de longo prazo onde a previsão de blocos do ACT brilha. Na prática, ambos os algoritmos são competitivos o suficiente para que a qualidade e a quantidade do conjunto de dados importem mais do que a escolha da arquitetura da política. Se você não tiver certeza de qual usar, experimente o ACT primeiro pela velocidade de iteração, depois a Política de Difusão se você observar falhas de média de modos.

Requisitos de Dados para a Política de Difusão

A Política de Difusão se beneficia de mais dados do que o ACT, principalmente porque a rede de remoção de ruído tem mais parâmetros e um objetivo de modelagem mais rico. Um mínimo prático é de 100 a 200 demonstrações para uma única tarefa em condições controladas. Para alcançar um desempenho robusto de implantação — lidando com variação de posição de objetos, mudanças de iluminação e ruído ocasional do sensor — reserve de 300 a 500 demonstrações por tarefa. Ao contrário do ACT, a Política de Difusão tende a continuar melhorando com dados adicionais até tamanhos de conjuntos de dados bastante grandes, tornando-a a melhor escolha se você planeja investir em um esforço de coleta de dados em grande escala.

A diversidade dos dados é tão importante quanto o volume. As demonstrações devem abranger a gama de posições de objetos, orientações e configurações de cena que você espera na implantação. Um agrupamento apertado de demonstrações com objetos sempre exatamente no mesmo lugar produzirá uma política que falha no momento em que um objeto é movido por alguns centímetros. serviço de coleta de dados gerenciado segue protocolos de variação estruturada — randomizando sistematicamente posições de objetos, condições de iluminação e estilos de agarre do operador — para garantir conjuntos de dados que produzem políticas generalizáveis.

A representação da observação também é significativamente importante. A Política de Difusão com um codificador de imagem ResNet treinado de ponta a ponta geralmente supera políticas que usam codificadores pré-treinados congelados em distribuições de tarefas estreitas, mas codificadores pré-treinados (R3M, MVP, DINO) produzem melhor generalização quando as condições de teste diferem do treinamento. Para a maioria dos projetos práticos, comece com um codificador pré-treinado para maximizar o valor do seu conjunto de dados e mude para treinamento de ponta a ponta apenas se você tiver mais de 500 demonstrações e um ambiente estável.

Configuração de Treinamento e Requisitos de Computação

A implementação de referência da Política de Difusão (disponível no GitHub do Columbia Robotics Lab) treina com um backbone UNet (inferência mais rápida, menor capacidade) ou um backbone Transformer (inferência mais lenta, maior capacidade). Para a maioria dos projetos de tarefa única, a variante UNet é o ponto de partida certo. O treinamento em uma única RTX 3090 ou 4090 leva de 4 a 12 horas para um conjunto de dados de 200 episódios, dependendo da resolução da observação e do comprimento do horizonte de ação.

Principais hiperparâmetros a serem configurados corretamente: o horizonte de ação (quantos passos futuros prever — tipicamente 16 a 32 para tarefas de mesa), o número de etapas de difusão (100 para DDPM, 10 a 25 para DDIM com perda mínima de qualidade) e a janela de observação (quantas frames passadas incluir — tipicamente 2). Não mude todos os três de uma vez; fixe os outros ao ajustar um. A mudança mais impactante para melhorar o desempenho da política geralmente é aumentar o tamanho do conjunto de dados, não ajustar os hiperparâmetros da arquitetura.

Para inferência em um robô real, o DDPM em 100 passos é tipicamente muito lento para controle de alta frequência. Use o agendador DDIM com 10–25 passos, que opera a ~20Hz em uma RTX 3090 — adequado para controle de 10Hz com um buffer. Alternativamente, a destilação de política de consistência pode alcançar inferência de 1–3 passos com mínima degradação de desempenho para tarefas mais simples.

Usando os Serviços de Dados SVRC para Política de Difusão

SVRC's pipeline de serviços de dados produz conjuntos de dados formatados para uso direto com a implementação de referência da Política de Difusão e o framework HuggingFace LeRobot. Os episódios são armazenados como arquivos ZARR com fluxos de imagem sincronizados, estado proprioceptivo e ações a 50Hz. A filtragem de qualidade remove episódios onde a tarefa não foi concluída com sucesso, o robô colidiu com o ambiente ou a hesitação do operador produziu trajetórias não representativas.

Nosso serviço de coleta usa o plataforma de teleoperação SVRC com controle de líder-seguidor capaz de braços duplos, câmeras montadas no pulso e sobrecâmeras, e registro opcional de força-torque. Para treinamento de Política de Difusão de múltiplas tarefas — onde uma única política aprende múltiplas tarefas condicionadas ao ID da tarefa ou linguagem — podemos coletar entre variantes de tarefas dentro da mesma campanha e entregar um conjunto de dados unificado. Equipes que trabalham com as plataformas de hardware OpenArm ou ALOHA recebem suporte nativo de hardware; integração de hardware personalizada está disponível sob solicitação. Entre em contato com nossa equipe para discutir suas necessidades de dados e cronograma.

Relacionado: Aprendizado por Imitacão para Robôs · Modelos VLA Explicados · O que é Dados de Treinamento de Robô? · Serviços de Dados · Referências