Aprendizado de Políticas

Mapeamento de observações para ações — políticas visuomotoras para controle de robô.

O Que É Aprendizado de Políticas?

Uma política é uma função que mapeia observações (imagens, estado) para ações (comandos de junta, garra). O aprendizado de políticas treina esse mapeamento a partir de dados (imitação) ou recompensa (RL). Políticas visuomotoras usam visão como a entrada principal.

Arquiteturas Chave

ACT (Agrupamento de Ações com Transformadores) — Previsão de blocos de ação; execução suave.
Política de Difusão — Difusão de desnoising para distribuições de ações multimodais.
Clonagem de Comportamento — Aprendizado supervisionado simples a partir de demonstrações.
VLA — Modelos de visão-linguagem-ação (OpenVLA, RT-2) com condicionamento de linguagem.

Recursos Relacionados

Modelos de Política — ACT, Diffusion Policy, OpenVLA, Octo
Aprendizado por Imit ação
Serviços de Dados — Dados para treinar sua política