← Glossário

Aprendizado por Reforço

Aprendendo com tentativa e erro — robôs que otimizam o comportamento a partir de sinais de recompensa.

O que é Aprendizado por Reforço?

O aprendizado por reforço (RL) é um paradigma onde um agente aprende a maximizar a recompensa cumulativa através da interação com um ambiente. O agente toma ações, recebe recompensas (ou penalidades) e atualiza sua política para melhorar ao longo do tempo.

Conceitos Chave

  • Sinal de recompensa — Feedback esparso ou denso indicando o progresso da tarefa (por exemplo, objeto agarrado, meta alcançada).
  • Política — Mapeamento de observações para ações. Frequentemente redes neurais (por exemplo, PPO, SAC).
  • Simulação para real — Treinar em simulação, implantar em robôs reais. A randomização de domínio ajuda a reduzir a lacuna.

Recursos Relacionados