Aprendizado por Reforço
Aprendendo com tentativa e erro — robôs que otimizam o comportamento a partir de sinais de recompensa.
O que é Aprendizado por Reforço?
O aprendizado por reforço (RL) é um paradigma onde um agente aprende a maximizar a recompensa cumulativa através da interação com um ambiente. O agente toma ações, recebe recompensas (ou penalidades) e atualiza sua política para melhorar ao longo do tempo.
Conceitos Chave
- Sinal de recompensa — Feedback esparso ou denso indicando o progresso da tarefa (por exemplo, objeto agarrado, meta alcançada).
- Política — Mapeamento de observações para ações. Frequentemente redes neurais (por exemplo, PPO, SAC).
- Simulação para real — Treinar em simulação, implantar em robôs reais. A randomização de domínio ajuda a reduzir a lacuna.
Recursos Relacionados
- Ambiente de RL como Serviço — Ambientes de RL do mundo real para sua equipe
- Transferência de Simulação para o Real — Conectando simulação e realidade
- Serviços de Dados — Dados do mundo real para ajuste fino de RL