Aprendizaje por refuerzo
Aprender de prueba y error — robots que optimizan el comportamiento a partir de señales de recompensa.
¿Qué es el Aprendizaje por Refuerzo?
El aprendizaje por refuerzo (RL) es un paradigma donde un agente aprende a maximizar la recompensa acumulativa a través de la interacción con un entorno. El agente toma acciones, recibe recompensas (o penalizaciones) y actualiza su política para mejorar con el tiempo.
Conceptos Clave
- Señal de recompensa — Retroalimentación escasa o densa que indica el progreso de la tarea (por ejemplo, objeto agarrado, objetivo alcanzado).
- Política — Mapeo de observaciones a acciones. A menudo redes neuronales (por ejemplo, PPO, SAC).
- Simulación a real — Entrenar en simulación, desplegar en robots reales. La aleatorización de dominio ayuda a cerrar la brecha.
Recursos relacionados
- Entorno de RL como servicio — Entornos de RL del mundo real para tu equipo
- Transferencia de simulación a real — Conectando la simulación y la realidad
- Servicios de Datos — Datos del mundo real para el ajuste fino de RL