← Glosario

Aprendizaje por refuerzo

Aprender de prueba y error — robots que optimizan el comportamiento a partir de señales de recompensa.

¿Qué es el Aprendizaje por Refuerzo?

El aprendizaje por refuerzo (RL) es un paradigma donde un agente aprende a maximizar la recompensa acumulativa a través de la interacción con un entorno. El agente toma acciones, recibe recompensas (o penalizaciones) y actualiza su política para mejorar con el tiempo.

Conceptos Clave

  • Señal de recompensa — Retroalimentación escasa o densa que indica el progreso de la tarea (por ejemplo, objeto agarrado, objetivo alcanzado).
  • Política — Mapeo de observaciones a acciones. A menudo redes neuronales (por ejemplo, PPO, SAC).
  • Simulación a real — Entrenar en simulación, desplegar en robots reales. La aleatorización de dominio ayuda a cerrar la brecha.

Recursos relacionados