Aprendizaje por refuerzo

Aprender de prueba y error — robots que optimizan el comportamiento a partir de señales de recompensa.

¿Qué es el Aprendizaje por Refuerzo?

El aprendizaje por refuerzo (RL) es un paradigma donde un agente aprende a maximizar la recompensa acumulativa a través de la interacción con un entorno. El agente toma acciones, recibe recompensas (o penalizaciones) y actualiza su política para mejorar con el tiempo.

Conceptos Clave

Señal de recompensa — Retroalimentación escasa o densa que indica el progreso de la tarea (por ejemplo, objeto agarrado, objetivo alcanzado).
Política — Mapeo de observaciones a acciones. A menudo redes neuronales (por ejemplo, PPO, SAC).
Simulación a real — Entrenar en simulación, desplegar en robots reales. La aleatorización de dominio ayuda a cerrar la brecha.

Recursos relacionados

Entorno de RL como servicio — Entornos de RL del mundo real para tu equipo
Transferencia de simulación a real — Conectando la simulación y la realidad
Servicios de Datos — Datos del mundo real para el ajuste fino de RL