Не симулятор. Постоянно работающая реальная установка.
В нашем контексте среда RL — это полностью специфицированная реальная роботизированная система: физическая настройка, четко определенные задачи и критерии успеха, стабильные пространства для наблюдения и действий, детерминированные процедуры сброса, непрерывная регистрация и безопасное выполнение при повторяющихся испытаниях и неудачах.
Это дает командам возможность обучать, оценивать и повторять политики, основанные на обучении, в реальном мире, вместо того, чтобы рассматривать развертывание как первое настоящее испытание.