Não é um simulador. Um sistema real operável continuamente.
Em nosso contexto, um ambiente RL é um sistema robótico real totalmente especificado: configuração física, tarefas e critérios de sucesso claramente definidos, espaços de observação e ação estáveis, procedimentos de reinicialização determinísticos, registro contínuo e execução segura sob tentativas e falhas repetidas.
Isso dá às equipes um lugar para treinar, avaliar e iterar sobre políticas baseadas em aprendizado no mundo real, em vez de tratar a implantação como o primeiro verdadeiro teste.