Разрыв в реальности

Политики, которые достигают 95% успеха в моделировании, часто падают до 30–50% в реальном мире. Этот «разрыв в реальности» возникает из-за визуальных различий (рендеринг по сравнению с реальными изображениями), физических различий (неточности модели контакта) и структуры шума датчиков. Систематическое устранение этого разрыва является одним из наиболее важных практических навыков в обучении роботов.

Три стратегии

Рандомизация предметной области: тренируйтесь на широком распределении параметров, чтобы реальный мир был «просто еще одним образцом». Идентификация системы: тщательно измерьте и откалибруйте параметры моделирования, чтобы они соответствовали реальности. Точная настройка: тренируйтесь в моделировании, затем собирайте небольшой набор реальных данных (50–200 эпизодов) и выполняйте точную настройку. Большинство успешных развертываний сочетают в себе все три.

  • Рандомизация доменов: лучше всего подходит для визуальных политик
  • Идентификация системы: лучше всего подходит для задач, требующих большого количества контактов
  • Реальная точная настройка: почти всегда улучшает производительность
  • Рекомендуется: объединить все три

Практические советы

Начните с MuJoCo или Исаака Сима (у обоих хорошие модели контактов). Активно рандомизируйте положение камеры, освещение и текстуры объектов. Измерьте реальное трение и демпфирование суставов. Прежде чем приступать к выполнению сложных задач, проверьте реалистичность модели на простой задаче. SVRC предоставляет калиброванные имитационные модели для OpenArm.