Политическое обучение

Сопоставление наблюдений с действиями — зрительно-моторные правила управления роботом.

Что такое политическое обучение?

Политика — это функция, которая отображает наблюдения (изображения, состояние) в действия (совместные команды, захват). Обучение политике тренирует это сопоставление на основе данных (имитация) или вознаграждения (RL). Зрительно-моторная политика использует зрение в качестве основного исходного материала.

Ключевые архитектуры

ACT (Разбивка действий с помощью трансформеров) — Предсказывает фрагменты действий; плавное исполнение.
Политика распространения — Шумоподавление диффузии для распределений мультимодального действия.
Клонирование поведения — Простое контролируемое обучение на демонстрациях.
VLA — Модели «Видение-язык-действие» (OpenVLA, RT-2) с языковым обуславливанием.

Связанные ресурсы

Политические модели — ACT, Политика распространения, OpenVLA, Octo
Имитационное обучение
Службы передачи данных — Данные для обучения вашей политике