Aprendizado de Robôs

Open X-Embodiment: O que é e por que é importante para o aprendizado de robôs

Open X-Embodiment (OXE) é o maior conjunto de dados colaborativo aberto de aprendizado de robôs existente. Lançado por um consórcio de mais de 30 instituições de pesquisa, representa a primeira tentativa séria de construir um conjunto de dados fundamental para políticas de robôs generalistas — o equivalente em robótica ao ImageNet ou The Pile.

O que é Open X-Embodiment?

Open X-Embodiment é um conjunto de dados unificado de demonstrações de manipulação robótica coletadas em mais de 22 diferentes incorporações de robôs — abrangendo braços de Franka, WidowX, UR5, Kuka e outros — e em dezenas de laboratórios de pesquisa em todo o mundo. O conjunto de dados totaliza mais de um milhão de episódios cobrindo centenas de tarefas de manipulação distintas: pegar, colocar, abrir gavetas, derramar líquidos, limpar superfícies e mais.

O "X" no nome representa a transferência entre incorporações: a ambição definidora do OXE é treinar políticas que transferem conhecimento entre corpos de robôs. Uma política pré-treinada no conjunto de dados completo do OXE viu comportamentos de manipulação de uma ampla gama de geometrias de braços, tipos de garras, configurações de câmeras e domínios de tarefas, proporcionando um rico conhecimento prévio que pode ser ajustado para um novo robô com muito menos demonstrações do que treinar do zero.

Instituições Participantes e Composição do Conjunto de Dados

As instituições contribuintes incluem Stanford, UC Berkeley, Google DeepMind, Carnegie Mellon, MIT, ETH Zurich e muitas outras. Cada laboratório contribuiu com seus conjuntos de dados de demonstração existentes em um formato padronizado. O conjunto de dados é hospedado no Google Cloud Storage e está disponível gratuitamente para uso em pesquisa. Os sub-conjuntos variam significativamente em tamanho: alguns laboratórios contribuíram com dezenas de milhares de episódios, outros com algumas centenas. A distribuição de tarefas é inclinada para a coleta e colocação em mesa, refletindo a configuração experimental mais comum, mas a diversidade de objetos, condições de iluminação e configurações de braços é genuinamente ampla.

O Robotics Transformer 2 (RT-2) e modelos subsequentes do Google foram treinados com dados do OXE e demonstraram que o pré-treinamento entre incorporações produz políticas com generalização zero-shot significativamente melhor do que o treinamento de robô único. Este resultado validou a hipótese central do OXE e acelerou a adoção de conjuntos de dados entre incorporações em todo o campo.

Formato do Conjunto de Dados e RLDS

O OXE utiliza o formato RLDS (Especificação de Conjunto de Dados de Aprendizado de Robôs), um esquema baseado em TensorFlow Datasets para armazenar trajetórias de robôs. Cada episódio no RLDS é uma sequência de etapas, onde cada etapa contém um dicionário de observação (imagens, estados das juntas, estado da garra), um vetor de ação, um sinal de recompensa e uma anotação em linguagem descrevendo a tarefa. O esquema é flexível o suficiente para acomodar diferentes modalidades de observação e espaços de ação entre incorporações.

Trabalhar com RLDS requer TensorFlow ou biblioteca rlds_creator. O LeRobot da Hugging Face fornece utilitários de conversão para transformar dados do OXE em seu próprio formato, tornando-o acessível a pesquisadores que preferem PyTorch. O SVRC plataforma de dados exporta conjuntos de dados em um formato compatível com RLDS e LeRobot, permitindo uma contribuição direta para futuras versões do OXE.

Como Contribuir para o OXE

Contribuir com seu conjunto de dados para o OXE requer formatar suas demonstrações em RLDS, adicionar anotações de linguagem por etapa e enviar um pull request para o repositório do OXE no GitHub com a documentação do seu conjunto de dados. O processo de submissão inclui uma revisão para qualidade de dados e conformidade de formato. Se suas demonstrações foram coletadas com os serviços de dados do SVRC, a plataforma pode gerar exportações compatíveis com RLDS com metadados padronizados, simplificando significativamente o processo de contribuição. Entre em contato com o equipe do SVRC para orientações sobre como preparar seus dados para a submissão ao OXE.

Usando OXE para Pré-Treinamento

O uso mais valioso do OXE é como um conjunto de dados de pré-treinamento. Baixe um subconjunto do OXE relevante para seu domínio de tarefa e robô, treine uma base de política geral e, em seguida, ajuste finamente com suas próprias demonstrações específicas de tarefa. Essa abordagem consistentemente requer menos demonstrações específicas de tarefa do que treinar do zero — frequentemente 5–10x menos — enquanto alcança um desempenho final mais alto.

O pré-treinamento no OXE é mais benéfico quando seus dados de ajuste fino são limitados (menos de 100 episódios), quando suas tarefas são conceitualmente semelhantes às tarefas no OXE e quando você está usando uma arquitetura projetada para transferência entre incorporações, como Octo, OpenVLA ou RT-2-X. O ajuste fino específico de tarefa do zero continua competitivo quando você tem demonstrações abundantes de alta qualidade coletadas em condições de implantação.

Compatibilidade do SVRC e Como Ajudamos

O padrão de coleta de dados do SVRC foi projetado para ser compatível com o OXE desde o início: colocação padronizada de câmeras, esquema de anotação consistente, rotulagem de sucesso com qualidade controlada e exportação pronta para RLDS. Dados coletados através do SVRC serviços de dados podem ser usados diretamente para ajuste fino do OXE ou contribuídos para futuras versões do conjunto de dados. Para equipes que desejam aproveitar modelos pré-treinados do OXE em seu hardware específico, o SVRC oferece suporte de engenharia para configurar o pipeline de ajuste fino e avaliar políticas prontas para implantação.