Política ACT Explicada: Divisão de Ações com Transformers para Aprendizado de Robôs

ACT — Divisão de Ações com Transformers — tornou-se um dos algoritmos de aprendizado por imitação mais amplamente adotados para manipulação habilidosa após sua publicação por Tony Zhao e colaboradores em Stanford. Aqui está uma explicação prática de como funciona e como usá-lo.

O que é ACT?

ACT é um algoritmo de aprendizado por imitação projetado para tarefas de manipulação detalhada onde o robô deve fazer movimentos suaves e coordenados com base em observações visuais. No momento da inferência, o ACT recebe uma sequência de imagens das câmeras do robô e o estado atual das juntas, e produz um bloco de ações futuras — uma curta sequência de alvos de posição das juntas — em vez de uma única próxima ação. O robô executa esse bloco, então consulta novamente a política para o próximo bloco. Esse design de prever muitas etapas à frente é a característica definidora do ACT e a fonte da maioria de suas vantagens sobre a clonagem de comportamento mais simples.

O ACT foi introduzido no contexto do sistema de manipulação bimanual ALOHA e demonstrou sucesso em tarefas anteriormente consideradas fora de alcance para aprendizado por imitação: encaixar uma bateria, abrir um saco ziploc, passar uma linha pela agulha. Sua percepção central — que a previsão de ações em blocos reduz erros acumulados e suaviza trajetórias — foi desde então adotada em numerosos algoritmos subsequentes.

Como Funciona a Divisão de Ações

A clonagem de comportamento padrão (BC) treina uma política para prever a próxima ação única dada a observação atual. No momento da inferência, os erros de previsão se acumulam: cada pequeno erro desloca ligeiramente o estado do robô, colocando-o em uma distribuição na qual a política não foi treinada, o que faz com que a próxima previsão seja pior, e assim por diante. Esse erro acumulado é o modo de falha central da BC ingênua em tarefas de manipulação fina.

A divisão de ações quebra esse ciclo prevendo uma sequência de k ações futuras — tipicamente 50–100 passos a 50 Hz, correspondendo a 1–2 segundos de movimento. A política se compromete a esse plano e o executa antes de consultar novamente. Como o plano foi gerado a partir de uma única observação consistente, a trajetória é suave e internamente consistente. A agregação temporal — média de blocos de ações sobrepostos de múltiplas reconsultas — suaviza ainda mais a execução e reduz a oscilação nas fronteiras entre os blocos.

Arquitetura ACT

O ACT utiliza uma arquitetura CVAE (Autoencoder Variacional Condicional). Durante o treinamento, um codificador processa toda a trajetória de demonstração — imagens, estados das juntas e ações — e produz uma variável de estilo latente z que captura o "estilo" da demonstração (rápido vs lento, abordagem inclinada para a esquerda vs para a direita, etc.). Um decodificador baseado em transformer então pega a observação atual, o latente z e codificações posicionais, e prevê o bloco de ações. No momento da inferência, z é definido como zero (a média do anterior), tornando a política determinística dada a observação.

A base visual é tipicamente um ResNet-18 processando cada visão de câmera de forma independente, com os mapas de características resultantes passados como tokens para o decodificador transformer. Múltiplas visões de câmera — câmeras de pulso mais câmeras aéreas — cada uma contribui com um fluxo de tokens, fornecendo à política informações espaciais ricas sobre a cena de manipulação.

Requisitos de Dados e o que Constitui Bons Dados

O ACT funciona bem com 50–200 provas por tarefa na maioria dos resultados publicados. No entanto, a qualidade dos dados importa mais do que a quantidade. As demonstrações devem ser suaves e intencionais — a política ACT aprenderá qualquer padrão de movimento que esteja nos dados, incluindo hesitações, correções e abordagens subótimas. padrão de coleta de dados exige que os operadores reiniciem um episódio em vez de continuar após um erro visível, garantindo que o conjunto de dados de treinamento contenha apenas comportamentos intencionais e bem-sucedidos.

A consistência da câmera também é crítica. Se a colocação da câmera mudar entre as sessões de gravação, as características visuais que a política aprendeu não corresponderão mais à configuração de implantação. Use suportes físicos em vez de braços flexíveis e registre os parâmetros de calibração da câmera com cada conjunto de dados. O pipeline de gravação de múltiplas câmeras da SVRC impõe isso automaticamente.

ACT vs Clonagem de Comportamento: Resultados

Nas tarefas originais do ALOHA, o ACT alcançou taxas de sucesso de 80–95% em comparação com 20–50% para a BC padrão nos mesmos dados. A melhoria é mais pronunciada em tarefas que exigem temporização precisa, coordenação suave entre dois braços e recuperação graciosa de pequenas perturbações. Em tarefas mais simples de pegar e colocar com tolerâncias generosas, a diferença entre ACT e BC diminui. O ACT também supera a Política de Difusão em tarefas onde a velocidade de execução importa, uma vez que políticas baseadas em difusão requerem mais computação por passo de inferência.

Treinamento ACT com dados SVRC

SVRC's plataforma de dados exporta conjuntos de dados no formato HDF5 compatível com LeRobot, que é o formato de entrada padrão para o código de treinamento ACT de código aberto. Após baixar seu conjunto de dados, treinar uma política ACT básica requer uma GPU com pelo menos 16 GB de VRAM e aproximadamente 8 horas de treinamento para uma única tarefa. O suporte de engenharia da SVRC está disponível para ajudar as equipes a configurar execuções de treinamento, ajustar o tamanho do bloco e a taxa de aprendizado, e avaliar o desempenho da política. Para hardware para coletar seus próprios dados, veja nosso catálogo de hardware ou explorar opções de leasing de robôs.

Relacionado: Guia LeRobot · Configuração do ALOHA Móvel · Anotação de Dados do Robô · X-Embodiment Aberto