Robô ALOHA: O que é, como funciona e como começar
ALOHA é a plataforma de teleoperação bimanual da Universidade de Stanford que demonstrou, pela primeira vez, que um robô poderia aprender tarefas de manipulação habilidosa com duas mãos — como abrir um pacote de batatas fritas, amarrar um cabo ou cozinhar — a partir de um pequeno número de demonstrações humanas. Agora é a plataforma de pesquisa bimanual mais amplamente referenciada do mundo. Este guia explica o que é ALOHA, como funciona e como começar a usá-lo.
A História de Origem de Stanford
ALOHA — Um Sistema de Hardware de Código Aberto de Baixo Custo para Teleoperação Bimanual — foi desenvolvido no Laboratório de Manipulação Móvel de Stanford e publicado no artigo "Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware" por Tony Z. Zhao et al. em 2023. A tese central era provocativa: você não precisa de hardware de robô caro e proprietário para realizar manipulação habilidosa impressionante. ALOHA usou quatro braços robóticos ViperX 300 e WidowX 250 (dois por lado, um como líder para teleoperação e um como seguidor) custando menos de $20.000 no total, combinado com o algoritmo ACT, para realizar tarefas que anteriormente exigiam sistemas projetados sob medida que custavam muitas vezes mais.
O artigo demonstrou 10 tarefas bimanual, incluindo desembrulhar um doce, inserir uma bateria em um slot e passar uma corda por um buraco — todas com taxas de sucesso acima de 80% usando 50 demonstrações. Esses resultados chocaram a comunidade de robótica não porque as tarefas eram novas, mas por causa do custo e da eficiência dos dados. ALOHA e ACT juntos estabeleceram um novo padrão para a pesquisa de manipulação habilidosa acessível e desencadearam uma onda de trabalhos subsequentes que continua até hoje.
O design de hardware ALOHA e todo o software são totalmente de código aberto. A lista de materiais, instruções de montagem e código de treinamento ACT estão disponíveis publicamente no GitHub. Essa abertura fez do ALOHA o padrão de fato para plataformas de pesquisa bimanual, com dezenas de grupos de pesquisa em todo o mundo executando variantes do design original. O SVRC apoia plataformas da classe ALOHA através do nosso serviços de dados e programa de locação de hardware.
Arquitetura de Hardware: Configuração Bimanual Líder-Seguidor
O sistema ALOHA consiste em dois pares cinemáticos, um para cada braço. Cada par tem um braço "líder" — um braço leve e acionável que o operador segura e move com as mãos — e um braço "seguidor" que espelha as posições das articulações do líder em tempo real. O braço seguidor carrega o manipulador real (garra, ferramenta ou efetor final) e interage com o mundo físico. O braço líder não tem requisitos de carga útil de efetor final porque só precisa ser acionável e fornecer feedback de torque ao operador.
A configuração bimanual — dois pares completos de líder-seguidor — é o que torna o ALOHA singularmente capaz para tarefas ágeis. As mãos humanas são bimanual por natureza: uma mão segura o objeto enquanto a outra o manipula, ou ambas as mãos cooperam para completar uma tarefa que requer dois pontos de contato simultâneos. Robôs de braço único podem apenas aproximar essas tarefas com fixações complexas ou sequenciamento; robôs bimanual podem lidar com elas diretamente. O fator de forma do ALOHA, com ambos os braços montados em um suporte de mesa compartilhado, é otimizado para tarefas de manipulação em mesa onde o operador se senta em frente ao sistema.
A configuração da câmera no artigo original do ALOHA usou três câmeras: uma acima (visão de pássaro de todo o espaço de trabalho), uma no pulso esquerdo e uma no pulso direito. Todas as três câmeras são usadas como observações visuais para a política ACT. Essa configuração de múltiplas vistas é crítica: as câmeras de pulso fornecem visões de perto de eventos de agarre e contato, enquanto a câmera superior fornece contexto global para a coordenação de duas mãos. Variantes do ALOHA com uma única câmera mostram desempenho de política mensuravelmente inferior em tarefas que exigem coordenação.
ACT: O Algoritmo por Trás do ALOHA
O ACT (Ação em Blocos com Transformadores) foi desenvolvido juntamente com o ALOHA e é o principal algoritmo de aprendizado para a plataforma. O ACT é uma política de aprendizado por imitação baseada em transformadores que prevê um bloco de posições futuras das articulações — tipicamente 100 passos de tempo a 50Hz, cobrindo 2 segundos de movimento — em vez de uma única próxima ação. Essa arquitetura de blocos de ação reduz substancialmente o problema de erro acumulado da clonagem comportamental ingênua, onde pequenos erros de previsão em cada passo de tempo se acumulam em grandes desvios de trajetória ao longo de uma tarefa.
A arquitetura da política ACT usa um codificador CVAE (Autoencoder Variacional Condicional) durante o treinamento para capturar o estilo latente de cada demonstração — essencialmente, uma representação comprimida de "como" o humano completou a tarefa, distinta de "qual" foi o resultado da tarefa. Isso permite que a política modele a variação natural nas demonstrações humanas sem artefatos de média de modos. No momento da inferência, apenas o decodificador CVAE é executado, condicionado à observação atual e a um vetor latente amostrado, para gerar o bloco de ação.
Treinar o ACT em um conjunto de dados ALOHA com 50 demonstrações por tarefa leva de 2 a 4 horas em uma única GPU RTX 3090. O código de treinamento, lançado com o artigo original, é simples de executar com hiperparâmetros documentados para tarefas padrão do ALOHA. Para tarefas personalizadas, o hiperparâmetro mais impactante a ser ajustado é o tamanho do bloco (kl_weight na configuração) — blocos maiores melhoram a consistência temporal às custas da reatividade a distúrbios inesperados. O SVRC plataforma inclui pipelines de treinamento ACT pré-configurados para conjuntos de dados no formato ALOHA.
ALOHA Móvel: Levando o ALOHA para Fora da Mesa
O ALOHA Móvel, publicado pelo mesmo grupo de Stanford em 2024, estendeu o conceito ALOHA para uma base móvel. A configuração do braço bimanual foi montada em uma base móvel AgileX Tracer, permitindo que o sistema navegue para diferentes locais dentro de um espaço — aproximando-se de uma bancada de cozinha, movendo-se para uma mesa de jantar, navegando por um corredor — enquanto retém os braços ALOHA para manipulação. O ALOHA Móvel demonstrou tarefas como cozinhar camarões em um fogão, carregar uma máquina de lavar louça e entregar um pacote — tarefas que exigem tanto locomoção quanto manipulação ágil.
O ALOHA Móvel também introduziu o conceito de teleoperação de corpo inteiro: o operador controla tanto a base móvel quanto os dois braços simultaneamente, seja através de interfaces de controle separadas ou através de uma interface unificada que mapeia os movimentos corporais do operador para a configuração corporal total do robô. A coleta de dados para o ALOHA Móvel é significativamente mais complexa do que o ALOHA de mesa porque a política deve aprender a coordenar navegação e manipulação, exigindo demonstrações que cobrem variação espacial no ambiente, bem como variação de objetos.
O ALOHA Móvel também introduziu o co-treinamento: treinar a política do ALOHA Móvel conjuntamente em demonstrações de manipulação móvel e demonstrações de manipulação ALOHA estáticas. O co-treinamento melhorou o desempenho de manipulação na plataforma móvel, sugerindo que o conhecimento de manipulação bimanual dos dados de mesa se transfere de forma útil para o contexto móvel. O SVRC oferece conjuntos de dados compatíveis com o ALOHA Móvel e pode coletar demonstrações de manipulação móvel em nossa instalação em Palo Alto. Contate-nos para discutir suas necessidades de dados do ALOHA Móvel.
Diferenças Entre ALOHA, ALOHA 2 e Derivados Comerciais
O ALOHA 2, publicado no final de 2024, melhorou o original em várias dimensões: braços de maior qualidade com melhor repetibilidade, um sistema de montagem de câmera aprimorado e um design de pulso revisado que reduz a complexidade do roteamento de cabos. O sistema elétrico também foi atualizado para usar uma placa de distribuição de energia dedicada em vez de cabos de energia em cadeia, melhorando a confiabilidade durante longas sessões de coleta de dados. O ALOHA 2 mantém total compatibilidade de software com o original — conjuntos de dados coletados em um podem treinar políticas avaliadas no outro, sujeitas às habituais ressalvas sobre variação de hardware.
Vários fornecedores comerciais agora vendem plataformas compatíveis com ALOHA — sistemas pré-montados e testados que seguem a especificação mecânica e de software do ALOHA sem exigir que o construtor obtenha componentes e monte os braços por conta própria. Esses sistemas comerciais ALOHA custam mais do que a lista de materiais DIY, mas reduzem substancialmente o tempo de configuração e o risco de erros de montagem. O catálogo de hardware do SVRC inclui configurações compatíveis com ALOHA; veja o loja para opções e preços atuais.
Começando com ALOHA através do SVRC
O SVRC apoia a pesquisa baseada em ALOHA em todas as etapas. Para equipes que estão começando, oferecemos leasing da plataforma ALOHA através do nosso programa de leasing de robôs — acesse um conjunto bimanual completo por uma taxa mensal fixa sem o compromisso de capital de compra de hardware. Os sistemas alugados chegam pré-calibrados e prontos para coletar demonstrações no primeiro dia.
Para coleta de dados, nosso serviço gerenciado fornece operadores treinados em ALOHA que podem coletar demonstrações em nossa instalação em Palo Alto, com conjuntos de dados entregues no formato RLDS/LeRobot compatível com ACT, Diffusion Policy e pipelines de treinamento OpenVLA. Nossos operadores têm experiência em tarefas de coordenação bimanual e seguem protocolos de qualidade estruturados que produzem conjuntos de dados mais limpos do que os pesquisadores de primeira viagem normalmente conseguem. Também podemos visitar seu local para campanhas de coleta de dados no local, se sua tarefa exigir.
Para treinamento e avaliação de políticas, o plataforma SVRC fornece pipelines de treinamento ACT pré-configurados, rastreamento de experimentos e ferramentas de avaliação para políticas ALOHA. Nosso benchmarks inclui avaliações de tarefas específicas de ALOHA que permitem comparar o desempenho da sua política com implementações de referência. Se você está construindo um programa de pesquisa de manipulação bimanual do zero ou tentando melhorar o desempenho de um sistema existente, equipe do SVRC pode ajudá-lo a planejar a abordagem certa.