Glossário de Robótica

60+ termos cobrindo aprendizado por imitação, modelos VLA, teleoperação, cinemática e IA incorporada — escrito para pesquisadores, engenheiros e equipes empresariais.

65 termos A–Z organizado Atualizado 2026

A

ACT (Divisão de Ação com Transformers)

ACT é um algoritmo de aprendizado por imitação introduzido por Tony Zhao et al. (2023) que treina uma política baseada em transformadores para prever um bloco de ações futuras de comprimento fixo, em vez de uma única ação em cada passo de tempo. Ao prever sequências de ações de uma só vez, o ACT reduz o erro acumulado típico do clonagem comportamental passo a passo e produz movimento temporalmente consistente. A arquitetura codifica observações RGB e estado proprioceptivo através de um codificador estilo CVAE e decodifica blocos de ação usando um transformador. O ACT foi demonstrado na ALOHA plataforma bimanual, alcançando forte desempenho em tarefas como abrir uma bolsa e transferir ovos. Veja também: Divisão de Ação (análise aprofundada).

PolíticaTransformadorAprendizado por Imit ação

Espaço de Ação

O espaço de ação é o conjunto completo de saídas que uma política robótica pode produzir em cada passo de tempo. Para um braço robótico, geralmente inclui posições de juntas, velocidades de juntas ou poses de efetores finais (posição cartesiana + quaternão); para um robô móvel, inclui velocidades de rodas ou comandos de direção. Os espaços de ação são descritos como discretos (um menu finito de ações) ou contínuos (vetores de valores reais). A dimensionalidade e a representação do espaço de ação influenciam fortemente a facilidade de treinar uma política estável: espaços de delta-pose de efetor final são frequentemente mais fáceis para aprendizado por imitação, enquanto espaços de torque de juntas oferecem controle de força mais fino, mas requerem normalização mais cuidadosa.

PolíticaControle

ALOHA (Um Sistema de Hardware de Baixo Custo e Código Aberto para Teleoperação Bimanual)

ALOHA é um sistema de teleoperação bimanual de código aberto desenvolvido em Stanford, consistindo de dois braços robóticos ViperX 300 e dois braços líderes WidowX 250 montados em uma estrutura compartilhada com uma câmera de pulso integrada. Foi projetado para coletar dados de demonstração de alta qualidade a baixo custo — a construção original está abaixo de $20.000 — e fundamenta os ACT experimentos de política. O ALOHA Móvel estende a plataforma com uma base com rodas, permitindo tarefas de loco-manipulação de corpo inteiro, como cozinhar e limpar. Os conjuntos de dados do ALOHA estão disponíveis publicamente e se tornaram um padrão de fato para pesquisa em manipulação bimanual. Saiba mais em Serviços de Dados SVRC.

HardwareTeleoperaçãoBimanual

AMR (Robô Móvel Autônomo)

Um robô móvel autônomo navega por seu ambiente sem trilhos fixos ou orientação humana, utilizando sensores a bordo (LiDAR, câmeras, IMU) combinados com SLAM, planejamento de trajetória e algoritmos de evasão de obstáculos. Ao contrário dos AGVs (veículos guiados automatizados) que seguem faixas magnéticas, os AMRs constroem e atualizam um mapa em tempo real e redirecionam dinamicamente ao redor de pessoas e objetos. Os AMRs modernos de empresas como Boston Dynamics, Locus Robotics e 6 River Systems impulsionaram a ampla adoção na logística. Os AMRs são frequentemente combinados com braços manipuladores para criar manipuladores móveis capazes de pegar e colocar em escala.

Robótica MóvelNavegaçãoSLAM

B

Clonagem Comportamental (BC)

A clonagem comportamental é a forma mais simples de aprendizado por imitação: um problema de regressão supervisionada onde a política é treinada para imitar demonstrações de especialistas minimizando o erro de previsão entre a saída da política e a ação do especialista em cada estado observado. O BC é fácil de implementar e escala bem com dados, mas sofre de mudança de distribuição — porque nunca recebe feedback corretivo, pequenos erros fazem com que o robô visite estados não presentes nos dados de treinamento, o que pode levar a falhas na tarefa. Técnicas como DAgger (Agregação de Conjuntos de Dados) e GAIL foram desenvolvidas especificamente para abordar o problema de erro acumulado do BC.

Aprendizado por Imit açãoAprendizado Supervisionado

Manipulação Bimanual

A manipulação bimanual refere-se a tarefas que exigem dois braços robóticos trabalhando em coordenação, análoga a como os humanos usam ambas as mãos simultaneamente. Exemplos incluem dobrar roupas, amarrar nós, abrir potes e montar peças que devem ser estabilizadas por uma mão enquanto a outra realiza operações finas. As tarefas bimanual são substancialmente mais difíceis do que as tarefas de braço único porque a política deve coordenar dois fluxos de ação de alta dimensão enquanto respeita as restrições físicas entre os braços. O ALOHA plataforma foi construída especificamente para coletar demonstrações bimanual, e ACT está entre as políticas líderes para controle bimanual.

ManipulaçãoHardware

BOM (Lista de Materiais)

Em hardware de robótica, a lista de materiais (BOM) lista cada componente, submontagem, número de peça, quantidade e custo unitário necessários para construir um sistema. BOMs precisas são críticas para a escalabilidade da produção, aquisição, gerenciamento de risco da cadeia de suprimentos e modelagem de custos. Para plataformas de robôs de código aberto, como OpenArm ou ALOHA, uma BOM publicada permite que equipes externas reproduzam o hardware sem dependências proprietárias. Equipes empresariais que avaliam a implantação de robôs frequentemente solicitam uma BOM para comparar o custo total de propriedade com alternativas de leasing ou robô como serviço — comparar opções de arrendamento do SVRC.

HardwareFabricação

C

Espaço Cartesiano (Espaço de Tarefa)

O espaço cartesiano (também chamado de espaço de tarefa ou espaço operacional) descreve a configuração de um robô em termos da posição e orientação de seu efetor final em relação a um quadro de referência do mundo ou base, tipicamente expresso como (x, y, z, rotação, inclinação, guinada) ou (x, y, z, quaternions). Controlar um robô no espaço cartesiano é frequentemente mais intuitivo para aprendizado por imitação porque demonstrações humanas se mapeiam naturalmente em trajetórias do efetor final. A transformação de espaço articular para o espaço cartesiano é chamada de cinemática direta; o inverso é cinemática inversa.

CinemáticaControle

Co-treinamento

Co-treinamento em robótica refere-se ao treinamento de uma única política com dados de múltiplas encarnações de robôs, tarefas ou ambientes simultaneamente. A hipótese é que fontes de dados diversas ensinam à política representações visuais e comportamentais robustas que se transferem melhor para novos contextos. O X-Embodiment Aberto conjunto de dados foi montado especificamente para permitir co-treinamento em mais de 22 tipos de robôs. Grandes modelos de base como RT-2 e OpenVLA dependem de co-treinamento com dados de visão-linguagem em escala de internet juntamente com dados de demonstração de robôs para impulsionar a generalização.

TreinamentoGeneralizaçãoModelo Fundamental

Manipulação rica em contato

Tarefas de manipulação ricas em contato são aquelas em que o contato intencional e sustentado entre o robô e o ambiente é essencial para o sucesso da tarefa — como inserção de pino em furo, aparafusar parafusos, dobrar tecido ou amassar massa. Essas tarefas são desafiadoras porque pequenos erros de posição produzem grandes picos de força, e controladores de posição rígidos podem danificar peças ou desestabilizar o robô. Abordagens bem-sucedidas combinam controle conformável (controle de impedância ou admitância), sensoriamento de força e torque, e políticas aprendidas que antecipam e exploram o contato.

ManipulaçãoControleSensoriamento de Força

Controle Contínuo

Controle contínuo refere-se a políticas de robôs que produzem vetores de ação de valor real (por exemplo, torques de juntas, velocidades ou deltas cartesianas) em vez de selecionar a partir de um conjunto discreto de ações. A maioria das tarefas de manipulação robótica física requer controle contínuo porque o movimento suave e preciso não pode ser adequadamente representado por um menu de ações finito. Os algoritmos padrão de RL profundo para controle contínuo incluem DDPG, TD3 e SAC; para aprendizado por imitação, clonagem comportamental e Política de Difusão são comumente usados em espaços de ação contínuos.

ControleAprendizado por Reforço

D

Aumento de Dados (para robótica)

O aumento de dados no aprendizado de robôs aplica transformações aleatórias às observações de treinamento para melhorar a robustez da política sem coletar demonstrações adicionais. As ampliações de imagem comuns incluem recorte aleatório, variação de cor, desfoque gaussiano e recorte. Ampliações mais sofisticadas sobrepõem fundos distrativos, mudam as condições de iluminação ou injetam ruído de sensor para evitar o sobreajuste a características visuais específicas no ambiente de treinamento. Algumas abordagens também aumentam ações — por exemplo, adicionando ruído às trajetórias das juntas para ensinar a política a se recuperar de perturbações. O aumento é especialmente importante quando os dados de treinamento são caros (cada demonstração requer tempo de operador humano).

TreinamentoRobustezDados

Graus de Liberdade (GDL)

Graus de liberdade descrevem o número de parâmetros independentes necessários para especificar a configuração de um sistema mecânico. Um braço robótico com seis juntas rotativas tem 6 GDL — o suficiente para posicionar e orientar seu efetor final arbitrariamente dentro de seu espaço de trabalho alcançável (exceto em singularidades). Um braço de 7 GDL adiciona uma junta redundante que permite a otimização do espaço nulo para evitar obstáculos ou poses de conforto. Os braços humanos têm aproximadamente 7 GDL na cadeia ombro-cotovelo-pulso, tornando robôs de 7 GDL escolhas naturais para manipulação antropomórfica. Bases móveis adicionam 2–3 GDL; humanos completos excedem 30 GDL.

CinemáticaHardware

Demonstração

Uma demonstração (também chamada de trajetória ou episódio em contextos de aprendizado por imitação) é uma sequência gravada de observações e ações fornecidas por um humano ou controlador especialista que ilustra como realizar uma tarefa. As demonstrações são a principal fonte de dados para clonagem comportamental e outros algoritmos de aprendizado por imitação. Elas podem ser coletadas via teleoperação, ensino cinestésico, ou captura de movimento. A qualidade dos dados — movimento suave, execução consistente da tarefa, cobertura adequada do espaço de estado da tarefa — é tão importante quanto a quantidade para o desempenho da política em etapas posteriores. A SVRC coleta demonstrações de robôs de qualidade de produção através de nosso serviços de dados.

DadosAprendizado por Imit ação

Política de Difusão

A Política de Difusão, introduzida por Chi et al. (2023), formula a geração de ações de robôs como um processo de difusão de desnoising — a mesma classe de modelos generativos usados na geração de imagens. No tempo de inferência, a política refina iterativamente uma amostra de ruído gaussiano em uma sequência de ações condicionadas à observação atual usando uma rede de pontuação aprendida (tipicamente uma CNN ou transformador). Comparado à clonagem comportamental determinística, a Política de Difusão representa naturalmente multimodal distribuições de ação (múltiplas maneiras válidas de realizar uma tarefa) e alcança resultados de ponta em benchmarks de manipulação ricos em contato. Veja o artigo detalhado.

PolíticaModelo GerativoAprendizado por Imit ação

Manipulação Hábil

A manipulação hábil refere-se a tarefas de manipulação fina e multifacetada que exploram todas as capacidades cinemáticas e sensoriais de uma mão robótica — regrasping em mão, rolamento de objetos sobre as pontas dos dedos, distribuição de cartas, sutura cirúrgica e tarefas semelhantes. A destreza requer efetores finais de alta qualidade (5+ dedos, cada um com 3+ articulações), sensoriamento tátil denso e políticas capazes de raciocinar sobre geometria de contato complexa. O aprendizado por reforço treinado em simulação (por exemplo, Dactyl da OpenAI) e políticas recentes baseadas em difusão avançaram a fronteira, mas a manipulação hábil com confiabilidade em nível humano continua sendo um problema de pesquisa em aberto.DOF Fronteira de Pesquisa

ManipulaçãoHardwareA IA incorporada refere-se a sistemas de inteligência artificial que percebem e agem através de um corpo físico situado no mundo real, em vez de operar puramente em texto ou imagens isoladas. A hipótese da incorporação sustenta que a verdadeira inteligência requer fundamentação sensório-motora — aprendizado através da interação, não apenas correspondência de padrões em conjuntos de dados estáticos. Na prática, a pesquisa em IA incorporada abrange aprendizado de robôs,

E

IA incorporada

transferência sim-para-real e modelos de fundação física. Empresas como Google DeepMind (série RT), Physical Intelligence (pi0) e NVIDIA (GR00T) são os principais motores industriais. O próprio Modelos VLASVRC é construído para fluxos de trabalho de dados de IA incorporada. plataforma de dados IA Física

Modelo FundamentalO efetor final é o dispositivo na extremidade distal de um braço robótico que interage diretamente com o ambiente. Pode ser um gripper de mandíbula paralela, uma ventosa, uma mão multifacetada, um maçarico de solda, um bico de pintura ou qualquer ferramenta específica para a tarefa. A pose do efetor final — sua posição e orientação no espaço — é a principal saída de controle para a maioria das políticas de manipulação. O ponto central da ferramenta (TCP) é o ponto de referência no efetor final usado para controle cartesiano. Escolher o efetor final certo é uma decisão crítica de implantação: grippers otimizados para uma classe de objeto (por exemplo, caixas rígidas) podem falhar em itens macios ou irregulares. Navegue

Efetor Final

Opções de hardware do SVRC Episódio.

HardwareManipulação

Um episódio é uma única tentativa completa de uma tarefa — desde o estado inicial até o sucesso, falha ou um tempo limite da tarefa. No aprendizado por reforço, o agente interage com o ambiente por um episódio, acumula recompensas e, em seguida, o ambiente é redefinido. No aprendizado por imitação, cada demonstração gravada constitui um episódio. Os episódios são a unidade fundamental dos conjuntos de dados de aprendizado de robôs: um conjunto de dados de 1.000 episódios contém 1.000 tentativas de tarefa com observações, ações e resultados associados. O comprimento do episódio, as condições de redefinição e os critérios de sucesso devem ser definidos com precisão para garantir a coleta de dados consistente.

Extrínsecos

DadosAprendizado por ReforçoAprendizado por Imit ação

(câmera) Os extrínsecos da câmera definem a posição e a orientação (pose de 6 graus de liberdade) de uma câmera em relação a um quadro de referência — tipicamente a base do robô ou o efetor final. Juntamente com os parâmetros intrínsecos (distância focal, ponto principal, distorção da lente), os extrínsecos permitem projetar pontos do mundo 3D no plano da imagem e, inversamente, elevar detecções 2D para o espaço 3D. A calibração extrínseca precisa é crítica para políticas visuomotoras que devem mapear observações visuais para ações do robô em um quadro de coordenadas consistente. Câmeras olho-na-mão (montadas no pulso) requerem recalibração quando o efetor final ou a câmera é substituído.

Percepção

Sensor de Força e TorqueCalibração

F

(Sensor FT) Um sensor de força e torque mede a chave de seis eixos (três forças Fx, Fy, Fz e três torques Tx, Ty, Tz) aplicados no pulso ou efetor final de um robô. Sensores FT são essenciais para tarefas ricas em contato e montagem, onde o controle de posição puro poderia perder contatos ou aplicar força excessiva. Eles permitem laços de controle de impedância e admitância, detectam deslizamento e colisão, e fornecem entradas sensoriais ricas para políticas aprendidas. Sensores FT de alta precisão da ATI e Robotiq são padrão em laboratórios de pesquisa; sensores de baixo custo baseados em MEMS estão se tornando cada vez mais viáveis para implantações em produção.

Sensoriamento

HardwareSensingControle

Modelo Fundamental (robótica)

Um modelo fundamental é uma grande rede neural pré-treinada em dados amplos e diversos que pode ser adaptada a muitas tarefas subsequentes por meio de ajuste fino ou prompting. Em robótica, os modelos fundamentais são tipicamente grandes modelos de visão-linguagem (VLMs) estendidos com saídas de ação para formar VLAs, ou grandes políticas visuomotoras treinadas em conjuntos de dados de cross-embodiment. Exemplos incluem RT-2 (Google DeepMind), OpenVLA, Octo e pi0 (Inteligência Física). Modelos fundamentais para robótica são atraentes porque podem aproveitar o pré-treinamento em escala de internet, suportar condicionamento de linguagem e generalizar entre tarefas sem re-treinamento por tarefa desde o início. Veja Catálogo de modelos SVRC.

VLAPré-treinamentoGeneralização

Cinemática direta (FK)

A cinemática direta calcula a pose do efetor final no espaço cartesiano dado os ângulos das juntas do robô (ou deslocamentos para juntas prismáticas). Para um robô de cadeia serial, a FK é calculada multiplicando uma sequência de matrizes de transformação homogêneas (uma por junta), tipicamente derivadas de parâmetros de Denavit-Hartenberg (DH) ou uma descrição URDF. A FK sempre tem uma solução única — dados os ângulos das juntas, há exatamente uma pose do efetor final — ao contrário do problema inverso (IK), que pode ter zero, uma ou muitas soluções. A FK é usada em simulação, verificação de colisão, visualização e monitoramento do estado do robô em tempo real.

CinemáticaControle

G

Generalização (política de robô)

A generalização mede quão bem uma política de robô se desempenha em objetos, cenas ou tarefas que não viu durante o treinamento. É o desafio central do aprendizado de robô: uma política que memoriza demonstrações de treinamento, mas falha em instâncias novas, não tem valor prático. Os pesquisadores distinguem generalização de objeto (novas instâncias de categorias conhecidas), generalização de categoria (classes de objetos totalmente novas) e generalização de tarefa (novas formulações de instruções ou configurações de objetivo). Melhorar a generalização geralmente requer dados de treinamento maiores e mais diversos, co-treinamento com dados da internet, randomização de domínio em simulação e modelo fundamental priors.

PolíticaA IA incorporada refere-se a sistemas de inteligência artificial que percebem e agem através de um corpo físico situado no mundo real, em vez de operar puramente em texto ou imagens isoladas. A hipótese da incorporação sustenta que a verdadeira inteligência requer fundamentação sensório-motora — aprendizado através da interação, não apenas correspondência de padrões em conjuntos de dados estáticos. Na prática, a pesquisa em IA incorporada abrange aprendizado de robôs,

Pose de apreensão

Uma pose de apreensão especifica a posição e orientação de 6-DOF de uma mão ou garra de robô em relação a um objeto de forma que a garra possa fechar e segurar o objeto com segurança. A estimativa da pose de apreensão é tipicamente feita a partir de dados de profundidade ou nuvem de pontos usando métodos analíticos (por exemplo, amostragem de apreensão antipodal) ou detectores aprendidos como GraspNet-1Billion, GQ-CNN ou AnyGrasp. Uma pose de apreensão válida deve ser alcançável pelo robô, livre de colisões durante a abordagem e estável sob as cargas de tarefa esperadas. Métricas de qualidade de apreensão incluem fechamento de força, estabilidade de contato e resistência a torques específicos da tarefa.

ManipulaçãoSensor de Força e Torque

Garra

Uma garra é a classe mais comum de robô efetor final, projetada para agarrar e segurar objetos. Garras de mandíbula paralela são as mais simples e amplamente utilizadas, com dois dedos opostos acionados por um motor ou pneumática. Garras de sucção usam vácuo para pegar superfícies lisas e planas. Garras macias usam materiais conformáveis (silicone, tecido) para se adaptar a objetos irregulares. Mãos multi-dedos (3–5 dedos) possibilitam manipulação habilidosa mas são mais difíceis de controlar e mais caras. A seleção da garra depende criticamente da geometria do objeto, propriedades da superfície, carga útil necessária e se a reorientação em mão é necessária.

HardwareEfetor Final

H

HDF5 (Formato de Dados Hierárquico v5)

HDF5 é um formato de arquivo binário e biblioteca para armazenar e acessar grandes conjuntos de dados científicos estruturados de forma eficiente. Na robótica, HDF5 é o contêiner padrão para conjuntos de dados de demonstração de robôs: um único arquivo armazena imagens de câmera sincronizadas, ângulos de juntas, estados de garra, leituras de força e metadados em grupos hierárquicos, com I/O em blocos permitindo acesso aleatório rápido durante o treinamento. Os ecossistemas LeRobot e ALOHA usam HDF5 nativamente. A alternativa Zarr o formato oferece armazenamento em blocos nativo na nuvem com melhor suporte para gravações concorrentes. O HDF5 de pipelines de coleta de dados saída do SVRC por padrão.

DadosArmazenamentoEngenharia

Robô Humanoide

Um robô humanoide tem uma estrutura corporal amplamente semelhante a um humano — tipicamente um tronco, duas pernas, dois braços e uma cabeça — permitindo que opere em ambientes projetados para pessoas e use ferramentas humanas. Robôs humanoides notáveis incluem Boston Dynamics Atlas, Agility Robotics Digit, Figure 01 e Tesla Optimus. Os humanoides apresentam desafios extremos de engenharia: a locomoção bípede requer controle de equilíbrio em tempo real, e coordenar mais de 30 DOF para tarefas de loco-manipulação exige controle de corpo inteiro. Apesar dessa complexidade, os humanoides estão atraindo enormes investimentos porque seu fator de forma se generaliza em diversos locais de trabalho sem mudanças na infraestrutura.

HardwareLocomoçãoBimanual

Interação Humano-Robô (DELA)

A interação humano-robô é um campo interdisciplinar que estuda como pessoas e robôs se comunicam, colaboram e compartilham espaço físico de forma eficaz e segura. A pesquisa em IHR abrange padrões de segurança (ISO/TS 15066 para robôs colaborativos), design de interface do usuário para teleoperação, instruções em linguagem natural, movimento legível do robô (tornando a intenção do robô legível para os espectadores) e robótica social (usando olhar, gesto e fala para comunicação não verbal). Em implantações industriais de co-bots, a IHR determina diretamente se os trabalhadores aceitam e usam efetivamente os robôs ao seu lado. Um bom design de IHR reduz acidentes, melhora a produtividade e diminui a carga de treinamento do lado humano.

SegurançaColaboração

I

Aprendizado por Imit ação (IL)

Aprendizado por imitação é uma família de métodos de aprendizado de máquina que treinam políticas de robô a partir de demonstrações humanas em vez de funções de recompensa engenheiradas. A forma mais simples é clonagem comportamental (regressão supervisionada em pares estado-ação). Variantes mais avançadas — DAgger (correção iterativa), GAIL (imitação adversarial) e IRL (recuperação de uma função de recompensa) — abordam os problemas de mudança de distribuição e especificação de recompensa que afligem o BC puro. O IL se tornou o paradigma dominante para ensinar manipulação habilidosa porque a engenharia de recompensas para manipulação complexa é extremamente difícil, enquanto coletar demonstrações humanas é viável em escala via teleoperaçãoVeja o artigo completo de imersão.

Conceito CentralPolíticaDados

Cinemática Inversa (IK)

A cinemática inversa resolve os ângulos das juntas que colocam o efetor final de um robô em uma pose cartesiana desejada. Ao contrário cinemática direta, a IK pode ter zero, uma ou infinitas soluções dependendo da estrutura cinemática do robô e da pose alvo. Solucionadores analíticos de IK existem para configurações padrão de 6-DOF; métodos numéricos (pseudo-inversa de Jacobiano, Newton-Raphson, baseado em otimização) lidam com geometrias arbitrárias e robôs redundantes. A IK é usada no planejamento de movimento, mapeamento de teleoperação (convertendo a pose da mão do operador em comandos de junta) e em qualquer controlador de espaço cartesiano. Bibliotecas como KDL, IKFast e track-ik são comumente usadas em ambientes ROS.

CinemáticaControlePlanejamento

Isaac Sim

NVIDIA Isaac Sim é uma plataforma de simulação robótica construída sobre a estrutura Omniverse USD, fornecendo física de alta fidelidade (via PhysX 5), renderização fotorrealista (via traçado de raios RTX) e integração com ROS 2 pronta para uso. É projetada para gerar dados de treinamento sintéticos, testar políticas de robô e pesquisa de transferência sim-para-real. Isaac Sim suporta randomização de domínio de texturas, iluminação e poses de objetos em grande escala, e se integra com a estrutura de aprendizado por reforço Isaac Lab da NVIDIA. Sua física acelerada por GPU permite treinar políticas de RL com milhares de instâncias de simulação paralelas. Saiba mais na página de recursos do SVRC Isaac Sim.

SimulaçãoDados SintéticosFerramenta

J

Espaço de Juntas (Espaço de Configuração)

O espaço de juntas (também chamado de espaço de configuração ou C-space) é o espaço de todos os vetores de ângulo de junta possíveis para um robô. Um ponto no espaço de juntas especifica de forma única a configuração completa do robô. Algoritmos de planejamento de movimento como RRT e PRM trabalham no espaço de juntas para encontrar caminhos livres de colisão entre configurações, uma vez que a verificação de colisão é mais direta lá do que no espaço cartesiano. Muitas políticas de RL produzem posições ou velocidades de juntas diretamente no espaço de juntas, enquanto políticas de aprendizado por imitação frequentemente operam em espaço cartesiano para facilitar o alinhamento com o demonstrador humano. Veja o artigo sobre espaço de juntas.

CinemáticaPlanejamento

Torque Conjunto

O torque articular é a força rotacional aplicada por um motor em uma articulação de robô, medida em Newton-metros (Nm). Robôs controlados por torque (em oposição aos controlados por posição) podem regular forças de contato diretamente, permitindo comportamentos conformes, como ceder quando empurrados e controlar precisamente forças de montagem. A detecção de torque em cada articulação é uma característica chave de robôs colaborativos (cobots) como o Franka Panda, a série UR da Universal Robots e o Kuka iiwa, permitindo uma colaboração segura entre humanos e robôs e controle conformal de corpo inteiro. Aprender políticas que produzem torques articulares em vez de posições requer um treinamento cuidadoso para evitar oscilações instáveis.

ControleHardwareForça

K

Cadeia Cinemática

Uma cadeia cinemática é uma série de elos de corpo rígido conectados por articulações que juntos formam a estrutura mecânica de um robô. Uma cadeia aberta (braço robótico serial) tem uma extremidade livre (o efetor final), tornando a cinemática direta simples. Uma cadeia fechada (robô paralelo, hexápode) tem múltiplos laços que proporcionam maior rigidez e velocidade, mas requerem cinemática mais complexa. A cadeia cinemática determina o espaço de trabalho do robô, singularidades e a matriz Jacobiana usada para controle cartesiano. Arquivos URDF descrevem cadeias cinemáticas como uma árvore de elos e articulações para software de simulação e controle.

CinemáticaMecânica

Ensino Cinestésico

O ensino cinestésico (também chamado de condução pelo nariz ou orientação direta) é um método de programação de robôs onde um humano agarra fisicamente o braço do robô e o move pelo caminho de movimento desejado enquanto o robô registra a trajetória. Isso requer que o robô seja retroalimentável (baixa fricção nas articulações e conformidade) para que o operador possa movê-lo com esforço mínimo. O ensino cinestésico é intuitivo e não requer hardware externo, mas é limitado a tarefas que o operador pode demonstrar fisicamente, e produz apenas dados proprioceptivos (sem observações de câmera de pulso) a menos que câmeras sejam gravadas em conjunto. O modo de compensação da gravidade em robôs controlados por torque como o Franka Panda torna o ensino cinestésico prático.

Coleta de DadosAprendizado por Imit ação

L

Política Condicionada por Linguagem

Uma política condicionada por linguagem toma uma instrução em linguagem natural (por exemplo, "pegue o copo vermelho e coloque-o na bandeja") como uma entrada adicional juntamente com observações visuais, permitindo que uma única rede de políticas execute múltiplas tarefas selecionadas em tempo de execução sem re-treinamento. A condicionamento por linguagem é tipicamente implementada codificando instruções com um modelo de linguagem pré-treinado (CLIP, T5, PaLM) e fundindo a incorporação resultante com características de imagem. Modelos VLA como RT-2, OpenVLA e pi0 são condicionados por linguagem por design. Essa abordagem reduz a necessidade de treinar políticas separadas por tarefa e suporta generalização zero-shot para novas formulações de instruções.

VLAModelo FundamentalGeneralização

Espaço Latente

Um espaço latente é uma representação comprimida e de menor dimensão de dados aprendida por uma rede neural — a saída de um codificador que captura as características mais relevantes da tarefa de uma observação. Na aprendizagem de robôs, espaços latentes são usados em VAEs (autoencoders variacionais) para aprender representações estruturadas de cenas visuais, em modelos de mundo para prever estados futuros, e em políticas baseadas em CVAE (como ACT) para codificar distribuições de ação multimodal. Um espaço latente bem estruturado coloca observações semanticamente semelhantes próximas umas das outras, permitindo interpolação, planejamento e aumento de dados no domínio latente em vez de no espaço de pixels brutos.

Aprendizagem de RepresentaçãoPolítica

LeRobot

LeRobot é a biblioteca de código aberto da Hugging Face para aprendizagem de robôs, fornecendo implementações padronizadas de algoritmos de aprendizagem por imitação (ACT, Política de Difusão, TDMPC), um formato de conjunto de dados unificado, ferramentas de visualização e pesos de modelos pré-treinados. O objetivo é reduzir a barreira de entrada para a pesquisa em aprendizagem de robôs, fornecendo uma única estrutura coesa análoga ao que os Transformers fizeram para PLN. LeRobot integra-se com o Hugging Face Hub para compartilhamento de conjuntos de dados e modelos, e suporta ambientes de robôs simulados (gymnasium-robotics, MuJoCo) e físicos. O kit de robô de baixo custo SO-100 foi lançado juntamente com ele.

FerramentaCódigo AbertoAprendizado por Imit ação

Conjunto de Dados LeRobot HF

O formato do conjunto de dados LeRobot é um esquema padronizado para dados de demonstração de robôs hospedados no Hugging Face Hub. Cada conjunto de dados consiste em arquivos Parquet (para séries temporais escalares: posições articulares, ações, recompensas, sinalizadores de conclusão) mais pedaços de vídeo MP4 compactados para fluxos de câmera, todos indexados por episódio e quadro. Um meta/info.json arquivo descreve nomes de câmeras, tipo de robô, fps e estatísticas de dados usadas para normalização. Esse formato permite que qualquer algoritmo compatível com LeRobot carregue qualquer conjunto de dados publicado com uma única linha de código, permitindo experimentação rápida entre conjuntos de dados. Dezenas de conjuntos de dados de manipulação e manipulação móvel já foram publicados nesse formato.

DadosPadrãoCódigo Aberto

M

Manipulação

A manipulação refere-se à interação física intencional com objetos — pegar, colocar, montar, dobrar, inserir, despejar e tarefas semelhantes. A manipulação robótica é uma das áreas de pesquisa mais ativas em IA incorporada, porque até mesmo tarefas simples do dia a dia (carregar uma máquina de lavar louça, abrir um pacote) exigem percepção rica, controle motor preciso e planejamento de apreensão robusto. A dificuldade de manipulação varia de simples pegar e colocar com objetos conhecidos em configurações fixas, passando por montagem rica em contato, até reorientação totalmente hábil na mão com objetos novos em cenas não estruturadas. SVRC's serviços de dados especializam-se em coletar demonstrações de manipulação para treinamento e avaliação.

Conceito CentralTarefa

MoveIt

MoveIt é a estrutura de planejamento de movimento de código aberto mais amplamente utilizada para braços robóticos, originalmente desenvolvida na Willow Garage e agora mantida pela PickNik Robotics. O MoveIt 2 roda no ROS 2 e fornece planejadores (OMPL, CHOMP, PILZ), planejamento de trajetória cartesiana, verificação de colisão contra a cena de planejamento do MoveIt, plugins de cinemática (KDL, IKFast, TracIK) e integração de planejamento de apreensão. É a camada de middleware padrão entre uma política de aprendizado robótico (que gera poses ou pontos de referência desejados do efetor final) e o controlador de junta de baixo nível que executa trajetórias suaves e sem colisões no robô físico.

FerramentaPlanejamentoROS

Aprendizado Multi-tarefa

O aprendizado multi-tarefa treina uma única política em demonstrações de várias tarefas distintas simultaneamente, com a expectativa de que representações compartilhadas aprendidas entre as tarefas melhorem o desempenho em cada tarefa individual e possibilitem a generalização para novas tarefas. Em robótica, isso geralmente significa treinar em centenas de tarefas com objetos, metas e ambientes variados. O principal desafio é equilibrar as contribuições de gradiente de diferentes tarefas (interferência de gradiente) e garantir que a política possa distinguir entre tarefas no momento da inferência — tipicamente por meio de condicionamento de linguagem ou identificadores de tarefa one-hot. Políticas multi-tarefa são um pré-requisito para assistentes robóticos de propósito geral.

PolíticaGeneralizaçãoTreinamento

N

Política Neural

Uma política neural é uma política de controle robótico parametrizada por uma rede neural que mapeia observações (imagens, propriocepção, linguagem) diretamente para ações (posições de juntas, deltas cartesianas, comandos de garra). Em contraste com pipelines clássicos de planejamento de movimento, políticas neurais aprendem o mapeamento de ponta a ponta a partir de dados sem representações intermediárias projetadas manualmente. Políticas neurais modernas usam codificadores convolucionais para visão, transformadores para modelagem de sequência e arquiteturas como ACT, Diffusion Policy ou VLA como base para geração de ações. Uma propriedade chave das políticas neurais é que elas podem ser treinadas a partir de demonstrações ou sinais de recompensa, permitindo que lidem com tarefas muito complexas para controladores codificados manualmente.

PolíticaAprendizado Profundo

Manipulação Não-preensil

A manipulação não-preensil refere-se à manipulação de objetos sem agarrá-los — em vez disso, utilizando empurrar, rolar, pivotar, virar, inclinar ou outras estratégias de contato que aproveitam a gravidade e o atrito da superfície. Por exemplo, empurrar uma caixa sobre uma mesa para posicioná-la, ou empurrar um pino para cima antes de agarrá-lo. Estratégias não-preensil podem mover objetos para configurações agarráveis, reposicionar itens muito grandes para serem agarrados, ou trabalhar em cenas desordenadas onde uma abordagem de apreensão é inviável. Planejar ações não-preensil requer modelar a mecânica de objetos quase estáticos ou dinâmicos e a física de contato, tornando-se um tópico de pesquisa ativo na interseção de manipulação e planejamento de movimento.

ManipulaçãoPlanejamento

O

Espaço de Observação

O espaço de observação define todas as entradas de sensores disponíveis para a política robótica em cada instante de tempo. Modalidades comuns incluem imagens RGB de câmeras de pulso ou superiores, mapas de profundidade de sensores de luz estruturada ou estéreo, estado proprioceptivo (posições de juntas, velocidades, torques), estado da garra, pose do efetor final, leituras táteis e entradas de especificação de tarefa, como embeddings de linguagem ou imagens de metas. O design do espaço de observação afeta profundamente o desempenho e a generalização da política: observações mais ricas carregam mais informações, mas aumentam a complexidade do modelo, o tempo de treinamento e o risco de sobreajuste a características visuais irrelevantes.

Sensor de Força e TorquePolítica

Controle em Malha Aberta

O controle em malha aberta executa uma trajetória pré-planejada sem usar feedback de sensores durante a execução — o robô simplesmente segue as posições ou velocidades comandadas, independentemente do que realmente acontece. Isso é apropriado para tarefas altamente repetíveis em ambientes controlados, como usinagem CNC ou pegar e colocar em um transportador fixo. O controle em malha aberta é rápido e simples, mas falha quando ocorrem distúrbios, porque nenhuma ação corretiva é tomada. Em contraste, o controle em malha fechada (feedback) compara continuamente o estado real com o estado desejado e aplica comandos corretivos, tornando-o muito mais robusto para o aprendizado robótico em ambientes variáveis.

Controle

X-Embodiment Aberto

Open X-Embodiment (OXE) é um conjunto de dados de demonstração robótica em grande escala montado pelo Google DeepMind e 33 instituições de pesquisa, compreendendo mais de 1 milhão de episódios robóticos de 22 diferentes incorporações robóticas e mais de 527 habilidades. Foi criado para permitir co-treinamento entre incorporações — a hipótese sendo que experiências robóticas diversas ensinam representações de manipulação mais ricas do que conjuntos de dados de robô único sozinhos. O RT-X, o modelo treinado no OXE, demonstrou transferência positiva entre incorporações e melhor desempenho em tarefas retidas em comparação com linhas de base de uma única incorporação. Os dados do OXE estão disponíveis publicamente e catalisaram uma onda de pesquisa em robótica entre incorporações.

Conjunto de DadosModelo FundamentalMulti-incorporação

P

Carga útil

A carga útil é a massa máxima (incluindo o peso de qualquer efetor final e ferramentas) que um braço robótico pode carregar enquanto mantém sua precisão posicional e desempenho dinâmico classificados. As especificações de carga útil geralmente variam de menos de 1 kg para robôs de pesquisa colaborativa (WidowX 250: 250 g) a mais de 500 kg para braços industriais grandes. Criticamente, a carga útil classificada é geralmente citada em alcance total com o braço totalmente estendido; em distâncias mais curtas e posturas mais favoráveis, os robôs podem frequentemente lidar com significativamente mais. Exceder os limites de carga útil degrada a precisão, acelera o desgaste e pode acionar falhas de segurança ou danos físicos. catálogo de hardware O SVRC lista a carga útil para cada robô.

HardwareEspecificações

Política (robô)

Na aprendizagem de robôs, uma política (denotada π) é uma função que mapeia observações a ações: π(o) → a. A política é o "cérebro" aprendido do robô que determina o que fazer em cada instante, dado o que percebe. As políticas podem ser representadas como redes neurais (políticas neurais), árvores de decisão, processos gaussianos ou tabelas de consulta. Elas podem ser determinísticas (uma ação por observação) ou estocásticas (uma distribuição sobre ações). A qualidade da política é medida pela taxa de sucesso da tarefa em diversas condições, não apenas nas demonstrações de treinamento. O principal desafio da aprendizagem de robôs é treinar políticas que generalizem de forma confiável além de sua distribuição de treinamento.

Conceito CentralAprendizado Profundo

Implementação de Política

Uma implementação de política é um único episódio de execução de uma política treinada no robô (ou em simulação) desde um estado inicial até a conclusão da tarefa ou tempo limite. As implementações são usadas para avaliar o desempenho da política, coletar novos dados para treinamento adicional (como em DAgger ou ajuste fino de RL) e depurar modos de falha. O número de implementações necessárias para uma estimativa de desempenho confiável depende da variabilidade da tarefa — tarefas de alta variância podem exigir mais de 50 implementações para obter uma estimativa estável da taxa de sucesso. Na pesquisa, as implementações são frequentemente categorizadas por condição inicial (objetos/cenas dentro da distribuição vs. fora da distribuição) para caracterizar a generalização.

AvaliaçãoPolítica

Pré-treinamento

O pré-treinamento é a fase de desenvolvimento do modelo em que uma rede neural é treinada em um grande conjunto de dados diversificado antes do ajuste fino específico da tarefa. Para modelos de fundação em robótica, o pré-treinamento pode ocorrer em dados de visão-linguagem em escala de internet (imagens, vídeos, texto), conjuntos de dados de robôs de corpo cruzado (Open X-Embodiment), dados de simulação sintética ou uma combinação. O modelo pré-treinado aprende representações gerais ricas de objetos, ações e conceitos que se transferem para tarefas robóticas subsequentes com muito menos demonstrações do que o treinamento do zero. O pré-treinamento é o mecanismo por trás do sucesso dos modelos VLA, como o RT-2, que se beneficia tanto do pré-treinamento robótico quanto do pré-treinamento em escala de internet.

Modelo FundamentalTreinamentoAprendizagem por Transferência

Q

Função Q (Função de Valor da Ação)

A função Q Q(s, a) estima a recompensa acumulada descontada esperada que um agente receberá ao tomar a ação a no estado s e, em seguida, seguir uma política dada. As funções Q são centrais para algoritmos de aprendizado por reforço, como DQN (ações discretas) e SAC, TD3 e DDPG (ações contínuas). Na RL robótica, aprender funções Q precisas para tarefas de manipulação de longo prazo é desafiador porque as recompensas são escassas e o espaço de estado-ação é de alta dimensão. Trabalhos recentes em RL offline (IQL, CQL) usam funções Q para extrair políticas de conjuntos de dados fixos sem interação online, preenchendo a lacuna entre aprendizado por imitação e RL.

Aprendizado por ReforçoFunção de Valor

Manipulação Quase Estática

A manipulação quase estática assume que o movimento é lento o suficiente para que as forças inerciais e dinâmicas sejam negligenciáveis — o sistema está efetivamente em equilíbrio estático a cada instante. Essa simplificação permite a modelagem de mecânica de contato tratável para planejar ações de empurrar, deslizar, girar e regrasping em mão. Muitos benchmarks de manipulação robótica (incluindo a maioria das tarefas de pegar e colocar em mesa) operam no regime quase estático. Quando as tarefas envolvem lançamentos rápidos, capturas dinâmicas ou montagem em alta velocidade, as suposições quase estáticas falham e a dinâmica de corpo rígido completa com simulação de contato (por exemplo, MuJoCo, Isaac Sim) são necessárias.

ManipulaçãoMecânica

R

Transferência do Real para o Simulado

A transferência do real para o simulado (o complemento de do simulado para o real) envolve construir ou calibrar uma simulação para corresponder ao mundo real o mais próximo possível — essencialmente construindo um gêmeo digital das condições reais. Isso é usado para reproduzir casos de falha reais em simulação, gerar dados de treinamento sintéticos adicionais correspondentes às características reais do sensor e testar atualizações de políticas com segurança antes da implementação. As técnicas incluem reconstrução de cena fotogramétrica, identificação de parâmetros físicos (identificação de sistema) e métodos de renderização neural (NeRF, 3D Gaussian Splatting) para corresponder à aparência da câmera. Pipelines precisos de real para simulado reduzem drasticamente o número de experimentos físicos necessários para iteração de políticas.

SimulaçãoGêmeo DigitalDados

Alcance

O alcance é a distância máxima da base do braço robótico até qualquer ponto que seu efetor final pode acessar dentro de seu espaço de trabalho. Para um braço serial, o alcance máximo é igual à soma de todos os comprimentos dos elos. O alcance efetivo em uma implantação é menor — levando em conta os limites das juntas, a evitação de colisões e a necessidade de se aproximar de objetos a partir de múltiplas orientações. O alcance determina quais layouts de estações de trabalho e colocações de objetos são viáveis. Ao selecionar robôs para uma tarefa, os engenheiros devem confirmar que o espaço de trabalho necessário (incluindo todas as direções de abordagem para agarrar) está dentro do envelope acessível do robô com precisão aceitável.

HardwareEspecificaçõesCinemática

Buffer de Repetição

Um buffer de repetição (ou memória de repetição de experiências) é um conjunto de dados de transições passadas (estado, ação, recompensa, próximo estado, concluído) coletadas por um agente de RL durante a interação com o ambiente. Em cada etapa de treinamento, mini-lotes aleatórios são amostrados do buffer para treinar a função de valor ou a política, quebrando correlações temporais que poderiam desestabilizar as atualizações de gradiente. Em RL offline e aprendizado de robôs, o buffer de repetição é substituído por um conjunto de dados fixo de demonstrações humanas ou rollouts coletados anteriormente. A repetição de experiências priorizadas pesa a amostragem pelo erro de diferença temporal para focar o treinamento em transições informativas.

Aprendizado por ReforçoDados

Função de Recompensa

A função de recompensa define o objetivo de aprendizado para um agente de aprendizado por reforço: ela atribui um sinal de recompensa escalar r(s, a, s') a cada transição (estado, ação, próximo estado), informando ao agente quão boas ou ruins são suas ações. O design da função de recompensa é uma das partes mais difíceis de aplicar RL à robótica: recompensas esparsas (1 em caso de sucesso, 0 caso contrário) são limpas, mas levam a um aprendizado lento; recompensas densas (por exemplo, distância negativa até o objetivo) guiam o aprendizado, mas podem ser manipuladas de maneiras inesperadas (hackeamento de recompensa). Alternativas incluem aprendizado de recompensa a partir de demonstrações (IRL, RLHF), métricas de simulação específicas da tarefa e modelos de preferência aprendidos. O aprendizado por imitação contorna completamente o problema do design de recompensa, aprendendo diretamente a partir de demonstrações.

Aprendizado por ReforçoConceito Central

S

Transferência de Simulação para o Real

A transferência sim-para-real é o processo de treinar uma política de robô totalmente ou principalmente em simulação e, em seguida, implantá-la em um robô físico, com o objetivo de que a política funcione sem (ou com dados do mundo real mínimos adicionais). O desafio central é a gap de realidade — diferenças na fidelidade física, aparência visual, ruído do sensor e dinâmicas não modeladas entre a simulação e o mundo real. As principais técnicas de mitigação incluem randomização de domínio (aleatorizando parâmetros de simulação durante o treinamento), identificação de sistema (calibrando a simulação para corresponder ao hardware real) e ajuste fino adaptativo em pequenas quantidades de dados reais. Veja o artigo detalhado.

Aprendizagem por TransferênciaSimulaçãoImplantação

Espaço de Estado

O espaço de estado é o conjunto completo de configurações em que um robô e seu ambiente podem estar. Em RL, o estado de Markov s codifica todas as informações necessárias para prever recompensas futuras e transições de estado — idealmente uma descrição completa do mundo. Na prática, o agente só tem acesso a observações parciais (imagens, ângulos das juntas) que podem não capturar totalmente o estado (por exemplo, objetos ocluídos, parâmetros físicos desconhecidos). Projetar um espaço de observação que aproxime bem o estado de Markov enquanto permanece computacionalmente tratável é um desafio chave no design de sistemas de aprendizado de robôs.

Aprendizado por ReforçoControle

Robótica Cirúrgica

A robótica cirúrgica aplica sistemas robóticos a procedimentos médicos, mais famosa através da plataforma da Vinci da Intuitive Surgical para cirurgia laparoscópica minimamente invasiva. Robôs cirúrgicos fornecem escalonamento de movimento (traduzindo grandes movimentos do operador para movimento de instrumentos sub-milimétricos), filtragem de tremores e visualização aprimorada dentro do paciente. Pesquisas emergentes exploram subtarefas cirúrgicas autônomas (suturas, retração de tecidos), orientação assistida por IA e telecirurgia através de links 5G de baixa latência. A aprovação regulatória (FDA 510(k) ou PMA para os EUA) adiciona um ônus substancial de validação. A robótica cirúrgica está na interseção de teleoperação, HRI, e manipulação rica em contato.

MédicoTeleoperaçãoAplicação

T

Aprendizado Parametrizado por Tarefa

O aprendizado parametrizado por tarefa codifica demonstrações em relação a múltiplas estruturas de coordenadas ou parâmetros de tarefa (por exemplo, a pose do objeto, uma localização alvo, uma estrutura de obstáculo) em vez de em uma estrutura de mundo fixa. Ao executar, a política se adapta automaticamente a novas configurações de objetos e alvos sem re-treinamento, porque aprendeu o movimento em relação a referências relevantes para a tarefa. Modelos de Mistura Gaussiana Parametrizados por Tarefa (TP-GMM) e primitivas de movimento kernelizadas são implementações clássicas. Essa abordagem fornece uma forte generalização geométrica para tarefas estruturadas de pegar e colocar, embora exija que as estruturas de tarefa sejam identificadas e rastreadas em tempo de execução.

Aprendizado por Imit açãoGeneralizaçãoPolítica

Teleoperação

Teleoperação é o controle remoto de um robô por um operador humano, usado tanto para execução direta de tarefas (robôs cirúrgicos, robótica espacial, desativação de bombas) quanto como o método principal para coletar demonstrações de aprendizado por imitação de alta qualidade. No aprendizado de robôs, uma configuração comum usa uma arquitetura de líder-seguidor: o operador move um braço líder leve e o robô (seguidor) rastreia o líder em tempo real. Sistemas de teleoperação baseados em VR (usando rastreamento de mãos ou controladores) estão se tornando cada vez mais populares, pois são mais ergonômicos e permitem maior taxa de transferência de dados. A SVRC fornece teleoperação profissional serviços de coleta de dados para equipes de aprendizado de robôs empresariais.

Coleta de DadosAprendizado por Imit açãoHardware

Trajetória

Uma trajetória é uma sequência de estados de robô parametrizada no tempo (ângulos das juntas ou poses cartesianas) que descreve como o robô se move de uma configuração inicial para um objetivo. As trajetórias podem ser geradas por planejadores de movimento (planejando um caminho livre de colisões e, em seguida, parametrizando-o no tempo para uma execução suave), por gravação de teleoperação (capturando o movimento do operador em uma frequência fixa) ou previstas diretamente por uma política neural. A suavidade da trajetória e a continuidade da velocidade são importantes para a segurança física do robô — descontinuidades abruptas causam estresse mecânico e podem acionar paradas de segurança. As representações de trajetória incluem splines, primitivas de movimento dinâmico (DMPs) e sequências discretas de pontos de passagem.

PlanejamentoControleDados

Aprendizagem por Transferência

O aprendizado por transferência em robótica envolve pegar um modelo pré-treinado em um domínio (por exemplo, dados de visão-linguagem da internet, simulação ou um robô diferente) e adaptá-lo a uma tarefa ou robô-alvo com dados adicionais limitados. O ajuste fino das camadas finais de um backbone pré-treinado em dados de demonstração de robô é a abordagem mais comum; o ajuste fino completo de todos os pesos é usado quando dados suficientes de robô estão disponíveis. O aprendizado por transferência é o mecanismo que torna modelos de fundação prático para a robótica — a alternativa de treinar do zero apenas com dados de robô exigiria milhões de demonstrações. Veja também pré-treinamento, transferência sim-para-real.

Modelo FundamentalTreinamento

U

URDF (Formato Unificado de Descrição de Robô)

URDF é um formato de arquivo baseado em XML que descreve as propriedades cinemáticas e dinâmicas de um robô: links (corpos rígidos com massa, inércia e malhas visuais/colisões) e juntas (as conexões entre os links, com tipo, eixo, limites e parâmetros de amortecimento). URDF é o formato padrão de descrição de robô no ROS e é suportado por todas as principais plataformas de simulação (Isaac Sim, MuJoCo, Gazebo, PyBullet). Ele permite carregar a cinemática do robô em planejadores de movimento como MoveIt, visualizar o robô no RViz e instanciar modelos de simulação física. XACRO (linguagem de macro XML) é comumente usada para parametrizar e modularizar arquivos URDF para robôs complexos. OpenArm e a maioria do hardware SVRC têm modelos URDF disponíveis publicamente.

FerramentaPadrãoSimulação

V

VLA (Modelo Visão-Linguagem-Ação)

Um modelo Visão-Linguagem-Ação é uma rede neural que processa conjuntamente observações visuais (imagens RGB), instruções em linguagem natural e propriocepção do robô para produzir saídas de ação. VLAs estendem grandes modelos de visão-linguagem (VLMs como PaLM-E, LLaVA ou Gemini) ao adicionar uma cabeça de ação — treinando o modelo para gerar posições de juntas do robô ou deltas de efetores finais juntamente com suas previsões de linguagem. VLAs notáveis incluem RT-2 (tokeniza ações como tokens de texto e ajusta um VLM), OpenVLA (código aberto, 7B parâmetros, treinado em Open X-Embodiment) e pi0 (VLA de correspondência de fluxo da Physical Intelligence). Veja o artigo VLA e VLM e o Catálogo de modelos SVRC.

Modelo FundamentalLinguagemConceito Central

ViperX

ViperX é uma série de braços robóticos de 6-DOF fabricados pela Trossen Robotics, amplamente utilizados em pesquisas acadêmicas de aprendizado de robô devido ao seu baixo custo, suporte ao ROS e compatibilidade com o ecossistema de servos DYNAMIXEL. O ViperX 300 (com alcance de 300 mm) e o ViperX 300-S estão entre os braços de pesquisa mais comuns encontrados em configurações de aprendizado por imitação e são os braços seguidores no original ALOHA sistema. Os braços ViperX têm uma carga útil modesta (~750 g) e precisão em comparação com robôs industriais, mas oferecem um ponto de entrada acessível para pesquisas em manipulação. Navegue pela loja de hardware loja de hardware SVRC

HardwareRobô de Pesquisa

Servindo Visual

O servoing visual utiliza feedback de câmera em um controlador de laço fechado para guiar um robô em direção a um objetivo definido no espaço da imagem (Servoing Visual Baseado em Imagem, IBVS) ou no espaço 3D estimado a partir de imagens (Servoing Visual Baseado em Posição, PBVS). No IBVS, o controlador minimiza o erro entre características de imagem detectadas (pontos-chave, caixas delimitadoras de objetos) e suas posições desejadas no plano da imagem, sem calcular explicitamente poses 3D. O servoing visual é atraente porque compensa diretamente erros de calibração e desalinhamento câmera-robô. Variantes modernas de aprendizado profundo treinam redes neurais para gerar comandos de velocidade de servoing diretamente de imagens brutas, permitindo um alinhamento robusto a objetos novos.

ControleSensor de Força e TorqueLaço fechado

W

Ponto de passagem

Um ponto de passagem é uma configuração intermediária (ângulos de juntas ou pose cartesiana) pela qual a trajetória de um robô deve passar no caminho do início ao objetivo. Pontos de passagem permitem que programadores e planejadores guiem o caminho do robô através de poses específicas — por exemplo, para evitar um obstáculo, aproximar-se de um objeto a partir de uma direção segura ou sequenciar através de um procedimento de montagem em múltiplas etapas. No aprendizado de robô, políticas de alto nível às vezes geram pontos de passagem que um planejador de movimento de baixo nível interpola em trajetórias de juntas suaves, combinando os benefícios de generalização de políticas aprendidas com as garantias de segurança do planejamento clássico.

PlanejamentoTrajetória

Controle de corpo inteiro (WBC)

O controle de corpo inteiro coordena todas as articulações de um robô bípedo ou humanoide simultaneamente para satisfazer múltiplos objetivos concorrentes — manter o equilíbrio, rastrear alvos do efetor final, evitar limites de articulação e gerenciar forças de contato — resolvido como um problema de otimização com restrições em tempo real (tipicamente um QP). O WBC é essencial para humanoides e manipuladores bípedes porque a base não é fixa: o movimento do braço desloca o centro de massa e deve ser compensado por ajustes nas pernas e no tronco. Estruturas de WBC como Drake, Pinocchio e OCS2 são comumente usadas em pesquisas sobre humanoides. A plataforma Mobile ALOHA e o Atlas da Boston Dynamics dependem de controladores de corpo inteiro para loco-manipulação. Veja artigo sobre WBC.

ControleHumanóideLocomoção

Espaço de trabalho

O espaço de trabalho de um robô é o conjunto de todas as posições (e orientações) que o efetor final pode alcançar, dada a estrutura cinemática do robô e os limites das juntas. O espaço de trabalho acessível é todas as posições que o efetor final pode alcançar em pelo menos uma orientação; o espaço de trabalho hábil é o subconjunto menor acessível em todas as orientações — a região mais útil para tarefas de manipulação que requerem ângulos de abordagem arbitrários. A análise do espaço de trabalho informa o layout das células (quão distantes os robôs e as peças devem estar), a seleção do robô (correspondendo o alcance ao layout da tarefa) e o planejamento de movimento (identificando caminhos sem singularidades através do espaço de trabalho).

CinemáticaHardwarePlanejamento

Z

Zarr (formato de dados)

Zarr é um formato de código aberto para armazenar arrays n-dimensionais em forma de blocos comprimidos, projetado para cargas de trabalho nativas de nuvem e I/O paralelo. Na robótica, o Zarr é usado para armazenar grandes conjuntos de dados de demonstração de robôs (imagens, estados das articulações, ações) em um formato que pode ser lido de forma eficiente a partir de armazenamento de objetos (S3, GCS) sem baixar arquivos inteiros. Ao contrário de HDF5, o Zarr suporta gravações concorrentes, tornando-o adequado para pipelines de coleta de dados distribuídos. O Zarr v3 padronizou o formato e adicionou suporte para sharding (combinando muitos pequenos blocos em menos arquivos grandes), o que melhora a eficiência do armazenamento em nuvem. Projetos como LeRobot e vários conjuntos de dados de veículos autônomos adotaram o Zarr para hospedagem de conjuntos de dados em grande escala.

DadosArmazenamentoEngenharia

Generalização zero-shot

A generalização zero-shot é a capacidade de uma política treinada de realizar com sucesso tarefas, objetos ou ambientes que nunca viu explicitamente durante o treinamento, sem qualquer ajuste fino ou demonstrações adicionais. A verdadeira transferência zero-shot é um grande objetivo dos modelos de fundação de robôs — uma política que generaliza zero-shot para novos objetos domésticos ou novas instruções de linguagem reduziria dramaticamente a carga de coleta de dados. Os modelos VLA atuais mostram uma promissora generalização de linguagem zero-shot (entendendo formulações novas de tipos de tarefas conhecidas), mas ainda lutam com categorias de objetos verdadeiramente novas ou habilidades de manipulação completamente novas. Melhorar o desempenho zero-shot é a motivação central para escalar conjuntos de dados de robôs e tamanhos de modelos. Veja também artigo sobre Transferência zero-shot.

GeneralizaçãoModelo FundamentalA IA incorporada refere-se a sistemas de inteligência artificial que percebem e agem através de um corpo físico situado no mundo real, em vez de operar puramente em texto ou imagens isoladas. A hipótese da incorporação sustenta que a verdadeira inteligência requer fundamentação sensório-motora — aprendizado através da interação, não apenas correspondência de padrões em conjuntos de dados estáticos. Na prática, a pesquisa em IA incorporada abrange aprendizado de robôs,

Nenhum termo corresponde à sua pesquisa

Tente um termo mais curto ou verifique a ortografia. Todos os 65 termos estão listados acima quando a pesquisa é limpa.

Precisa de Dados de Robô para Seu Projeto de Aprendizado?

Coletamos demonstrações de alta qualidade, prontas para aprendizado, para aprendizado por imitação e RL — desde manipulação em mesas até tarefas bimanual móveis.