Coleta de Dados

Configuração de Câmera de Robô para Coleta de Dados: Pulso, Superior e Estéreo

A colocação da câmera é uma das decisões mais importantes e frequentemente mal especificadas na coleta de dados de robôs. As observações que sua política vê durante o treinamento devem corresponder ao que ela verá durante a implantação — e errar na configuração da câmera significa coletar dados que não podem treinar uma política confiável.

Estratégia de Colocação de Câmera

O primeiro princípio da colocação de câmeras robóticas é: as câmeras usadas para coleta de dados devem ser idênticas em posição de montagem às câmeras usadas para implementação de políticas. Não há recuperação dessa incompatibilidade — uma política treinada com vistas de câmeras de pulso não pode generalizar para uma vista de câmera aérea, e vice-versa. Defina sua configuração de câmera de implantação antes de coletar um único episódio de dados de treinamento.

As configurações mais comuns em pesquisas de manipulação são: apenas pulso (uma câmera montada no pulso do robô, olhando para frente na área de manipulação); apenas aérea (uma ou duas câmeras montadas em um suporte fixo aéreo); e múltiplas vistas (câmera de pulso mais uma ou duas câmeras externas fornecendo contexto global da área de trabalho). Configurações de múltiplas vistas consistentemente superam a de vista única em desempenho de políticas, ao custo de uma infraestrutura de gravação mais complexa.

Câmeras de Pulso: Prós, Contras e Melhores Práticas

Câmeras de pulso fornecem uma visão em primeira pessoa da ação de manipulação — o robô vê aproximadamente o que está fazendo em seu efetor final. Este ponto de vista é altamente informativo para tarefas de agarre fino e inserção, onde a relação entre o gripper e o objeto deve ser percebida com precisão. Câmeras de pulso também seguem automaticamente o gripper através da área de trabalho, garantindo que o objeto alvo esteja sempre em quadro durante a manipulação.

A principal limitação das câmeras de pulso é que elas não veem a área de trabalho global — o robô não pode perceber objetos distantes de sua posição atual do gripper sem mover o braço. Isso limita sua eficácia para tarefas que requerem compreensão em nível de cena ou coordenação bi-manual. Para sistemas bi-manuais, cada braço deve carregar sua própria câmera de pulso. Especificações recomendadas: resolução de 1080p ou superior, 60+ fps, obturador global (não obturador rolling) para evitar desfoque de movimento durante movimentos rápidos, e uma lente grande angular (90–110 graus de FOV) para manter a visão do ponto de contato do agarre em curta distância.

Câmeras Aéreas: Configuração e Compensações

Câmeras aéreas fixas fornecem vistas de área de trabalho estáveis e consistentes que capturam toda a cena de manipulação. Elas são menos sensíveis ao movimento do braço e fornecem melhor contexto para tarefas que requerem múltiplas etapas sequenciais em diferentes regiões da área de trabalho. Câmeras aéreas são mais simples de montar de forma consistente em várias estações de robô, o que é importante para campanhas de coleta de dados em larga escala.

A limitação é a redução de detalhes no ponto de contato da manipulação. Uma câmera aérea a 80 cm de altura olhando para baixo em uma área de trabalho de mesa não pode observar de forma confiável a geometria de contato gripper-objeto em objetos pequenos. É por isso que câmeras aéreas são tipicamente emparelhadas com câmeras de pulso em configurações de coleta de dados de alto desempenho — a vista aérea fornece contexto da tarefa e posicionamento grosseiro, enquanto a vista de pulso fornece detalhes finos de manipulação.

Resolução, Taxa de Quadros e Sincronização

Para coleta de dados de manipulação, 480p–720p por câmera a 30 fps é suficiente para a maioria das políticas de aprendizado por imitação em 2026. Resoluções mais altas (1080p) melhoram o desempenho em tarefas que requerem discriminação espacial fina. Taxas de quadros abaixo de 30 fps introduzem aliasing temporal que degrada o aprendizado de políticas em tarefas rápidas. Taxas de quadros acima de 60 fps oferecem retornos decrescentes para a maioria das tarefas de manipulação e aumentam significativamente os requisitos de armazenamento.

A sincronização de múltiplas câmeras é crítica e frequentemente negligenciada. Se as câmeras não estiverem sincronizadas por hardware, o alinhamento de carimbo de tempo deve ser implementado cuidadosamente durante o carregamento de dados. Mesmo 33 ms de desvio entre câmeras (um quadro a 30 fps) pode introduzir instabilidade no treinamento para tarefas onde as vistas de pulso e aérea devem ser temporariamente consistentes. As séries Intel RealSense D435 e D455 suportam sincronização por hardware via um cabo de sincronização e são a escolha preferida do SVRC para configurações de múltiplas câmeras sincronizadas.

Câmeras de Profundidade

Câmeras de profundidade fornecem medições de distância por pixel além de imagens RGB, permitindo compreensão de cena 3D sem reconstrução estéreo explícita. Intel RealSense, Microsoft Azure Kinect e câmeras ZED são os sensores de profundidade mais comumente usados na coleta de dados robóticos. A informação de profundidade é valiosa para tarefas onde a altura, forma ou posição 3D do objeto é importante para o planejamento de agarre, e para políticas que usam entradas de nuvem de pontos em vez de entradas de imagem puras.

A compensação: câmeras de profundidade adicionam peso, custo e carga de processamento. Muitos resultados de aprendizado por imitação de ponta são alcançados com câmeras RGB puras, sugerindo que a profundidade nem sempre é necessária. Use profundidade quando sua arquitetura de política se beneficiar explicitamente de entrada 3D, quando as tarefas envolverem variação significativa de profundidade (empilhamento de objetos de diferentes alturas), ou quando você precisar de desempenho robusto em condições de iluminação variáveis (a profundidade é mais invariável à iluminação do que o RGB).

Calibração e o Padrão de Múltiplas Câmeras do SVRC

Cada câmera deve ser calibrada — calibração intrínseca (distância focal, coeficientes de distorção) e calibração extrínseca (posição e orientação em relação à base do robô) antes que a coleta de dados comece. Use um alvo de tabuleiro de xadrez físico para calibração e recalibre após qualquer movimento ou ajuste da câmera. Armazene os parâmetros de calibração como metadados com cada conjunto de dados.

O padrão de coleta de dados do SVRC usa uma configuração fixa de três câmeras: uma câmera de pulso por braço mais uma câmera aérea calibrada por estação. Montagens de câmera físicas fazem parte do nosso design de estação de trabalho padronizado, garantindo colocação consistente em nossa instalação. Todos os parâmetros de calibração são registrados automaticamente e incluídos nas exportações de conjuntos de dados. Para equipes que estão configurando sua própria infraestrutura de coleta de dados, o SVRC oferece consulta de configuração de câmeras e pode fornecer montagens de câmeras pré-calibradas — entre em contato conosco ou veja nosso página de serviços de dados para detalhes.