Quais são os princípios da visão mecânica 3D? Princípios da visão mecânica 3D? - Blog

A visão 3D é um campo multidisciplinar que envolve computação gráfica, visão computacional e inteligência artificial. Seu objetivo é permitir que as máquinas entendam e processem informações no espaço tri-dimensional, alcançando percepção de profundidade, reconhecimento e compreensão de objetos e cenas.

Principais tarefas

Reconstrução 3D

Estimativa de profundidade de cenas 3D ou amostragem digital de superfícies de objetos, bem como processamento e exibição de dados 3D; reconstrução monocular, reconstrução binocular, reconstrução baseada em luz-estruturada, reconstrução baseada em laser-; reconstrução 3D em grande-escala, reconstrução 3D móvel.

Estimativa de pose

Cálculo da posição e orientação de câmeras ou objetos no espaço físico-tridimensional e rastreamento-em tempo real.

Compreensão 3D

Detecção, reconhecimento e recuperação de objetos, bem como segmentação e rotulagem semântica de cenas ou objetos.

Princípios de Trabalho

A imagem de visão 3D é um dos métodos mais importantes para percepção de informações em robôs industriais e pode ser dividida em métodos de imagem ópticos e não{1}}ópticos. Atualmente, os métodos ópticos são os mais utilizados.

Método-de{1}}tempo de voo (TOF)

Este método calcula a distância até um objeto medindo a diferença de tempo entre a emissão e a recepção da luz. Tomando como exemplo uma câmera TOF, cada pixel usa a diferença de tempo do voo da luz para obter a profundidade do objeto. Nos métodos de medição clássicos, o sistema detector inicia a cronometragem quando emite um pulso de luz, armazena o tempo de ida e volta quando recebe o eco de luz alvo e estima a distância do alvo de acordo com uma fórmula.

É dividido em TOF direto (DTOF) e TOF indireto (I-TOF). O DTOF geralmente é usado em sistemas de alcance de-ponto único, e obter imagens 3D em toda a área-geralmente requer tecnologia de digitalização; O I-TOF extrapola indiretamente o tempo de ida e volta a partir de medições-de intensidade de luz com limite de tempo, eliminando a necessidade de tempo preciso e atualmente é uma solução comercializada para misturadores eletrônicos e ópticos baseados em câmeras TOF. A imagem TOF pode ser usada para aquisição de imagens 3D de grande campo de visão, longa-distância, baixa-precisão e baixo{10}}custo, além de ser usada para percepção ambiental em sistemas não tripulados inteligentes (como robôs, veículos não tripulados, drones etc.).

Imagem 3D de projeção de luz estruturada

A imagem 3D de projeção de luz estruturada é atualmente o principal método para percepção de visão 3D em robôs. Um projetor projeta um padrão específico de iluminação de luz estruturada no objeto alvo, como listras ou padrões de código Gray, e uma câmera captura a imagem modulada pelo alvo. Devido às ondulações da superfície do objeto, o padrão de luz estruturado é deformado na superfície do objeto. Ao processar imagens e usar modelos visuais para comparar os padrões antes e depois da deformação e analisar a distorção do padrão, as informações de coordenadas tri-dimensionais de cada ponto na superfície do objeto alvo podem ser calculadas.

Em aplicações de sistemas manuais-oculares robóticos, para cenários onde não é necessária alta precisão de medição 3D (como paletização, despaletização e captura 3D), o método de projeção de padrões de manchas pseudo{3}}aleatórias para obter informações 3D alvo é bastante popular. Este método é comumente usado em inspeção industrial e modelagem 3D e pode obter rapidamente dados 3D da superfície do objeto. Um sistema estruturado de imagem de luz consiste em vários projetores e câmeras. As formas estruturais comuns incluem: projetor único-câmera única, projetor único-câmera dupla, projetor único-várias câmeras, câmera única-projetores duplos e câmera única-projetores múltiplos.

O princípio básico de funcionamento da imagem 3D de projeção de luz estruturada é o seguinte: o projetor projeta um padrão específico de iluminação de luz estruturada no objeto alvo, a câmera captura a imagem modulada pelo alvo e, em seguida, as informações 3D do objeto alvo são obtidas por meio de processamento de imagem e modelos visuais. Os tipos comuns de projetores incluem: tela de cristal líquido (LCD), projeção de modulação de luz digital (DLP: como dispositivos de microespelho digital (DMD)) e projeção direta de padrão LED a laser.

Com base no número de projeções de luz estruturadas, a imagem 3D de projeção de luz estruturada pode ser dividida em métodos 3D de-disparo único e 3D de{3}}disparo múltiplo. A luz estruturada de disparo único usa principalmente codificação de multiplexação espacial e codificação de multiplexação de frequência. As formas de codificação comuns incluem: codificação de cores, indexação em escala de cinza, codificação de formas geométricas e padrões de manchas aleatórias. Atualmente, em aplicações de sistemas manuais-oculares robóticos, para cenários onde não é necessária alta precisão de medição 3D, como paletização, despaletização e captura 3D, o método de projeção de padrões de manchas pseudo{12}}aleatórios para obter informações 3D alvo é amplamente utilizado.

Os métodos 3D de múltiplas tomadas usam principalmente codificação de multiplexação-de tempo. As formas comuns de codificação de padrões incluem: codificação binária, codificação de mudança de fase-de múltiplas frequências e métodos de codificação híbridos (como código Gray e franjas de mudança de fase). O princípio básico da imagem 3D com luz estruturada é mostrado na figura abaixo. Um padrão de luz estruturado é gerado usando um computador ou um dispositivo óptico especial e então projetado na superfície do objeto em teste usando um sistema de projeção óptica. Um dispositivo de aquisição de imagem (como uma câmera CCD ou CMOS) é usado para capturar a imagem de luz estruturada modulada e deformada pela superfície do objeto. Algoritmos de processamento de imagem são então usados para calcular a correspondência entre cada pixel da imagem e os pontos no contorno do objeto. Finalmente, as informações de contorno tridimensional do objeto são calculadas usando o modelo de estrutura do sistema e sua tecnologia de calibração. Em aplicações práticas, a projeção de código Gray, a projeção de franja de mudança de fase senoidal ou um código Gray híbrido e a tecnologia 3D de mudança de fase senoidal são comumente usadas.

Para superfícies ásperas, a luz estruturada pode ser projetada diretamente na superfície do objeto para medição de imagem visual; entretanto, para medição 3D de superfícies lisas altamente refletivas e objetos espelhados, a projeção de luz estruturada não pode ser projetada diretamente na superfície sob teste, e a medição 3D requer o uso de técnicas de reflexão especular.

Neste esquema, as franjas não são projetadas diretamente no contorno do objeto em teste, mas sim em uma tela de dispersão, ou uma tela de cristal líquido (LCD) é usada para exibir diretamente as franjas. A câmera adquire as informações de franja moduladas pelas mudanças de curvatura da superfície brilhante através do caminho da luz refletida e, em seguida, calcula a morfologia do contorno tri-dimensional.

Digitalização de imagens 3D

Os métodos de digitalização de imagens 3D podem ser divididos em métodos de varredura, triangulação ativa e métodos confocal cromáticos. O alcance da varredura usa um feixe de luz colimado para varrer toda a superfície do alvo para medição 3D. Os métodos típicos de alcance de varredura incluem: métodos de-ponto único-de{6}}voo, como modulação de frequência de onda contínua (FM-CW) e alcance de pulso (LiDAR); interferometria de espalhamento de laser, como interferômetros baseados em princípios de interferência de múltiplos comprimentos de onda, interferência holográfica, interferência de luz branca e interferência de manchas; e métodos confocal, como confocal cromático e foco automático.

Em métodos 3D de varredura de-ponto único, o método de-ponto único-de-voo é adequado para varredura de longa-distância, mas a precisão da medição é relativamente baixa, geralmente na faixa milimétrica. Outros métodos de varredura de-ponto único incluem interferometria de laser de-ponto único, microscopia confocal e triangulação de laser-ativo de ponto único. Esses métodos oferecem alta precisão de medição, mas o primeiro requer um ambiente controlado. A digitalização em linha oferece precisão moderada e alta eficiência. A triangulação a laser ativa e a microscopia confocal cromática são particularmente adequadas para medição 3D no efetor final de um braço robótico. A triangulação ativa é baseada no princípio da triangulação, usando um feixe colimado ou um ou mais feixes planares para escanear a superfície alvo para medição 3D.

O feixe de luz geralmente é obtido das seguintes maneiras: colimação a laser, expansão de feixe prismático de superfície cilíndrica ou quádrica, luz não{0}}coerente (como luz branca, fonte de luz LED) projetada através de pequenos orifícios, fendas (grades) ou difração de luz coerente. A triangulação ativa pode ser dividida em três tipos: varredura de-ponto único, varredura de-linha única e varredura-de múltiplas linhas. Atualmente, a maioria dos produtos comercialmente disponíveis para efetores finais de braços robóticos são scanners de-ponto único e-de linha única.

Em métodos de varredura multi{0}}linhas, a identificação confiável de números periféricos é um desafio. Para identificar com precisão os números das franjas, dois conjuntos de planos de luz perpendiculares são geralmente visualizados em alta velocidade e alternados. Isso também permite a digitalização "Flying Triangulation", cujo processo de digitalização e reconstrução 3D é mostrado na figura abaixo. A projeção multi{5}}linhas e a imagem com-flash único produzem uma visualização 3D esparsa. Várias sequências de visualizações 3D são geradas por meio de varredura de projeção de franja longitudinal e transversal e, em seguida, um modelo de superfície 3D denso, completo e de alta resolução é gerado por meio do registro de imagem 3D.

A microscopia confocal cromática parece ser capaz de escanear e medir objetos opacos e transparentes ásperos e lisos, como superfícies reflexivas e superfícies de vidro transparentes, e atualmente é amplamente utilizada em campos como inspeção 3D de capas de telefones celulares. A varredura confocal cromática tem três tipos: varredura de medição de distância absoluta-de ponto único-dimensional, varredura de matriz de vários-pontos e varredura de linha contínua. A figura abaixo mostra exemplos de medição de distância absoluta e varredura contínua de linha. A varredura de linha contínua também é um tipo de varredura de matriz, mas com uma matriz de pontos maior e mais densa.

Imagem 3D de visão estéreo

A visão estéreo geralmente se refere à reconstrução da estrutura 3D ou das informações de profundidade de um objeto alvo, adquirindo duas ou mais imagens de diferentes pontos de vista. As pistas visuais de percepção de profundidade podem ser divididas em pistas oculares e pistas binoculares (disparidade binocular). Atualmente, a visão estéreo 3D pode ser alcançada por meio de visão monocular, visão binocular, visão multivisão e imagens 3D de campo de luz (olho composto eletrônico ou câmera de conjunto). As dicas de percepção de profundidade da visão monocular geralmente incluem: perspectiva, diferenças de distância focal, imagens de múltiplas visualizações, oclusão, sombras, paralaxe de movimento, etc.

Na visão robótica, isso também pode ser alcançado usando imagens espelhadas e outras formas-de-métodos X. As dicas visuais de percepção de profundidade da visão binocular incluem: posição de convergência dos olhos e disparidade binocular. Na visão de máquina, duas câmeras são usadas para adquirir duas imagens de pontos de vista da mesma cena alvo a partir de dois pontos de vista e, em seguida, a disparidade dos pontos correspondentes nas duas imagens de pontos de vista é calculada para obter as informações de profundidade 3D da cena alvo. Um processo típico de cálculo de visão estéreo binocular inclui as quatro etapas a seguir: correção de distorção de imagem, retificação de par de imagens estéreo, registro de imagem e cálculo de mapa de disparidade de reprojeção de triangulação.

A imagem de visão multi{0}}visualização ou imagem estéreo de multi{1}visualização usa uma ou mais câmeras para adquirir diversas imagens da mesma cena alvo a partir de vários pontos de vista para reconstruir as informações tri-dimensionais da cena alvo.

A imagem estéreo de-visualização múltipla é usada principalmente nos seguintes cenários: uso de múltiplas câmeras de diferentes pontos de vista para adquirir diversas imagens da mesma cena alvo e, em seguida, uso de reconstrução estéreo-baseada em recurso e outros algoritmos para obter informações de profundidade da cena e estrutura espacial; usando a técnica de estrutura-de{3}}movimento (SFM), usando a mesma câmera com seus parâmetros intrínsecos inalterados, para adquirir múltiplas imagens de diferentes pontos de vista para reconstruir as informações tri-dimensionais da cena alvo. Esta tecnologia é comumente usada para rastrear um grande número de pontos de controle em uma cena alvo, recuperando continuamente as informações estruturais 3D da cena, bem como a pose e posição da câmera. A imagem de campo de luz difere dos princípios tradicionais de imagem de câmera. As câmeras tradicionais formam uma imagem 2D diretamente no plano de imagem depois que a luz passa pela lente.

As câmeras de campo claro adicionam um conjunto de microlentes na frente do plano do sensor. A luz incidente através da lente principal passa novamente por cada microlente e é recebida pelo conjunto fotossensível, obtendo assim informações sobre a direção e posição dos raios de luz. Isso permite que os resultados da imagem sejam processados posteriormente, obtendo um efeito "filmar primeiro, focar depois" e possibilitando a recuperação da estrutura tri-dimensional da cena usando essas informações. Em campos como realidade virtual e realidade aumentada, a tecnologia de imagem de campo de luz ajuda a fornecer uma experiência visual mais realista e permite uma percepção tridimensional mais precisa e uma interação com a cena.

O princípio da imagem 3D do campo de luz difere estruturalmente dos princípios de imagem das câmeras CCD e CMOS tradicionais. As câmeras tradicionais captam a luz diretamente no plano de imagem depois de passar pela lente, geralmente produzindo uma imagem 2D. As câmeras de campo de luz adicionam um conjunto de microlentes na frente do plano do sensor, fazendo com que a luz incidente através da lente principal passe novamente por cada microlente e seja recebida pelo conjunto fotossensível, obtendo assim informações sobre a direção e posição dos raios de luz. Isso permite o pós-processamento dos resultados da imagem, obtendo um efeito de "filmar primeiro, focar depois".