Visão Computacional x Processamento Digital de Imagens x Computação Gráfica

Em Engenharia na fotografia por André M. Coelho

A visão computacional (VC) procura inferir um modelo 3D do ambiente real a partir de uma ou mais imagens digitais. A geometria, a forma e velocidades de objetos sólidos que existam no ambiente são os principais parâmetros buscados pelos algoritmos de visão computacional. A reconstrução da cena, detecção de eventos, reconhecimentos de objetos, aprendizagem de máquina e mesmo a restauração de imagens são áreas relacionadas à visão computacional. Com informações da cena obtidas das imagens, podem ser tomadas decisões diversas que servirão por exemplo para acionamento de motores para locomoção e controle de de robôs. A extração de forma de elementos da cena poderão inclusive gerar informações textuais e isto ser usado para busca em bases de dados (placas de carros, por exemplo) e geração de estatísticas. Extrair informações da cena a partir da imagem não é um processo simples pois a informação tridimensional da cena real é perdida quando a cena é representada em uma imagem bidimensional. Além disso o próprio processo de aquisição da imagem traz informações que não pertencem à cena em forma de ruídos, inerentes a qualquer equipamento de medição.

Leia também

Lena - Imagem famosa usada em vários exemplos de PDI e VC

Os algoritmos de visão computacional tem como entrada uma ou mais imagens digitais que geralmente são pré-processadas para que informações úteis possam ser extraídas. Neste pré-processamento entram por exemplo os conceitos de Processamento Digital de Imagens (PDI) que neste caso servem para melhor adequar as imagens de entrada aos algoritmos de visão computacional. Esta adequação pode se dar de várias maneiras, dentre elas: melhorando aspectos significativos da imagem, retirando efeitos de degradação e ruídos, compactando para facilitar a transmissão ou explicitando características de interesse como contornos ou texturas. O vídeo abaixo mostra um exemplo de um algoritmo que criei para contagem de veículos e que exibe cada um dos passos descritos, até que fique mais simples identificar cada veículo na imagem.

De forma não muito aprofundada é possível dizer que tanto VD quando PDI recebem imagens como entrada mas VC retorna informações da cena, principalmente geométricas, enquanto em PDI a saída é outra imagem com modificações específicas.

A computação gráfica é o processo de produzir imagens a partir de primitivas geométricas. Geralmente associamos este termo às criações de efeitos especiais em filmes e animações, sistemas de CAD e jogos eletrônicos, mas há também inúmeras aplicações da computação gráfica na visão computacional. Uma destas aplicações é na modelagem geométrica onde as informações tridimensionais obtidas das imagens podem ser usadas para sintetizar uma nova imagem da cena, desta vez gerada por algoritmos de computação gráfica. A partir daí surgem aplicações como a realidade virtual, realidade aumentada, simulações e muitas outras.

Sobre o autor

André tem uma família entusiasta de fotografia desde a década de 70. Já passaram por diversas máquinas e tecnologias, até máquinas de slide quando foram lançadas no Brasil. Quando se mudou para Belo Horizonte, em 2009, André conheceu e atuou com amigos no audiovisual. Conheceu e morou com um produtor e cineasta em uma república, com quem aprendeu muito sobre câmeras. Hoje, André continua estudando sobre câmeras e compartilhando seus conhecimentos no blog Super Câmera.

Veja também