O
Vários ambientes a tecnologia de costura de imagens visa mesclar imagens capturadas de diferentes perspectivas em um campo amplo completo e coerente. O princípio central envolve as seguintes etapas principais:
Aquisição de Imagem
As câmeras no sistema multicâmera são acionadas sincronizadamente para capturar imagens de diferentes partes do ao mesmo tempo. Isso requer sincronização precisa do relógio entre as câmeras para garantir a consistência temporal das imagens capturadas, evitando desalinhamento ou desfoque de objetos dinâmicos na cena devido a diferenças de tempo na filmagem.
Extração de Característica
Para cada imagem capturada pelas câmeras, algoritmos de extração de características são usados para identificar pontos de características proeminentes no. Algoritmos comuns de extração de características incluem SIFT (Scale-Invariant Feature Transform) e SURF (Speeded Up Robust Features). Esses algoritmos podem identificar com precisão características como cantos e bordas na imagem sob diferentes mudanças de iluminação, escala e rotação, fornecendo uma base para a correspondência de imagem subsequente. Por exemplo, o SIFT constrói uma pirâmide de diferença gaussiana para detectar pontos extremos em espaço multiescala, atribui direção e descritores a esses pontos extremos, tornando-os invariantes à escala e rotação.
Correspondência de imagem
Os pontos de característica nas imagens de diferentes câmeras são combinados em pares para determinar sua correspondência espacial. Esta etapa normalmente usa métodos de correspondência baseados em descritores de características, como medir a similaridade de dois descritores de pontos de características usando distância euclidiana ou similaridade de cosseno. Se a similaridade exceder um limite definido, eles são considerados uma correspondência. Durante o processo, também é necessário considerar a possibilidade de falsas correspondências e remover pares errôneos usando algoritmos como RANSAC (Random Sample Consensus) para garantir a das correspondências. Por exemplo, usando a distância euclidiana, a distância em linha reta entre dois vetores descritores de pontos de características no espaço vetorial é calculada, com um menor indicando maior similaridade.
Cálculo do modelo de transformação
Após concluir a correspondência de pontos de características, a relação de transformação geométrica entre as imagens é calculada com base nos pares de pontos correspondentes. Modelos comuns incluem transformação afim e transformação de perspectiva. Se a cena for aproximadamente plana, a transformação afim pode descrever a relação de mapeamento entre as imagens; se a cena tiver profundidade, a transformação de perspectiva é mais apropriada. Os parâmetros do modelo de transformação são resolvidos usando algoritmos de otimização, como mínimos quadrados, minimizando o erro de posição dos pontos correspondentes depois. Por exemplo, na transformação de perspectiva, um sistema de equações é construído usando os pares de pontos correspondentes conhecidos para resolver os 8 parâmetros que representam a transformação de perspectiva, portanto, a relação de mapeamento precisa entre as imagens.
Fusão de Imagem
Com base no modelo de transformação computado, as imagens de várias câmeras são fundidas. Durante o processo de fusão, fatores como imagem e contraste são considerados, e algoritmos de fusão apropriados, como média ponderada e fusão de pirâmide laplaciana, são empregados para garantir que a transição entre as imagens seja natural, sem costuras perceptíveis. O método de média ponderada atribui pesos diferentes a cada pixel com base na área de sobreposição e na posição do pixel e, em seguida, soma os valores de pixel na sobreposição com pesos para obter transições suaves. O método de fusão de pirâmide laplaciana primeiro decompõe a imagem em diferentes camadas de pirâmide de resolução, depois funde cada camada separadamente e, finalmente, reconstrói a imagem fundida completa.
Por meio da série de etapas precisas e complexas acima, a tecnologia de costura de imagens de câmeras multivisualização pode converter imagens multiperspectivas em imagens panorâmicas, fornecendo suporte visual poderoso para vários campos, como vigilância de segurança, realidade virtual e direção autônoma.