Der
Mehrraum Ziel der Image-Stitching-Technologie ist es, aus verschiedenen Perspektiven aufgenommene Bilder zu einem vollständigen, zusammenhängenden Weitwinkelbild zusammenzufügen. Das Kernprinzip umfasst die folgenden wichtigen Schritte:
Bildaufnahme
Die Kameras im Mehrkamerasystem werden synchron ausgelöst, um gleichzeitig Bilder verschiedener Teile der Szene aufzunehmen. Dies erfordert eine präzise Taktsynchronisierung zwischen den Kameras, um die zeitliche Konsistenz der aufgenommenen Bilder sicherzustellen und eine Fehlausrichtung oder Unschärfe dynamischer Objekte in der Szene aufgrund von Zeitunterschieden bei der Aufnahme zu verhindern.
Merkmalsextraktion
Für jedes von den Kameras aufgenommene Bild werden Merkmalsextraktionsalgorithmen verwendet, um markante Merkmalspunkte im Bild zu identifizieren. Zu den gängigen Merkmalsextraktionsalgorithmen gehören SIFT (Scale-Invariant Feature Transform) und SURF (Speeded Up Robust Features). Diese Algorithmen können Merkmale wie Ecken und Kanten im Bild bei unterschiedlicher Beleuchtung, Skalierung und Drehung genau identifizieren und so eine Grundlage für den nachfolgenden Bildabgleich bieten. Beispielsweise erstellt SIFT eine Gaußsche Differenzpyramide, um Extrempunkte in einem mehrskaligen Raum zu erkennen, weist diesen Extrempunkten Richtung und Deskriptoren zu und macht sie so invariant gegenüber Skalierung und Drehung.
Bildabgleich
Die Merkmalspunkte in den Bildern von verschiedenen Kameras werden paarweise abgeglichen, um ihre räumliche Übereinstimmung zu bestimmen. In diesem Schritt werden typischerweise auf Merkmalsdeskriptoren basierende Abgleichmethoden verwendet, wie z. B. das Messen der Ähnlichkeit zweier Merkmalspunktdeskriptoren mithilfe der euklidischen Distanz oder der Kosinusähnlichkeit. Wenn die Ähnlichkeit einen festgelegten Schwellenwert überschreitet, gelten sie als Übereinstimmung. Während des Prozesses ist es auch notwendig, die Möglichkeit falscher Übereinstimmungen zu berücksichtigen und fehlerhafte Paare mithilfe von Algorithmen wie RANSAC (Random Sample Consensus) zu entfernen, um die Übereinstimmungen sicherzustellen. Beispielsweise wird mithilfe der euklidischen Distanz die geradlinige Entfernung zwischen zwei Merkmalspunktdeskriptorvektoren im Vektorraum berechnet, wobei ein kleinerer Wert eine höhere Ähnlichkeit anzeigt.
Transformationsmodellberechnung
Nach Abschluss des Merkmalspunktabgleichs wird die geometrische Transformationsbeziehung zwischen den Bildern basierend auf den abgeglichenen Punktpaaren berechnet. Gängige Modelle sind affine Transformation und perspektivische Transformation. Wenn die Szene annähernd eben ist, kann die affine Transformation die Abbildungsbeziehung zwischen den Bildern beschreiben; wenn die Szene Tiefe hat, ist die perspektivische Transformation geeigneter. Die Parameter des Transformationsmodells werden mithilfe von Optimierungsalgorithmen wie kleinsten Quadraten gelöst, wodurch der Positionsfehler der abgeglichenen Punkte minimiert wird. Beispielsweise wird bei der perspektivischen Transformation ein Gleichungssystem mithilfe der bekannten abgeglichenen Punktpaare erstellt, um die 8 Parameter zu lösen, die die perspektivische Transformation darstellen, und so die genaue Abbildungsbeziehung zwischen den Bildern zu erhalten.
Bildfusion
Basierend auf dem berechneten Transformationsmodell werden die Bilder verschiedener Kameras zusammengefügt. Während des Zusammenfügungsprozesses werden Faktoren wie Bild und Kontrast berücksichtigt und geeignete Zusammenfügungsalgorithmen wie gewichtete Mittelwertbildung und Laplace-Pyramidenfusion eingesetzt, um sicherzustellen, dass der Übergang zwischen den Bildern natürlich und ohne erkennbare Nähte ist. Die Methode der gewichteten Mittelwertbildung weist jedem Pixel basierend auf dem Überlappungsbereich und der Pixelposition unterschiedliche Gewichte zu und summiert dann die Pixelwerte in der Überlappung mit Gewichten, um sanfte Übergänge zu erzielen. Die Methode der Laplace-Pyramidenfusion zerlegt das Bild zunächst in Pyramidenschichten mit unterschiedlicher Auflösung, fusioniert dann jede Schicht einzeln und rekonstruiert schließlich das vollständige fusionierte Bild.
Durch die oben genannte Reihe präziser und komplexer Schritte kann die Bild-Stitching-Technologie einer Mehransichtskamera Bilder mit mehreren Perspektiven in Panoramabilder umwandeln und so leistungsstarke visuelle Unterstützung für verschiedene Bereiche wie Sicherheitsüberwachung, virtuelle Realität und autonomes Fahren bieten.