Наука о сенсорах глубины в модулях стереовидения: Полное руководство

Создано 09.22
В эпоху, когда от машин все чаще ожидают, что они будут «видеть» и взаимодействовать с физическим миром, сенсоры глубины стали краеугольной технологией. От распознавания лиц на смартфонах до навигации автономных транспортных средств и промышленной робототехники, точное восприятие глубины позволяет устройствам понимать пространственные отношения, измерять расстояния и принимать обоснованные решения. Среди различных технологий сенсоров глубины — включая LiDAR, время пролета (ToF) и структурированный свет —модули стереовидения камерывыделяются своей экономической эффективностью, производительностью в реальном времени и опираются на принцип, столь же древний, как само человеческое зрение: бинокулярное различие.
Эта статья погружается в науку, стоящую за определением глубины в стереовизионных системах, разбирая, как эти камеры воспроизводят человеческое восприятие глубины, ключевые компоненты, которые делают их работоспособными, технические проблемы и реальные приложения. Независимо от того, являетесь ли вы инженером, разработчиком продукта или техническим энтузиастом, понимание этой технологии имеет решающее значение для использования ее потенциала в ваших проектах.

1. Фонд: Как стереозрение имитирует человеческое восприятие глубины

В своей основе стереозрение опирается на тот же биологический механизм, который позволяет людям воспринимать глубину: бинокулярное зрение. Когда вы смотрите на объект, ваши левый и правый глаза захватывают немного разные изображения (из-за расстояния между ними, называемого «межзрачковым расстоянием»). Ваш мозг сравнивает эти два изображения, вычисляет разницу (или «диспаритет») и использует эту информацию, чтобы определить, как далеко объект находится от вас.
Модули стереозрения камеры воспроизводят этот процесс с помощью двух синхронизированных камер, установленных на фиксированном расстоянии друг от друга (известном как базовая линия). Точно так же, как человеческие глаза, каждая камера захватывает 2D-изображение одной и той же сцены с немного смещенной перспективы. Процессор модуля затем анализирует эти два изображения, чтобы вычислить разницу и, в конечном итоге, глубину.

Ключевая концепция: Разница против Глубины

Диспаратия — это горизонтальное смещение между соответствующими точками в левом и правом изображениях. Например, если кофейная кружка появляется на 10 пикселей влево от опорной точки в правом изображении, но только на 5 пикселей влево в левом изображении, диспаратия составляет 5 пикселей.
Отношение между дисперсией и глубиной является обратным и регулируется внутренними и внешними параметрами камеры:
Глубина (Z) = (Базовая линия (B) × Фокусное расстояние (f)) / Диспаратность (d)
• Базовая линия (B): Расстояние между двумя камерами. Более длинная базовая линия улучшает точность глубины для удаленных объектов, в то время как более короткая базовая линия лучше подходит для ближнего диапазона.
• Длина фокусировки (f): расстояние между объективом камеры и сенсором изображения (измеряется в пикселях). Более длинная фокусировка увеличивает увеличение, усиливая различие для мелких объектов.
• Диспаратия (d): Смещение пикселей между соответствующими точками. Ближайшие объекты имеют большее смещение; удаленные объекты имеют меньшее (или даже нулевое) смещение.
Эта формула является основой стерео-глубинного восприятия — она преобразует 2D-данные изображения в 3D-пространственную информацию.

2. Анатомия модуля камеры стереозрения

Функциональная стереовизионная система требует больше, чем просто две камеры. Она сочетает в себе аппаратные компоненты и программные алгоритмы для обеспечения синхронизированного захвата изображений, точной калибровки и надежного расчета диспаратности. Ниже приведены ключевые элементы:

2.1 Пара камер (левый и правый датчики)

Две камеры должны быть синхронизированы, чтобы захватывать изображения в точно одно и то же время — любое время задержки (даже миллисекунды) приведет к размытиям движения или несоответствию, что испортит расчеты дисперсии. Они также должны иметь совпадающие характеристики:
• Разрешение: Оба камеры должны иметь одинаковое разрешение (например, 1080p или 4K), чтобы обеспечить сравнение пиксель в пиксель.
• Длина фокусного расстояния объектива: Соответствующие фокусные расстояния предотвращают искажения между двумя изображениями.
• Тип сенсора изображения: предпочтительны CMOS-сенсоры из-за их низкого потребления энергии и высокой частоты кадров (что критично для приложений в реальном времени, таких как робототехника).

2.2 Базовая конфигурация

Базовая линия (расстояние между двумя камерами) адаптирована к конкретному случаю использования:
• Короткая базовая линия (<5 см): Используется в смартфонах (например, для портретного режима) и дронах, где пространство ограничено. Идеально подходит для определения глубины на близком расстоянии (0,3–5 метров).
• Длинная база (>10 см): Используется в автономных транспортных средствах и промышленных сканерах. Обеспечивает точное измерение глубины для удаленных объектов (5–100+ метров).

2.3 Калибровочная система

Стереокамеры не идеальны — искажение объектива (например, бочкообразное или подушкообразное искажение) и несоосность (наклон, вращение или смещение между двумя камерами) могут вводить ошибки. Калибровка исправляет эти проблемы следующим образом:
1. Захват изображений известного шаблона (например, шахматной доски) с разных углов.
2. Расчет внутренних параметров (фокусное расстояние, размер сенсора, коэффициенты искажения) для каждой камеры.
3. Вычисление экстраинских параметров (относительное положение и ориентация двух камер) для выравнивания их координатных систем.
Калибровка обычно выполняется один раз в процессе производства, но некоторые современные системы включают калибровку на лету, чтобы адаптироваться к изменениям окружающей среды (например, смещение линзы, вызванное температурой).

2.4 Процесс обработки изображений

После калибровки стереомодуль обрабатывает изображения в реальном времени для генерации карты глубины (2D-массив, где каждый пиксель представляет расстояние до соответствующей точки в сцене). Процесс включает четыре ключевых этапа:

Шаг 1: Исправление изображения

Ректификация преобразует левое и правое изображения так, чтобы соответствующие точки находились на одной горизонтальной линии. Это упрощает расчет дисперсии — вместо того чтобы искать совпадения по всему изображению, алгоритму нужно искать только вдоль одной строки.

Шаг 2: Сопоставление функций

Алгоритм определяет "соответствующие точки" между левым и правым изображениями. Это могут быть края, углы или текстурные узоры (например, угол книги или пятно на стене). Два распространенных подхода:
• Сопоставление блоков: Сравнивает небольшие блоки пикселей (например, 5x5 или 9x9) из левого изображения с блоками в правом изображении, чтобы найти лучшее соответствие. Быстро, но менее точно для областей без текстуры.
• Сопоставление на основе признаков: Использует алгоритмы, такие как SIFT (инвариантное к масштабу преобразование признаков) или ORB (ориентированный FAST и вращенный BRIEF), для обнаружения уникальных признаков, а затем сопоставляет их между изображениями. Более точно, но требует значительных вычислительных ресурсов.

Шаг 3: Расчет различий

Используя совпадающие точки, алгоритм вычисляет диспаратность для каждого пикселя. Для областей без четких признаков (например, обычная белая стена) техники "заполнения дыр" оценивают диспаратность на основе соседних пикселей.

Шаг 4: Уточнение карты глубины

Сырая карта глубины часто содержит шум или ошибки (например, из-за окклюзий, когда один объект блокирует вид на другой в одной камере). Техники уточнения — такие как медианное фильтрование, двустороннее фильтрование или постобработка на основе машинного обучения — сглаживают карту глубины и исправляют несоответствия.

3. Технические проблемы в стерео глубинном восприятии

Хотя стереозрение универсально, оно сталкивается с несколькими проблемами, которые могут повлиять на точность и надежность. Понимание этих ограничений является ключом к разработке эффективных систем:

3.1 Закупорки

Окклюзии происходят, когда объект виден в одной камере, но не виден в другой (например, человек, стоящий перед деревом — его тело блокирует дерево на одном изображении). Это создает "дыры дисперсии" в карте глубины, так как алгоритм не может найти соответствующие точки для окклюзированных областей. Решения включают:
• Использование машинного обучения для предсказания глубины для закрытых областей.
• Добавление третьей камеры (три-стерео системы) для захвата дополнительных перспектив.

3.2 Без текстуры или однородные поверхности

Области без четких признаков (например, белая стена, ясное небо) делают сопоставление признаков практически невозможным. Чтобы решить эту проблему, некоторые системы проецируют известный шаблон (например, инфракрасные точки) на сцену (комбинируя стереозрение со структурированным светом), чтобы создать искусственную текстуру.

3.3 Условия освещения

Экстремально яркие (например, прямые солнечные лучи) или слабоосвещенные условия могут смывать детали или вводить шум, снижая точность сопоставления. Решения включают:
• Использование камер с высоким динамическим диапазоном (HDR) для обработки контраста.
• Добавление инфракрасных (ИК) камер для сенсоров в условиях низкой освещенности (ИК невидим для человеческого глаза, но хорошо подходит для сопоставления признаков).

3.4 Вычислительная сложность

Сенсор глубины в реальном времени требует быстрой обработки, особенно для изображений с высоким разрешением. Для крайних устройств (например, смартфонов или дронов) с ограниченной вычислительной мощностью это является вызовом. Прогресс в аппаратном обеспечении (например, специализированные стереовизионные чипы, такие как Snapdragon Visual Core от Qualcomm) и оптимизированные алгоритмы (например, ускоренное блоковое сопоставление на GPU) сделали возможным выполнение в реальном времени.

4. Применение стереозрения для определения глубины в реальном мире

Модули стереовидения используются в различных отраслях благодаря своему балансу между стоимостью, точностью и производительностью в реальном времени. Ниже приведены некоторые ключевые приложения:

4.1 Потребительская электроника

• Смартфоны: Используются для портретного режима (для размытия фона путем определения глубины), распознавания лиц (например, Face ID от Apple, который сочетает стереозрение с ИК), и AR-фильтров (для наложения виртуальных объектов на реальные сцены).
• Виртуальная реальность (VR)/Дополненная реальность (AR): Стереокамеры отслеживают движения головы и жесты рук, позволяя создавать погружающие впечатления (например, отслеживание рук Oculus Quest).

4.2 Автономные транспортные средства

Стереозрение дополняет LiDAR и радар, предоставляя высокоразрешающие данные о глубине для ближнего sensing (например, обнаружение пешеходов, велосипедистов и бордюров). Это экономически эффективно для функций ADAS (Системы помощи водителю), таких как предупреждение о выходе из полосы и автоматическое экстренное торможение.

4.3 Робототехника

• Промышленная робототехника: Роботы используют стереозрение для захвата и размещения объектов, выравнивания компонентов во время сборки и навигации по заводским площадкам.
• Сервисная робототехника: Домашние роботы (например, пылесосы) используют стереозрение для избегания препятствий, в то время как роботы-доставщики используют его для навигации по тротуарам.

4.4 Здравоохранение

Стереозрение используется в медицинской визуализации для создания 3D-моделей органов (например, во время лапароскопической хирургии) и в реабилитации для отслеживания движений пациентов (например, при выполнении физических упражнений).

5. Будущие тенденции в стереозрении и глубинном восприятии

С развитием технологий стереозрительные системы становятся все более мощными и универсальными. Вот ключевые тенденции, формирующие их будущее:

5.1 Интеграция с ИИ и машинным обучением

Машинное обучение (ML) революционизирует стерео-глубинное восприятие:
• Оценка диспаратности на основе глубокого обучения: Модели, такие как DispNet и PSMNet, используют сверточные нейронные сети (CNN) для более точного вычисления диспаратности по сравнению с традиционными алгоритмами, особенно в областях без текстуры или с затенением.
• Предсказание глубины от начала до конца: Модели машинного обучения могут напрямую предсказывать карты глубины из сырых стереоизображений, пропуская этапы ручного сопоставления признаков и снижая задержку.

5.2 Миниатюризация

Достижения в микроэлектронике позволяют создавать более компактные стереомодули, что делает их подходящими для носимых устройств (например, умных очков) и крошечных дронов. Например, стереокамеры смартфонов теперь помещаются в тонкие корпуса с базовыми линиями всего 2 см.

5.3 Мультимодальная фузия

Стереозрение все чаще комбинируется с другими технологиями определения глубины, чтобы преодолеть ограничения:
• Стерео + LiDAR: LiDAR предоставляет данные о глубине на большом расстоянии, в то время как стереозрение добавляет высокое разрешение для объектов на близком расстоянии (используется в автономных транспортных средствах).
• Стерео + ToF: ToF обеспечивает быстрое определение глубины для динамических сцен, в то время как стереозрение улучшает точность (используется в робототехнике).

5.4 Краевая вычислительная техника

С ростом популярности чипов искусственного интеллекта на краю сети, обработка стереозрения переходит с облачных серверов на локальные устройства. Это снижает задержку (что критично для приложений в реальном времени, таких как робототехника) и улучшает конфиденциальность (нет необходимости отправлять данные изображений в облако).

6. Заключение

Модули стереовидения являются свидетельством того, как технологии, вдохновленные природой, могут решать сложные инженерные задачи. Путем воспроизведения человеческого бинокулярного зрения эти системы обеспечивают точное,实时ное определение глубины за небольшую долю стоимости LiDAR или высококачественных систем ToF. От смартфонов до автомобилей с автопилотом, их применение быстро расширяется благодаря достижениям в калибровке, обработке изображений и интеграции ИИ.
По мере того как мы смотрим в будущее, сочетание стереозрения с машинным обучением и мультимодальным сенсингом откроет еще больше возможностей — позволяя устройствам видеть мир с такой же пространственной осведомленностью, как у людей. Независимо от того, разрабатываете ли вы новый потребительский продукт или промышленного робота, понимание науки, стоящей за стерео-глубинным восприятием, имеет решающее значение для создания инновационных и надежных систем.
Есть вопросы по реализации стереозрения в вашем проекте? Оставьте комментарий ниже, и наша команда экспертов с радостью поможет вам!
стереозрение, определение глубины
Контакт
Оставьте свои контактные данные, и мы свяжемся с вами.

Поддержка

+8618520876676

+8613603070842

Новости

leo@aiusbcam.com

vicky@aiusbcam.com

WhatsApp
WeChat