مقدمه: پایان سلطه CMOS در حال آمدن نیست—بلکه اینجا است
زمانی که یک خودروی خودران یک عابر پیاده را در نور کم از دست میدهد یا یک میکروسکوپ نمیتواند پیکهای عصبی را در زمان واقعی ردیابی کند، مقصر تنها محدودیتهای سختافزاری نیست—این یک پارادایم تصویربرداری 30 ساله است. سنتیماژولهای CMOS, ستون فقرات هر دوربین دیجیتال امروزی، برای دنیایی طراحی شدهاند که در آن "کافی خوب" به معنای ضبط فریمها در فواصل ثابت بود. اما با توجه به اینکه صنایع به سیستمهای بینایی سریعتر، هوشمندتر و کارآمدتر نیاز دارند، گلوگاههای ساختاری CMOS به موانع غیرقابل عبور تبدیل شدهاند. دوربینهای عصبی وارد میشوند: حسگرهای الهام گرفته از زیست که فقط نور را ضبط نمیکنند—آن را تفسیر میکنند. این یک ارتقاء تدریجی نیست؛ بلکه یک بازتصور کامل از نحوه ضبط دادههای بصری است. تا سال 2030، کارشناسان پیشبینی میکنند که دوربینهای عصبی 45% از بازارهای تصویربرداری با عملکرد بالا را اشغال خواهند کرد، از وسایل نقلیه خودران تا تشخیصهای پزشکی. اینجا دلیل و چگونگی جایگزینی آنها بهجای ماژولهای CMOS برای همیشه است. نقص پنهان در CMOS: این بر اساس یک مصالحه شکسته ساخته شده است
برای دههها، تولیدکنندگان CMOS به دنبال دو هدف متضاد بودهاند: وضوح بالاتر و نرخ فریم سریعتر. CMOS انباشته (آخرین نسخه، که در گوشیهای پرچمدار مانند آیفون ۱۵ پرو استفاده میشود) سعی کرد این مشکل را با فناوری TSV (از طریق سیلیکون) حل کند، که لایههای پیکسل را از مدارهای منطقی جدا میکند تا پهنای باند را افزایش دهد. اما این رویکرد موقتی مشکلات جدیدی ایجاد کرد: TSVها به عنوان کانالهای حرارتی عمل میکنند، دماهای پیکسل را افزایش میدهند و نویز را افزایش میدهند. بدتر از آن، CMOS انباشته هنوز به مدل "بر اساس فریم" پایبند است—هر پیکسل به مدت یکسانی نور را ثبت میکند، که باعث میشود تعادلی بین سرعت و نسبت سیگنال به نویز (SNR) ایجاد شود.
به یک عصبشناس که در حال مطالعه فعالیت مغز است فکر کنید: برای پیگیری نوسانات ولتاژ در مقیاس میلیثانیه، آنها به بیش از ۱۰۰۰ فریم در ثانیه نیاز دارند. اما سنسورهای CMOS در این سرعت به قدری نور کمی را ثبت میکنند که سیگنالها توسط نویز غرق میشوند. برعکس، زمانهای طولانیتر برای بهبود نسبت سیگنال به نویز، اهداف سریعالسیر را تار میکند. این یک اشکال در CMOS نیست - این یک ویژگی از طراحی آن است. همانطور که محقق MIT متیو ویلسون میگوید: "تنظیم نوردهی یکسان CMOS یک محدودیت اساسی است زمانی که شما در تلاش برای تصویر برداری از صحنههای دینامیک و پیچیده هستید."
نقصهای دیگر عمیقتر هستند:
• اضافهگویی داده: CMOS هر پیکسل را در هر فریم ضبط میکند، حتی پسزمینههای ثابت، که 80% از پهنای باند را هدر میدهد.
• محدودیتهای دامنه دینامیکی: CMOS سنتی در 80–100 دسیبل به اوج میرسد و در محیطهای با کنتراست بالا (به عنوان مثال، غروب آفتاب بر فراز یک جنگل) شکست میخورد.
• تأخیر: تبدیل سیگنالهای نوری آنالوگ به دادههای دیجیتال و ارسال آنها به یک پردازنده باعث ایجاد تأخیر میشود—که برای کاربردهایی مانند رانندگی خودکار کشنده است.
اینها مسائلی نیستند که با بهبود تولید قابل حل باشند. CMOS قربانی معماری خود است. دوربینهای عصبی، در مقابل، برای حذف این سازشها طراحی شدهاند.
دوربینهای عصبی: سه نوآوری تحولآفرین
دوربینهای عصبی از شبکیه انسانی الهام میگیرند، که تنها زمانی سیگنالها را ارسال میکند که نور تغییر کند—بدون دادههای اضافی، بدون زمانهای ثابت نوردهی. در اینجا نحوه بازنویسی قوانین را مشاهده میکنید:
1. پیکسلهای برنامهپذیر: هر پیکسل برای هدف خود کار میکند
بزرگترین پیشرفت از هوش در سطح پیکسل ناشی میشود. حسگر CMOS با قابلیت تنظیم نوردهی برنامهپذیر MIT (PE-CMOS) که در سال 2024 رونمایی شد، به هر پیکسل اجازه میدهد که زمان نوردهی خود را بهطور مستقل تنظیم کند. با استفاده از تنها شش ترانزیستور در هر پیکسل (یک سادهسازی از طراحیهای قبلی)، پیکسلهای همسایه میتوانند یکدیگر را تکمیل کنند: پیکسلهای با نوردهی سریع حرکتهای سریع (مانند پیکهای عصبی) را ردیابی میکنند، در حالی که پیکسلهای با نوردهی کند جزئیات را در مناطق تاریک ثبت میکنند - همه در یک صحنه.
در آزمایشها، PE-CMOS توانست وضوح تکپیک در تصویربرداری عصبی را به دست آورد، که این دستاوردی است که CMOS نمیتوانست بدون قربانی کردن سرعت به آن برسد. Jie Zhang، محقق اصلی، توضیح میدهد: “ما فقط نور را ثبت نمیکنیم - ما نحوه تعامل هر پیکسل با آن را بهینهسازی میکنیم.” این انعطافپذیری، معضل سرعت-نسبت سیگنال به نویز (SNR) که CMOS را آزار میدهد، از بین میبرد.
2. تصویربرداری مبتنی بر رویداد: دادهها فقط زمانی که مهم است
دوربینهای رویداد (نوعی دوربین عصبی) این را بیشتر پیش میبرند: آنها تنها زمانی داده تولید میکنند که یک پیکسل تغییر در شدت نور را تشخیص دهد. به جای فریمها، آنها "رویدادها" را خروجی میدهند—بستههای کوچک اطلاعات با مختصات، زمان و قطبیت (افزایش یا کاهش نور).
نتایج تحولآفرین هستند:
• بازه دینامیکی 120+ dB: دوربینهای رویدادی میتوانند نور مستقیم خورشید و سایههای تاریک را به طور همزمان مدیریت کنند.
• تاخیر میکروثانیهای: عدم وجود بافر فریم به معنای خروجی داده نزدیک به آنی است—که برای خودروهای خودران در حال اجتناب از تصادف حیاتی است.
• 90% داده کمتر: با نادیده گرفتن صحنههای ثابت، دوربینهای رویدادی نیاز به پهنای باند را کاهش میدهند و مصرف انرژی را در مقایسه با CMOS تا 70% کاهش میدهند.
محققان مؤسسه علوم هند از دوربین رویدادی iniVation برای تصویربرداری از نانوذرات کوچکتر از 50 نانومتر استفاده کردند—که فراتر از حد پراش میکروسکوپهای سنتی است. جریان دادههای پراکنده دوربین به الگوریتمهای هوش مصنوعی اجازه میدهد تا بر سیگنالهای معنادار تمرکز کنند و نویز را به اطلاعات قابل استفاده تبدیل کنند.
3. هوش مصنوعی روی حسگر: پردازش، نه فقط ضبط
برخلاف CMOS که به پردازندههای خارجی برای تحلیل تصاویر وابسته است، دوربینهای عصبی هوش مصنوعی را مستقیماً در سنسور ادغام میکنند. سنسورهای جدید سامسونگ که به صورت لایهای طراحی شدهاند، در حال حاضر شامل ماژولهای پایه هوش مصنوعی برای کاهش نویز هستند، اما دوربینهای عصبی این موضوع را به سطح جدیدی میبرند: آنها دادهها را در حین ضبط پردازش میکنند.
به عنوان مثال، سنسور Metavision پروفسی از شبکههای عصبی روی تراشه برای شناسایی اشیاء در زمان واقعی استفاده میکند و تنها دادههای مرتبط را به پردازنده اصلی ارسال میکند. در بازرسی صنعتی، این به معنای شناسایی نقصها در خط تولید بدون ذخیره ترابایتها فیلم بیفایده است. «دوربینهای عصبی فقط سنسورهای تصویر نیستند—آنها موتورهای ادراک هستند»، میگوید چتان سینگ تاکور، نویسنده مشترک مطالعه نانوتکنولوژی.
جایگزینیهای دنیای واقعی: جایی که دوربینهای عصبی در حال پیروزی هستند
انتقال از CMOS به دوربینهای عصبی نظری نیست—این امروز در حال وقوع است، با شروع از کاربردهای با ارزش بالا که در آن نقصهای CMOS هزینهبرترین هستند:
عصبشناسی و تصویربرداری پزشکی
PE-CMOS مؤسسه MIT در حال حاضر برای ردیابی فعالیتهای عصبی در حیوانات در حال حرکت آزاد استفاده میشود، چیزی که CMOS بدون ایجاد تاری یا نویز نمیتوانست انجام دهد. در اندوسکوپی، دوربینهای رویداد با تأخیر کم و دامنه دینامیکی بالا به پزشکان اجازه میدهند که داخل بدن را بدون نور شدید ببینند و ناراحتی بیمار را کاهش دهند.
وسایل نقلیه خودران
تسلا و ویمو در حال آزمایش دوربینهای رویداد در کنار CMOS هستند تا نقاط کور را از بین ببرند و زمان واکنش را کاهش دهند. یک دوربین عصبی میتواند یک کودک را که به سمت جاده میدود 10 برابر سریعتر از CMOS تشخیص دهد و به طور بالقوه از حوادث جلوگیری کند.
نانوتکنولوژی و علم مواد
میکروسکوپ نورومورفیک IISc اکنون تجاریسازی شده است و به محققان اجازه میدهد تا حرکت مولکولی را با دقت بیسابقهای مطالعه کنند. این فقط یک ارتقاء نیست—این یک ابزار جدید است که آنچه را که در تحقیق علمی ممکن است گسترش میدهد.
الکترونیک مصرفی (ایستگاه بعدی)
در حالی که دوربینهای عصبی در حال حاضر گرانتر از CMOS هستند، هزینهها در حال کاهش است. طراحی سادهشده پیکسل MIT پیچیدگیهای تولید را کاهش میدهد و تولید انبوه قیمتها را تا سطح CMOS تا سال 2027 پایین خواهد آورد. احتمالاً گوشیهای پرچمدار ابتدا سیستمهای هیبریدی را اتخاذ خواهند کرد—دوربینهای عصبی برای ویدیو و نور کم، CMOS برای عکسهای ثابت—قبل از اینکه به طور کامل تا سال 2030 جایگزین CMOS شوند.
مسیر جایگزینی: تکامل، نه انقلاب
دوربینهای عصبی به طور ناگهانی جایگزین CMOS نخواهند شد. انتقال در سه مرحله انجام خواهد شد:
1. استفاده مکمل (2024–2026): دوربینهای عصبی در برنامههای با عملکرد بالا (مانند خودروهای خودران، تصویربرداری علمی) به CMOS افزوده میشوند.
2. جایگزینی انتخابی (2026–2028): با کاهش هزینهها، دوربینهای عصبی بازارهای مصرفی تخصصی (مانند دوربینهای اکشن، عکاسی با پهپاد) را که در آن سرعت و عملکرد در نور کم بیشترین اهمیت را دارند، تصاحب میکنند.
3. تسلط اصلی (2028–2030): دوربینهای عصبی به پیشفرض در گوشیهای هوشمند، لپتاپها و دستگاههای IoT تبدیل میشوند، در حالی که CMOS محدود به محصولات اقتصادی است.
این مسیر منعکسکننده تغییر از CCD به CMOS در دهه 2000 است - که بهدلیل عملکرد، نه فقط هزینه، انجام شده است. «CMOS جایگزین CCD شد زیرا انعطافپذیرتر بود»، تحلیلگر صنعت سارا چن میگوید. «دوربینهای عصبی به همین دلیل جایگزین CMOS میشوند: آنها به صحنه سازگار میشوند، نه برعکس.»
چالشهایی برای غلبه بر
با وجود وعدههایشان، دوربینهای عصبی با موانعی مواجه هستند:
• استانداردهای صنعتی: عدم وجود پروتکل جهانی برای دادههای رویداد به معنای مشکلات سازگاری بین حسگرها و نرمافزار است.
• حساسیت به نور کم: در حالی که دوربینهای رویداد در کنتراست عالی هستند، هنوز در تاریکی نزدیک به کامل مشکل دارند—هرچند تحقیقات در MIT در حال پرداختن به این موضوع با بهبود فوتودیودها است.
• تعصب ادراکی: هوش مصنوعی روی حسگر میتواند در صورت عدم آموزش صحیح تعصباتی را معرفی کند، که این یک ریسک در برنامههای حیاتی ایمنی است.
این چالشها قابل حل هستند. کنسرسیومهایی مانند IEEE در حال توسعه استانداردهای دوربین رویداد هستند و استارتاپها در بهینهسازی نور کم سرمایهگذاری میکنند. بزرگترین مانع فناوری نیست—بلکه ذهنیت است: تولیدکنندگان و توسعهدهندگان باید به دنیایی عادت کنند که دوربینها فقط عکس نمیگیرند، بلکه آنچه را که میبینند درک میکنند.
نتیجهگیری: آینده تصویربرداری عصبی است
ماژولهای سنتی CMOS با ایجاد دسترسی به دوربینهای دیجیتال، عکاسی را متحول کردند. اما آنها در یک ذهنیت مبتنی بر فریم گیر کردهاند که نمیتواند با نیازهای هوش مصنوعی، خودمختاری و کشف علمی همگام شود. دوربینهای عصبی فقط بر روی CMOS بهبود نمییابند—آنها تعریف جدیدی از آنچه یک حسگر تصویر میتواند باشد ارائه میدهند.
با ترکیب پیکسلهای برنامهپذیر، دادههای مبتنی بر رویداد و هوش مصنوعی روی حسگر، دوربینهای عصبی مصالحههایی را که برای دههها عکاسی را محدود کردهاند، از بین میبرند. آنها سریعتر، هوشمندتر و کارآمدتر هستند و در حال حاضر در کاربردهایی که بیشترین اهمیت را دارند، جایگزین CMOS میشوند. با کاهش هزینهها و بلوغ فناوری، دوربینهای عصبی به اندازه CMOS امروز فراگیر خواهند شد—نه تنها نحوه عکاسی ما را تغییر میدهند، بلکه نحوه تعامل ما با جهان را نیز متحول میکنند.
سوال این نیست که آیا دوربینهای عصبی جایگزین CMOS خواهند شد—بلکه این است که شما چه زمانی آنها را به کار خواهید گرفت. برای کسبوکارها، پاسخ میتواند به معنای پیشی گرفتن از رقبا باشد. برای مصرفکنندگان، به معنای عکسهای بهتر، خودروهای ایمنتر و فناوریهایی است که هنوز حتی به آنها فکر نکردهایم. آینده تصویرسازی عصبی است—و سریعتر از آنچه فکر میکنید در حال آمدن است.