لقد أعاد انتشار وحدات الكاميرا منخفضة الطاقة تشكيل الصناعات من الأمن المنزلي الذكي والتكنولوجيا القابلة للارتداء إلى إنترنت الأشياء الصناعي والمراقبة البيئية. تعتمد هذه الأجهزة المدمجة والموفرة للطاقة على الذكاء الاصطناعي لتمكين التحليلات في الوقت الفعلي - اكتشاف الكائنات، التعرف على الحركة، المصادقة بالوجه - دون الحاجة إلى اتصال سحابي مستمر. ومع ذلك، لا يزال أكبر عنق زجاجة قائمًا: نماذج الذكاء الاصطناعي المتطورة (مثل المحولات أو الشبكات العصبية التلافيفية الكبيرة) ثقيلة حسابيًا، بينما تعمل الكاميرات منخفضة الطاقة ببطاريات محدودة وقوة معالجة محدودة. هذا هو المكان الذي يظهر فيه ضغط نماذج الذكاء الاصطناعي كعامل تغيير. ولكن على عكس أساليب الضغط التقليدية التي تركز فقط على التعديلات الخوارزمية، فإن مستقبل الذكاء الاصطناعي الفعال على الأجهزة منخفضة الطاقةكاميراتيكمن في التآزر بين الأجهزة والخوارزميات. في هذا المنشور، سنستكشف لماذا هذه النمذجة التعاونية حاسمة، وسنحلل تقنيات الضغط المبتكرة المصممة خصيصًا لأجهزة الكاميرا منخفضة الطاقة، وسنشارك رؤى قابلة للتنفيذ لتطبيقها في تطبيقات العالم الحقيقي. لماذا تفشل تقنيات ضغط الذكاء الاصطناعي التقليدية لوحدات الكاميرا منخفضة الطاقة
لسنوات، تركز ضغط نماذج الذكاء الاصطناعي على ثلاث استراتيجيات أساسية: التقليم (إزالة الأوزان الزائدة)، والتكميم (تقليل دقة البيانات من أرقام عشرية 32 بت إلى أعداد صحيحة 8 بت أو أقل)، وتقطير المعرفة (نقل التعلم من نموذج "معلم" كبير إلى نموذج "طالب" صغير). بينما تقلل هذه الطرق من حجم النموذج والحمل الحسابي، إلا أنها غالبًا ما تفشل في مراعاة القيود الفريدة لوحدات الكاميرا منخفضة الطاقة - على وجه التحديد، هياكلها المادية (مثل وحدات التحكم الدقيقة الصغيرة، أو وحدات معالجة الموتر الطرفية، أو شرائح معالجة إشارات الصور المخصصة) وميزانيات الطاقة (التي غالبًا ما تُقاس بالملي واط).
ضع في اعتبارك وحدة كاميرا نموذجية منخفضة الطاقة تعمل بواسطة متحكم دقيق من سلسلة Arm Cortex-M. قد يؤدي التكميم التقليدي ذو 8 بت إلى تقليص النموذج بنسبة 75%، ولكن إذا كان المتحكم الدقيق يفتقر إلى دعم الأجهزة لعمليات الأعداد الصحيحة ذات 8 بت، فسيظل النموذج المضغوط يعمل ببطء ويستنزف البطاريات - مما يهزم الغرض. وبالمثل، فإن التقليم الذي لا يأخذ في الاعتبار عرض نطاق الذاكرة الخاص بالكاميرا يمكن أن يؤدي إلى وصول مجزأ للبيانات، مما يزيد من زمن الاستجابة واستهلاك الطاقة. المشكلة ليست فقط في جعل النماذج أصغر؛ بل في جعل النماذج متوافقة مع الأجهزة المحددة للكاميرات منخفضة الطاقة. لهذا السبب أصبح التآزر بين الأجهزة والخوارزميات هو النجم القطبي الجديد للضغط الفعال.
النموذج الجديد: التصميم المشترك للأجهزة والخوارزميات للضغط
يعكس التصميم المشترك للأجهزة والخوارزميات النهج التقليدي: بدلاً من ضغط نموذج مدرب مسبقًا ليناسب الأجهزة الحالية، نقوم بتصميم تقنيات الضغط بالتزامن مع البنية الهندسية لوحدة الكاميرا. يضمن هذا النهج أن كل اختيار للضغط - من مستويات الدقة إلى بنية الطبقات - يتماشى مع نقاط قوة الأجهزة (مثل مسرعات الذكاء الاصطناعي المتخصصة، والذاكرة منخفضة الطاقة) ويخفف من نقاط ضعفها (مثل نوى الحوسبة المحدودة، وعرض النطاق الترددي المنخفض).
دعنا نستعرض ثلاث تقنيات ضغط مبتكرة مدفوعة بالتآزر تُحدث تحولاً في الذكاء الاصطناعي للكاميرات منخفضة الطاقة:
1. التقليم المدرك للهيكلية: تخصيص التشتت لهرميات ذاكرة الأجهزة
التقليم التقليدي يخلق تشتتًا "غير منظم" - يزيل الأوزان العشوائية عبر النموذج. بينما يقلل هذا من عدد المعلمات، إلا أنه لا يساعد في الوصول إلى الذاكرة، وهو استنزاف كبير للطاقة للكاميرات منخفضة الطاقة. يجبر التشتت غير المنظم الأجهزة على تخطي الأوزان الفارغة أثناء الحساب، مما يؤدي إلى قراءات/كتابات غير فعالة للذاكرة.
يقوم التقليم المدرك للهندسة المعمارية بحل هذه المشكلة عن طريق إنشاء تباعد "منظم" يتناسب مع التسلسل الهرمي لذاكرة الكاميرا. على سبيل المثال، إذا كانت وحدة التحكم الدقيقة (MCU) للكاميرا تستخدم كتل ذاكرة بحجم 32 بت، فإن تقليم كتل كاملة من الأوزان بحجم 32 بت (بدلاً من الأوزان الفردية) يضمن بقاء الوصول إلى البيانات متجاورًا. هذا يقلل من استخدام عرض النطاق الترددي للذاكرة بنسبة تصل إلى 40٪، وفقًا لدراسة أجريت عام 2024 من قبل مختبر Edge AI في ستانفورد. بالنسبة للكاميرات منخفضة الطاقة، والتي غالبًا ما يكون لديها حدود لعرض النطاق الترددي للذاكرة تبلغ 1-2 جيجابايت/ثانية، يترجم هذا إلى توفير كبير في الطاقة واستدلال أسرع.
نصيحة التنفيذ: استخدم أدوات مثل TensorFlow Lite for Microcontrollers (TFLite Micro) مع خطوط أنابيب تقليم مخصصة تتناسب مع حجم كتلة ذاكرة الكاميرا الخاصة بك. على سبيل المثال، إذا كانت وحدتك تستخدم وحدة تحكم دقيقة Nordic nRF5340 (مع محاذاة ذاكرة 32 بت)، فقم بتكوين التقليم لإزالة الأوزان في أجزاء بحجم 32 بت.
2. قياس الدقة: التكميم الديناميكي بناءً على دعم مسرّع الأجهزة
التكميم هو تقنية الضغط الأكثر استخدامًا للأجهزة منخفضة الطاقة، ولكن التكميم الثابت (باستخدام دقة ثابتة لجميع الطبقات) يهدر الكفاءة المحتملة. غالبًا ما تتضمن وحدات الكاميرا الحديثة منخفضة الطاقة مسرعات متخصصة - مثل CMSIS-NN من Arm، أو Coral Micro من Google، أو وحدات معالجة الموتر المخصصة (TPUs) - التي تدعم عمليات الدقة المختلطة (على سبيل المثال، 8 بت لطبقات الالتفاف، 16 بت لطبقات التنشيط).
التحسين الديناميكي المدرك للأجهزة يضبط الدقة على أساس كل طبقة، مستفيدًا من قدرات المسرّع. على سبيل المثال، يمكن لطبقة الالتفاف (convolution layer) التي تتطلب عبئًا حسابيًا كبيرًا ولكنها أقل حساسية للدقة أن تستخدم أعدادًا صحيحة ذات 4 بت (إذا كان المسرّع يدعم ذلك)، بينما يمكن لطبقة التصنيف التي تتطلب دقة أعلى أن تستخدم أعدادًا صحيحة ذات 8 بت. وجدت دراسة حالة أجريت عام 2023 من قبل شركة رائدة في تصنيع كاميرات المنازل الذكية أن هذا النهج قلل استهلاك الطاقة بنسبة 35% مقارنة بالتحسين الثابت ذي 8 بت، مع الحفاظ على 98% من دقة النموذج الأصلي للكشف عن الحركة.
أداة رئيسية: TensorRT Lite من NVIDIA، والتي تقوم تلقائيًا بتحسين الدقة بناءً على مواصفات الأجهزة، أو مترجم Vela من Arm، المصمم خصيصًا لوحدات الكاميرا المستندة إلى Cortex-M و Cortex-A.
3. ضغط دمج المستشعرات: الاستفادة من معالج إشارة الكاميرا (ISP) لاستخراج الميزات المبكر
تدمج وحدات الكاميرا منخفضة الطاقة معالج إشارة الصورة (ISP) للتعامل مع معالجة الصور الأساسية (مثل إزالة الضوضاء، التعرض التلقائي) قبل تغذية البيانات إلى نموذج الذكاء الاصطناعي. تتجاهل معظم تقنيات الضغط معالج إشارة الصورة (ISP)، لكن ضغط دمج المستشعرات يستخدم معالج إشارة الصورة (ISP) كخطوة "ما قبل الضغط" - مما يقلل البيانات التي يحتاج نموذج الذكاء الاصطناعي إلى معالجتها.
إليك كيفية عمل ذلك: يستخرج معالج إشارة الصورة (ISP) الميزات منخفضة المستوى (مثل الحواف، الأنسجة) مباشرة من بيانات مستشعر الصورة الخام. هذه الميزات أصغر حجمًا من الصورة كاملة الدقة وتتطلب قدرة حسابية أقل للمعالجة. يتم بعد ذلك تدريب نموذج الذكاء الاصطناعي للعمل مع هذه الميزات المستخرجة من معالج إشارة الصورة (ISP)، بدلاً من البكسلات الخام. هذا يقلل حجم إدخال النموذج بما يصل إلى 80%، وفقًا لأبحاث من جامعة كاليفورنيا، بيركلي.
على سبيل المثال، يمكن لكاميرا أمنية منخفضة الطاقة تستخدم ضغط دمج المستشعرات أن تستخرج وحدة معالجة إشارات الصور (ISP) ميزات الحافة، ثم تمررها إلى نموذج اكتشاف الكائنات المضغوط. النتيجة: استدلال أسرع (تسريع بمقدار 2x) واستهلاك طاقة أقل (انخفاض بنسبة 50%) مقارنة بمعالجة الصور كاملة الدقة.
دليل عملي: تطبيق الضغط المدفوع بالتآزر لكاميرا منخفضة الطاقة الخاصة بك
هل أنت مستعد لتطبيق هذه التقنيات؟ اتبع هذا الإطار خطوة بخطوة لضمان توافق استراتيجية الضغط الخاصة بك مع أجهزة وحدة الكاميرا الخاصة بك:
الخطوة 1: تحديد قيود الأجهزة الخاصة بك
أولاً، قم بتوثيق المواصفات الرئيسية لأجهزة وحدة الكاميرا الخاصة بك:
• نوع المعالج/المسرّع (مثل Cortex-M4، Coral Micro، TPU مخصص)
• مستويات الدقة المدعومة (8 بت، 4 بت، دقة مختلطة)
• عرض النطاق الترددي للذاكرة وحجم الكتلة (مثل محاذاة 32 بت، 512 كيلوبايت SRAM)
• ميزانية الطاقة (مثل 5 مللي واط للاستدلال المستمر)
• إمكانيات معالج إشارة الصور (ISP) (مثل استخراج الميزات، تقليل الضوضاء)
يمكن لأدوات مثل Arm’s Hardware Profiler أو Google’s Edge TPU Profiler مساعدتك في جمع نقاط البيانات هذه.
الخطوة 2: اختيار تقنيات الضغط المتوافقة مع نقاط قوة الأجهزة
طابق استراتيجية الضغط الخاصة بك مع أجهزتك:
• إذا كانت كاميرتك تحتوي على مسرّع ذكاء اصطناعي متخصص (مثل Coral Micro)، فاستخدم التكميم الديناميكي وتقطير المعرفة المصممة خصيصًا لمجموعة تعليمات المسرّع.
• إذا كانت كاميرتك تستخدم وحدة تحكم دقيقة أساسية (مثل Cortex-M0)، فامنح الأولوية للتقليم المدرك للهندسة المعمارية (لتحسين الوصول إلى الذاكرة) وضغط دمج المستشعرات (لتقليل حجم الإدخال).
• إذا كانت كاميرتك تحتوي على معالج إشارة صور (ISP) قوي، فادمج ضغط دمج المستشعرات لتفريغ استخراج الميزات منخفضة المستوى.
الخطوة 3: تدريب النموذج وضغطه مع مراعاة الأجهزة
استخدم أدوات التدريب المدركة للأجهزة لضمان تحسين نموذجك من البداية:
• قم بتدريب النموذج باستخدام التدريب المدرك للتكميم (QAT) للحفاظ على الدقة أثناء التكميم. تدعم أدوات مثل TFLite Micro و PyTorch Mobile التدريب المدرك للتكميم (QAT).
• استخدم التدريب المدرك للتقليم لإنشاء تباعد هيكلي. على سبيل المثال، تتيح لك TensorFlow Model Optimization Toolkit تحديد أنماط التقليم (مثل كتل 32 بت) التي تتطابق مع تخطيط ذاكرة جهازك.
• إذا كنت تستخدم دمج المستشعرات، فدرب النموذج على الميزات المستخرجة من ISP (وليس البكسلات الأولية) لضمان التوافق.
الخطوة 4: التحقق من الأداء على الجهاز المستهدف
الاختبار على محاكي لا يكفي - تحقق من صحة النموذج المضغوط على وحدة الكاميرا الفعلية الخاصة بك لقياس:
• الدقة: تأكد من أن الضغط لا يؤدي إلى تدهور الأداء (على سبيل المثال، يجب أن تظل دقة اكتشاف الكائنات أعلى من 95٪ لمعظم حالات الاستخدام).
• زمن الاستجابة: استهدف الاستدلال في الوقت الفعلي (على سبيل المثال، <100 مللي ثانية لكل إطار للكشف عن الحركة).
• استهلاك الطاقة: استخدم أدوات مثل Nordic Power Profiler Kit لقياس استنزاف البطارية أثناء الاستدلال.
كرر استراتيجية الضغط الخاصة بك حتى تحقق التوازن بين الدقة وزمن الاستجابة واستهلاك الطاقة.
قصة نجاح واقعية: كيف استخدمت كاميرا قابلة للارتداء ضغطًا مدفوعًا بالتآزر
دعنا نلقي نظرة على مثال واقعي: أرادت شركة كاميرات لياقة بدنية قابلة للارتداء إضافة التعرف على النشاط في الوقت الفعلي (على سبيل المثال، الجري، المشي) إلى وحدتها منخفضة الطاقة (مدعومة بوحدة تحكم دقيقة Arm Cortex-M7 بسعة 512 كيلوبايت من ذاكرة الوصول العشوائي الثابتة). قلل التكميم التقليدي ذي 8 بت من حجم النموذج بنسبة 75%، لكن النموذج لا يزال يستنزف البطارية في غضون ساعتين وكان لديه زمن استجابة يبلغ 200 مللي ثانية - وهو بطيء جدًا للاستخدام في الوقت الفعلي.
تحول الفريق إلى نهج التصميم المشترك بين الأجهزة والخوارزميات:
• تم استخدام التقليم المدرك للهندسة المعمارية لإنشاء تباعد كتل بحجم 32 بت، بما يتوافق مع محاذاة ذاكرة وحدة التحكم الدقيقة (MCU). وقد أدى ذلك إلى تقليل استخدام عرض النطاق الترددي للذاكرة بنسبة 38%.
• تم دمج ضغط دمج المستشعرات: استخرجت وحدة معالجة إشارة الكاميرا (ISP) الميزات الطرفية من الصور الأولية، مما قلل حجم الإدخال بنسبة 70%.
• تم تطبيق التكميم الديناميكي (8 بت لطبقات الالتفاف، 16 بت لطبقات التنشيط) باستخدام مترجم Vela من Arm.
النتيجة: تم تشغيل النموذج المضغوط في 85 مللي ثانية لكل إطار (في الوقت الفعلي)، وتم تقليل استنزاف البطارية إلى 8 ساعات، وتم الحفاظ على دقة التعرف على النشاط بنسبة 96%. تم إطلاق المنتج بنجاح، وأصبحت ميزة الذكاء الاصطناعي نقطة بيع رئيسية.
الاتجاهات المستقبلية: ما التالي لضغط الذكاء الاصطناعي في الكاميرات منخفضة الطاقة
مع تطور أجهزة الكاميرات منخفضة الطاقة، ستتطور أيضًا تقنيات الضغط. إليك ثلاثة اتجاهات يجب مراقبتها:
• الذكاء الاصطناعي التوليدي للضغط: ستنشئ نماذج الذكاء الاصطناعي معماريات نماذج محسّنة ومخصصة للأجهزة (على سبيل المثال، باستخدام البحث عن بنية الشبكة العصبية، أو NAS) تكون مضغوطة بطبيعتها. ستجعل أدوات مثل Google AutoML for Edge هذا متاحًا للمطورين.
• الضغط التكيفي على الجهاز: ستقوم الكاميرات بضبط مستويات الضغط ديناميكيًا بناءً على حالة الاستخدام (على سبيل المثال، دقة أعلى للمصادقة بالوجه، دقة أقل للكشف عن الحركة) ومستوى البطارية (على سبيل المثال، ضغط أكثر قوة عندما تكون البطارية منخفضة).
• دمج الذاكرة المكدسة ثلاثية الأبعاد: ستستخدم كاميرات الطاقة المنخفضة المستقبلية ذاكرة مكدسة ثلاثية الأبعاد (وضع الذاكرة مباشرة فوق وحدة التحكم الدقيقة/المسرع)، مما يتيح وصولاً أكثر كفاءة للبيانات. سيتم تصميم تقنيات الضغط للاستفادة من هذه البنية، مما يقلل من زمن الاستجابة واستهلاك الطاقة بشكل أكبر.
الخلاصة: التآزر هو المفتاح لفتح الذكاء الاصطناعي في كاميرات الطاقة المنخفضة
لم يعد ضغط نماذج الذكاء الاصطناعي لوحدات الكاميرا منخفضة الطاقة مجرد مسألة تصغير النماذج، بل يتعلق بجعل النماذج تعمل مع الأجهزة. يضمن التصميم المشترك بين الأجهزة والخوارزميات أن تقنيات الضغط لا تتناسب فقط مع قيود الطاقة والحوسبة، بل تستفيد بالفعل من البنية الفريدة للكاميرا لتقديم ذكاء اصطناعي أسرع وأكثر كفاءة. من خلال اعتماد التقليم الواعي بالبنية، والتحويل الديناميكي، وضغط دمج المستشعرات، يمكنك فتح ذكاء اصطناعي في الوقت الفعلي وصديق للبطارية لمنتجات الكاميرا منخفضة الطاقة الخاصة بك - سواء كانت للمنازل الذكية، أو الأجهزة القابلة للارتداء، أو إنترنت الأشياء الصناعي.
هل أنت مستعد للبدء؟ ابدأ بتعيين قيود الأجهزة لوحدة الكاميرا الخاصة بك، ثم استخدم الأدوات والأطر التي حددناها لبناء استراتيجية ضغط مدفوعة بالتآزر. مستقبل الذكاء الاصطناعي للكاميرات منخفضة الطاقة هو تعاوني - وهو في متناول يدك.