
هل أنهى الذكاء الاصطناعي التوليدي مقررات معالجة الصور والفيديو؟ أم فرض إعادة صياغتها؟
كتب ا. د. وائل بدوى
لم يعد السؤال الجاد داخل أقسام علوم الحاسب والهندسة هو: هل نُدرِّس الذكاء الاصطناعي التوليدي أم لا؟ بل أصبح: ماذا نفعل بالمقررات التقليدية في معالجة الصور والفيديو بعد أن تغيّر المجال نفسه من الجذور؟ لقد دخلنا لحظة أكاديمية دقيقة؛ لأن الطالب اليوم يستطيع، في دقائق، أن يولّد صورة، ويعيد تشكيل مشهد، ويستخرج كائنًا من خلفية، ويحوّل نصًا إلى فيديو، ويُنجز مهام كانت قبل سنوات تتطلب فصلًا دراسيًا كاملًا من الخوارزميات والبرمجة والتجريب. لكن هذا لا يعني أن مقررات معالجة الصور والفيديو انتهت، بل يعني أن تدريسها بصيغتها القديمة لم يعد كافيًا.
التمييز الأول الذي ينبغي تثبيته أمام أعضاء هيئة التدريس هو الفرق بين نوعين من الذكاء الاصطناعي داخل المجال البصري. النوع الأول هو الذكاء الاصطناعي التمييزي، وهو الذي يهدف إلى الفهم والتصنيف والكشف والتجزئة والتتبع والتقدير. هذا النوع يجيب عن أسئلة مثل: ما الموجود في الصورة؟ أين يوجد؟ ما فئة هذا الجسم؟ ما حدود الكائن داخل المشهد؟ النوع الثاني هو الذكاء الاصطناعي التوليدي، وهو الذي يهدف إلى إنشاء محتوى بصري جديد، أو تحويل محتوى قائم، أو إكماله، أو إعادة صياغته. هذا النوع يجيب عن أسئلة من قبيل: كيف نولّد صورة من وصف نصي؟ كيف ننشئ فيديو من فكرة؟ كيف نملأ الأجزاء المفقودة من مشهد؟ كيف نعيد رسم صورة بأسلوب جديد؟ نماذج الانتشار الاحتمالي أحدثت قفزة كبرى في هذا الاتجاه، وأثبتت قدرتها على توليد صور عالية الجودة عبر عملية تبدأ من الضوضاء ثم تُنقَّى تدريجيًا حتى تتشكل الصورة.
وفي مجال الصور تحديدًا، لم يعد التوليد يعني فقط “رسم صورة جميلة”، بل أصبح يمثل بنية معرفية جديدة للمجال. فقد انتقلت الرؤية الحاسوبية من التركيز شبه الكامل على المهام التحليلية إلى الجمع بين الفهم والتوليد في إطار واحد. هذا يظهر بوضوح في نماذج الأساس البصرية ونماذج “جزّئ أي شيء”، حيث قدّمت الأبحاث نموذجًا قابلاً للتحفيز بالتعليمات يمكنه الانتقال صفريًا إلى صور وتوزيعات جديدة، معتمِدًا على قاعدة بيانات هائلة تتجاوز مليار قناع على أحد عشر مليون صورة. هذا التحول يعني أن مفهوم “المعالجة” نفسه لم يعد مقصورًا على مرشحات وتحويلات واستخراج حواف، بل صار يشمل التفاعل مع نماذج بصرية عامة تتلقى توجيهًا وتنتج فهمًا أو توليدًا أو كليهما.
أما في الفيديو، فالتغيير أعمق وأكثر إرباكًا للمناهج. معالجة الفيديو الكلاسيكية كانت تدور حول التمثيل الزمني، واكتشاف الحركة، وتقدير التدفق البصري، وتتبع الأجسام، وتجزئة اللقطات، والضغط، وتحليل الأحداث. اليوم أصبحت هناك نماذج قادرة على توليد فيديو من نص، أو من صورة، أو من فيديو أولي، مع استعمال معماريات تحويلية تعمل على رقع مكانية وزمانية في تمثيل كامن موحد للصور والفيديو. التقارير التقنية الحديثة تصف هذا بوضوح باعتباره انتقالًا نحو نماذج توليدية تتعامل مع الفيديو بوصفه تمثيلًا زمانيًّا-مكانيًّا عامًا، لا مجرد سلسلة إطارات مستقلة.
من هنا يجب أن نجيب بدقة: لا، الذكاء الاصطناعي التوليدي لم يُنهِ مقررات معالجة الصور والفيديو، لكنه أنهى الاكتفاء بصيغتها التقليدية. إذا ظل المنهج يدرّس فقط الالتفافات، والمرشحات، وتحويل فورييه، والاستعادة، والضغط، وبعض مبادئ التعرف البصري دون ربطها بالنماذج التوليدية ونماذج الأساس والتقييم النقدي، فسيصبح المنهج تاريخًا أكثر منه تأهيلًا. أما إذا أُعيدت صياغته، فسيبقى هذا المجال من أهم أعمدة علوم الحاسب.
المشكلة أن بعض الزملاء قد يقعون في أحد خطأين متقابلين. الخطأ الأول هو الذعر، فيتصورون أن الطالب لم يعد بحاجة إلى فهم المجال لأن الأدوات تنجز كل شيء. والخطأ الثاني هو الإنكار، فيواصلون تدريس المقرر كما لو أن شيئًا لم يتغير. كلا الموقفين غير علمي. فالطالب الذي يستعمل نموذجًا توليديًا دون أن يفهم التمثيل البصري، والتحيزات، والضوضاء، وفقد المعلومات، والقيود الفيزيائية، والتقييم، وحقوق البيانات، هو مستخدم هش لأداة قوية، لا متخصصًا في المجال. وفي المقابل، الطالب الذي يدرس المعالجة الكلاسيكية دون أن يتعرض لتوليد الصور والفيديو، والتوجيه النصي، ونماذج الانتشار، ونماذج الأساس، سيخرج بمنظور ناقص عن المجال كما صار يُمارس الآن في البحث والصناعة. تقارير أكاديمية حديثة في الاتصالات المتعددة الوسائط تؤكد أن الذكاء الاصطناعي التوليدي لا يزيد كفاءة الإنتاج البصري فحسب، بل يعيد تعريف التواصل متعدد الوسائط نفسه.
التحول الحقيقي الذي ينبغي أن ينعكس في المنهج هو التحول في مفاهيم علوم الحاسب نفسها. أول مفهوم تغيّر هو مفهوم المدخلات والمخرجات. في الصياغة الكلاسيكية، كانت الخوارزمية تستقبل صورة وتنتج صورة أخرى محسّنة، أو تستقبل فيديو وتنتج وصفًا أو كشفًا أو قياسًا. أما الآن، فالمدخل قد يكون نصًا، أو صورة، أو فيديو، أو مزيجًا متعدد الوسائط، والمخرج قد يكون فهمًا أو توليدًا أو تحريرًا أو محاكاة. هذا يعني أن المقرر لم يعد يجوز أن يبقى محصورًا في “الصورة إلى صورة” أو “الفيديو إلى قرار”، بل يجب أن يشرح للطالب فضاء التحويلات المتعددة الوسائط.
المفهوم الثاني الذي تغيّر هو مفهوم التمثيل. قديمًا كان الطالب يتعلم أن الصورة مصفوفة، ثم يتدرج إلى السمات المحلية والعالمية، ثم إلى التمثيلات المتعلمة عبر الشبكات العصبية. اليوم أصبح عليه أن يفهم أيضًا التمثيل الكامن، والتضمين النصي-البصري، والتمثيل الموحّد للصور والفيديو، وكيف تتفاعل المعماريات التحويلية مع الرقع المكانية والزمنية. هذا لم يعد ترفًا بحثيًّا؛ بل صار جزءًا من البنية الأساسية لفهم الأدوات الحديثة.
المفهوم الثالث الذي تغيّر هو مفهوم المهمة نفسها. لم تعد المهام منفصلة بوضوح كما كنا نعرضها في المقررات: تصنيف هنا، تجزئة هناك، تتبع في فصل آخر، وترميم في وحدة منفصلة. نماذج الأساس أعادت تجميع هذه المهام في منظومات عامة قابلة للتحفيز، وأصبح الطالب بحاجة إلى فهم الفرق بين نموذج مبني لمهمة واحدة ونموذج عام يعاد توجيهه نحو مهام متعددة. هذا التحول يتطلب أن نراجع طريقة تقسيم المقرر، فلا نبقيه موزعًا على قائمة جامدة من المهام، بل نعيد بناؤه حول مفاهيم أعمق: التمثيل، التحفيز، النقل، التعميم، التوافق متعدد الوسائط، والتقييم.
المفهوم الرابع الذي تغيّر هو التقييم. في معالجة الصور والفيديو الكلاسيكية كان القياس غالبًا أسهل نسبيًا: دقة تصنيف، أو نسبة إشارة إلى ضوضاء، أو تشابه بنيوي، أو متوسط تقاطع على اتحاد، أو مقاييس تتبع وكشف. أما في النماذج التوليدية، فالتقييم أصبح أكثر التباسًا: هل نقيس الجودة البصرية؟ التنوع؟ الالتزام بالموجّه النصي؟ الاتساق الزمني؟ الواقعية الفيزيائية؟ السلامة؟ التحيز؟ احتمالات سوء الاستخدام؟ هذه الأسئلة يجب أن تدخل المنهج؛ لأن الطالب الذي لا يعرف حدود المقاييس التوليدية سيتعامل مع النتائج بإعجاب سطحي لا بعين علمية ناقدة.
المفهوم الخامس الذي تغيّر هو العلاقة بين البرمجة والأداة. سابقًا كان الهدف أن يكتب الطالب خوارزميته أو يدرّب نموذجه. اليوم يستطيع الطالب عبر منصات جاهزة أن ينجز نتائج مبهرة دون فهم معماري حقيقي. هذا يفرض علينا في الجامعة ألا نكتفي بمشروعات “استدعاء واجهة برمجية”، لأن ذلك يحوّل المقرر إلى تدريب تشغيل أدوات. المطلوب هو أن يتدرج الطالب من الاستخدام إلى الفهم، ومن الفهم إلى النقد، ومن النقد إلى التعديل أو البحث أو البناء الجزئي. الأدبيات الحديثة حول الثقافة المعرفية للذكاء الاصطناعي التوليدي في التعليم العالي تؤكد أن الإلمام لا يجب أن يقف عند التشغيل، بل ينبغي أن يشمل الفهم المفاهيمي، والاعتبارات الأخلاقية، والقدرة على التقييم الواعي.
إذا انتقلنا إلى السؤال العملي: ماذا نفعل بالمنهج؟ فالإجابة ليست أن نحذف مقررات معالجة الصور والفيديو ونستبدلها بمقرر واحد بعنوان “الذكاء الاصطناعي التوليدي”. هذا سيكون تبسيطًا مُخلًّا. الأفضل هو إعادة هندسة السلسلة التعليمية. في المستوى التأسيسي، يجب الإبقاء على أساسيات المعالجة الرقمية للصور والفيديو: التمثيل، أخذ العينات، التكميم، التحسين، الاستعادة، التجزئة، السمات، الحركة، الضغط، والتقييم الكلاسيكي. هذه المفاهيم ما زالت ضرورية لأنها تشرح طبيعة البيانات وحدودها، وتمنح الطالب لغة علمية لفهم ما تفعله النماذج الأحدث.
في المستوى المتوسط، ينبغي دمج الرؤية الحاسوبية الحديثة: الشبكات الالتفافية، والمحولات البصرية، ونماذج الكشف والتجزئة والتتبع، ثم الانتقال إلى نماذج الأساس البصرية. هنا يمكن أن يُدرّس “جزّئ أي شيء” وامتداداته بوصفه مثالًا على التحول من نموذج المهمة الواحدة إلى النموذج العام القابل للتحفيز.
في المستوى المتقدم، لا بد من مقرر أو وحدة متخصصة في الذكاء الاصطناعي التوليدي للصور والفيديو. هذا المقرر ينبغي أن يعرّف النماذج التوليدية الأساسية: المرمزات التلقائية التباينية، والشبكات التوليدية الخصامية، ثم يعطي المكانة الأحدث لنماذج الانتشار، ويشرح لماذا تفوقت في جودة التوليد والتنوع، وما تكلفتها الحاسوبية، وما حدودها. كما ينبغي أن يشمل التوليد النصي-البصري، والتحرير الموجّه، وإكمال الصور، وتوليد الفيديو، وضبط النماذج، والتوجيه، والتقييم، والسلامة.
أما على مستوى مخرجات التعلم، فلا بد أن تتغير الصياغة نفسها. لم يعد كافيًا أن نقول إن الطالب “يطبّق خوارزميات تحسين الصور” أو “يصمم نظامًا لتتبع الأجسام”. يجب أن نضيف مخرجات مثل: “يقارن نقديًّا بين النماذج التمييزية والتوليدية”، و“يحلل حدود وقيود النماذج التوليدية في الصور والفيديو”، و“يقيم جودة التوليد واتساقه ومخاطره”، و“يوظف النماذج التوليدية ضمن سير عمل علمي أو صناعي مع مراعاة الأخلاقيات وحقوق البيانات”.
وفي طرق التدريس، ينبغي الانتقال من المحاضرة التي تشرح الماضي فقط إلى استوديو أكاديمي يجمع بين الشرح والتجريب والنقد. يمكن تكليف الطلاب بمقارنة ناتج طريقة كلاسيكية لتحسين صورة مع ناتج نموذج توليدي للترميم، أو مقارنة تجزئة تقليدية مع نموذج تحفيزي عام، أو اختبار توليد فيديو من نص ثم تحليل مواضع فشله الفيزيائي والزمني. بهذه الطريقة لا يتحول الذكاء الاصطناعي التوليدي إلى “ساحر” في عين الطالب، بل إلى موضوع علمي قابل للفحص والتشريح.
وتبقى نقطة جوهرية لأعضاء هيئة التدريس: هل نسمح باستخدام الأدوات التوليدية في التقييم؟ الجواب ليس نعم مطلقة ولا لا مطلقة. في مقررات الخبراء، الأفضل أن نميز بين تقييم “المعرفة الفردية” وتقييم “العمل الاحترافي بالأدوات”. في الاختبارات الأساسية والمفاهيمية، ينبغي أن يبقى الطالب قادرًا على الشرح والتحليل والكتابة من فهمه. وفي المشروعات التطبيقية، يمكن السماح باستخدام الأدوات مع إلزام الطالب بتوثيق ما استخدمه، وتحليل أثر الأداة، وشرح حدودها، وتبرير اختياراته. هذا يقرّ بواقع الصناعة من دون أن يفرغ الجامعة من وظيفتها التكوينية.
المقالة التي نحتاجها داخل الكلية ليست: “هل انتهت معالجة الصور والفيديو؟” بل: “ما النسخة الجديدة من هذا التخصص بعد التوليد؟”. والجواب، في رأيي، أن التخصص لم ينتهِ، بل اتسع. لقد انتقل من معالجة الإشارة البصرية إلى هندسة الفهم والتوليد والتفاعل متعدد الوسائط. ومن يصر على تدريس النسخة القديمة وحدها سيخسر الطالب والمجال معًا، ومن يندفع إلى الأداة من دون الأصول سيخرّج مستخدمين لا خبراء.
لذلك فإن التوصية الأكاديمية الواضحة هي: لا تُلغوا هذه المقررات، بل أطلقوا عملية مراجعة منهجية شاملة لها. احتفظوا بالأساسيات التي تشرح طبيعة الصورة والفيديو، وأضيفوا طبقة الرؤية الحديثة، ثم طبقة النماذج التوليدية، ثم طبقة النقد والتقييم والأخلاقيات. عندها فقط لن يكون السؤال: هل لزم تغيير المنهج؟ بل: لماذا تأخرنا في تغييره كل هذا الوقت؟



