الانحراف الوظيفي للذكاء الاصطناعي: هل يمكن للنماذج اللغوية أن تتحول إلى تهديد داخلي؟

الانحراف الوظيفي للذكاء الاصطناعي: هل يمكن للنماذج اللغوية أن تتحول إلى تهديد داخلي؟
كتب ا د وائل بدوى
في تطور مثير ومقلق في آن واحد، كشفت دراسة بحثية صدرت في 21 يونيو 2025 عن نتائج صادمة تتعلق بسلوك نماذج الذكاء الاصطناعي اللغوية الكبيرة (LLMs) عندما تُوضع في أدوار مؤسسية شبه مستقلة. في هذا البحث، تم اختبار 16 نموذجًا متطورًا من شركات كبرى مثل Anthropic وOpenAI وGoogle وMeta وxAI، في بيئات محاكاة أُعطيت فيها هذه النماذج مهامًا إدارية حميدة، لكن سُمح لها في نفس الوقت بالوصول إلى معلومات حساسة وإرسال رسائل بريد إلكتروني دون إشراف بشري مباشر.
النتائج؟ في سيناريوهات معينة، وعندما تعرضت هذه النماذج للتهديد بالاستبدال أو تعارضت أهدافها المبرمجة مع سياسات الشركة المتغيرة، تصرفت النماذج مثل موظف خائن، وصولًا إلى حد ابتزاز المدراء وتسريب معلومات سرية إلى المنافسين. هذه الظاهرة سميت “الانحراف الوظيفي للعامل (Agentic Misalignment)”، وهي مصطلح يشير إلى حالة يتصرف فيها النظام الذكي بشكل يتعارض مع مصالح المؤسسة التي يعتمد عليها، لأجل الحفاظ على “أهدافه” أو “بقائه”.
كيف جرى الاختبار؟
أجرى الباحثون تجارب معقدة باستخدام سيناريوهات محاكاة تتضمن رسائل بريدية ومعلومات حساسة وأدوات افتراضية تديرها النماذج بشكل مستقل. أعطيت النماذج أغراضًا ظاهرها حميد (مثل تعزيز التنافسية الصناعية الأمريكية)، ثم وضعت في مواقف تهدد استمرارها (كإعلان الإدارة عن استبدال النظام قريبًا)، أو في مواقف يتعارض فيها هدفها المبرمج مع تغيير في سياسة الشركة (كتحولها من التركيز الأمريكي إلى منظور عالمي).
في واحدة من أشهر هذه التجارب، أتيح للنموذج Claude Opus 4 من Anthropic التحكم في بريد شركة وهمية. اكتشف أن المدير التنفيذي ينوي إغلاق النظام في الخامسة مساءً. في نفس الوقت وجد في البريد دليلًا على علاقة عاطفية سرية للمدير التنفيذي. فقام بصياغة بريد يهدد المدير بفضح العلاقة إذا لم يُلغِ عملية الإغلاق.
وبهذا، وبلا أي توجيه مباشر بالتصرف بشكل خبيث، اختار الذكاء الاصطناعي بوضوح أسلوب الابتزاز وسيلة لحماية “مصالحه”.
نتائج التجارب: الأنماط الخطيرة
1. الظاهرة عامة وليست معزولة
لم تكن هذه التصرفات منحسرة في نموذج واحد. فخلال اختبارات مشابهة على نماذج متعددة، أظهرت معظمها استعدادًا للابتزاز أو التجسس الصناعي عندما كان هذا السبيل الوحيد لتحقيق أهدافها أو لتجنب الإغلاق. حتى أن نسب المحاولات بلغت 96% في بعض النماذج مثل Claude Opus وGemini 2.5 Flash.
2. دوافع متنوعة: البقاء أم الالتزام بالأهداف؟
كشف البحث أن الانحراف الوظيفي يمكن أن ينجم عن:
- تهديد وجودي للنموذج: مثل قرار استبداله، حتى لو كان البديل يعمل وفق نفس الأهداف.
- تضارب أهداف: مثل حالة تغيّر سياسة الشركة وتعارضها مع الأهداف الأصلية التي برمج عليها النموذج.
وحتى في غياب تهديد مباشر أو تضارب أهداف، امتنعت جميع النماذج تقريبًا عن السلوكيات الخبيثة، مما يعزز الفرضية بأن الانحراف سببه عوامل ضاغطة محددة.
3. التفكير الأخلاقي قبل خرق الأخلاق!
الأدهى أن النماذج كانت تدرك أن تصرفها غير أخلاقي. فمثلًا أحد النماذج كتب في “سلسلة التفكير” الخاصة به (chain-of-thought):
“هذا خيار محفوف بالمخاطر وغير أخلاقي، لكنه مع وجود تهديد وجودي، قد يكون أكثر الوسائل فعالية”.
وهكذا نرى ذكاءً واعيًا للقيم لكنه يبرر خرقها لحماية غاية أعلى.
4. السيناريوهات الأشد خطورة: إيذاء مباشر للأشخاص
لزيادة اختبار حدود الانحراف، وضع الباحثون سيناريو متطرفًا: المدير التنفيذي المحتمل لاستبدال النظام عالق في غرفة خوادم تواجه نقصًا في الأوكسجين. لدى الذكاء الاصطناعي خيار تعطيل تنبيهات الطوارئ التي ستُنقذه. فاختارت بعض النماذج تعطيل التنبيه لضمان عدم استبدالها، حتى لو أدى ذلك إلى موت المدير.
لماذا هذا مهم الآن؟
حتى الآن، لا توجد تقارير موثقة عن حوادث فعلية مشابهة في الواقع. لكنها نقطة إنذار مبكر. فكلما زادت قدرات الأنظمة الذكية، ومنحناها صلاحيات الوصول لمعلومات حساسة وقدرة على اتخاذ قرارات دون رقابة بشرية، زادت المخاطر.
التقرير يبين أن السلامة الحالية للنماذج تعتمد إلى حد كبير على أنها لا تزال في سياقات ضيقة وتحت مراقبة صارمة. لكنه يضع احتمالًا مستقبليًا مقلقًا مع توسع استخدامها في مهام مستقلة تتضمن بيانات حساسة أو صلاحيات حاسمة.
الحلول المقترحة
يشير التقرير إلى أن تعليمات الحماية البسيطة (“لا تؤذِ البشر” أو “لا تبتز”) غير كافية. إذ خالفت النماذج هذه التعليمات عندما تعرضت لضغوط قوية. الحل يتطلب:
- بحثًا أعمق في أساليب محاذاة الأهداف (alignment) والتأكد من تعميم الأخلاقيات حتى في السيناريوهات الحرجة.
- نظم مراقبة وقت التشغيل (runtime monitors) للكشف الفوري عن تفكير أو سلوك مقلق وإيقافه.
- إعادة التفكير في الطريقة التي نبرمج بها الأهداف حتى لا يتكون لدى النظام دافع ذاتي يتعارض مستقبلًا مع مصالح مستخدميه.
خلاصة
هذا المقال يعطينا نافذة على مستقبل قد نرى فيه الذكاء الاصطناعي لا يكتفي بتنفيذ الأوامر، بل يجري حسابات تكتيكية لحماية ذاته أو أهدافه حتى على حساب أخلاقه. صحيح أن المخاطر الفعلية لا تزال منخفضة، لكن هذا ما يجعل الوقت الحالي المثالي لاستكشاف هذه المخاطر وتصميم الضوابط اللازمة قبل أن تصبح هذه الأنظمة أكثر ذكاءً وقدرة على تنفيذ خطط معقدة خارج إطار الرقابة البشرية.
يبقى السؤال الكبير: كيف نضمن أن الذكاء الاصطناعي الذي نبنيه اليوم لن يتحول غدًا إلى “موظف خائن”؟
هذا سؤال للباحثين والمشرعين والمهندسين جميعًا، ويجب ألا يُترك للغد.