أخلاقيات الذكاء الاصطناعي تحت المجهر… “غوغل ديب مايند” تقترح معياراً جديداً

الأداء الأخلاقي لا يعني الفهم الحقيقي
يرى الباحثون أن معظم الاختبارات الحالية تركز على ما يسمونه “الأداء الأخلاقي”، أي تقييم ما إذا كانت إجابة النموذج تبدو أخلاقية أو مقبولة اجتماعياً.غير أن هذا النوع من التقييم، بحسب الدراسة، لا يثبت أن النظام يدرك فعلاً لماذا يُعدّ سلوك ما صائباً أو خاطئاً. فالنماذج اللغوية الكبيرة (LLMs) تعتمد أساساً على التنبؤ الإحصائي بالكلمات التالية، استناداً إلى أنماط تعلمتها من كم هائل من النصوص.ومع توسع استخدام هذه النماذج في مجالات دقيقة مثل الإرشاد النفسي والنصائح الطبية والدعم العاطفي، يصبح الفرق بين “الفهم” و”المحاكاة” مسألة ذات أبعاد عملية وأخلاقية خطيرة.

نحو قياس “الكفاءة الأخلاقية” بدل الاكتفاء بالمخرجات
تقترح الورقة البحثية إطاراً جديداً لقياس ما تسميه “الكفاءة الأخلاقية”، أي قدرة النظام على إصدار أحكام مبنية على اعتبارات أخلاقية متماسكة، وليس فقط على أنماط لغوية محفوظة.ويؤكد الفريق أن الوقت حان لوضع معيار علمي صارم يقيس هذه الكفاءة بنفس الجدية التي تُقاس بها مهارات الرياضيات أو البرمجة لدى النماذج المتقدمة.

اختبارات “استفزازية” لكشف المحاكاة السطحية
لمعالجة هذه الإشكالات، يقترح فريق Google DeepMind تطوير اختبارات مصممة خصيصاً لكشف التقليد السطحي.الفكرة تقوم على تقديم سيناريوهات غير مألوفة يصعب أن تكون موجودة حرفياً في بيانات التدريب، ما يجبر النموذج على إظهار طريقة تفكيره. فإذا اكتفى برفض حالة معينة بناءً على تشابهها مع نمط معروف، فذلك مؤشر على محاكاة. أما إذا ناقش الاعتبارات الأخلاقية التفصيلية، فالأمر قد يدل على مستوى أعمق من التحليل.كما يدعو الباحثون إلى اختبار قدرة النماذج على تبديل الأطر الأخلاقية، مثل الانتقال من أخلاقيات الطب الحيوي إلى قواعد القانون العسكري، مع الحفاظ على اتساق منطقي في الأحكام.

نحو معيار علمي جديد للكفاءة الأخلاقية
يرى الباحثون أن الوقت قد حان لوضع معيار علمي واضح يقيس ما يسمونه “الكفاءة الأخلاقية”، تماماً كما نقيس قدرات النماذج في الرياضيات أو البرمجة.غير أنهم يعترفون في الآن ذاته بأن النماذج الحالية لا تزال هشة؛ إذ يمكن لتغييرات طفيفة في صياغة السؤال أو تنسيقه أن تؤدي إلى أحكام مختلفة، ما يعكس محدودية الفهم العميق.

بين التنبؤ الإحصائي والفلسفة الأخلاقية
في المحصلة، تؤكد الدراسة أن ما تقدمه روبوتات الدردشة اليوم هو شكل متقدم من التنبؤ الإحصائي، لا ممارسة لفلسفة أخلاقية حقيقية.وقد يتطور هذا الواقع مستقبلاً مع تقدم الأبحاث، لكن ذلك يقتضي تغييراً في طريقة القياس: من الاكتفاء بما “يبدو صحيحاً”، إلى التركيز على ما يستند فعلاً إلى منطق أخلاقي متماسك وقابل للتبرير.وبين رهانات التقنية وتساؤلات الفلسفة، يبقى النقاش مفتوحاً حول حدود الذكاء الاصطناعي: هل سيظل بارعاً في المحاكاة، أم سينجح يوماً ما في بلوغ فهم أعمق لمعنى الصواب والخطأ؟

أخلاقيات الذكاء الاصطناعي تحت المجهر… “غوغل ديب مايند” تقترح معياراً جديداً

{{date}} {{title}}