اختبار تورينج أمام ذكاء GPT-4.5.. محاكاة ناجحة أم ذكاء حقيقي؟

الذكاء الاصطناعي
ياسين عبد العزيز
أثارت دراسة حديثة من جامعة كاليفورنيا في سان دييجو جدلًا واسعًا بعد إعلانها عن نجاح نموذج GPT-4.5 في اجتياز اختبار تورينج بنسبة بلغت 73% مقارنة بالإنسان في محادثات نصية قصيرة أجراها مع مشاركين لم يتمكنوا من التمييز بينه وبين الإنسان الحقيقي في أغلب الحالات.
ركزت الدراسة على مقارنة أداء أربعة نماذج لغوية مختلفة شملت ELIZA وGPT-4o وLLaMa-3.1-405B وGPT-4.5 وشارك فيها 284 شخصًا في اختبارات تواصل مدتها خمس دقائق لكل جولة حيث طُلب من كل مشارك تحديد أي الطرفين الذي تواصل معه هو الإنسان وأيهما الذكاء الاصطناعي بناء على نوعية الإجابات واللغة المستخدمة.
نتائج التجربة أظهرت تفاوتًا ملحوظًا في أداء النماذج حيث فشل النموذجان الأقدم ELIZA وGPT-4o في إقناع المشاركين إلا بنسبة لم تتجاوز 23% في حين اقترب نموذج LLaMa من المنتصف بنسبة 56% بينما تفوق GPT-4.5 بوضوح بنسبة 73% وهي نسبة تتجاوز سقف النجاح المعروف لاختبار تورينج.
جذور فلسفية
اختبار تورينج الذي يعود إلى عالم الرياضيات آلان تورينج عام 1950 لم يكن في أساسه موجهًا لقياس الذكاء كما يُفهم اليوم بل كان محاولة لإعادة صياغة سؤال هل يمكن للآلة أن تفكر إلى صيغة أكثر واقعية وقابلة للاختبار عبر ما يسمى بـ لعبة المحاكاة التي تعتمد على قدرة الآلة في تقليد السلوك البشري ضمن محادثة نصية دون أن يلاحظ المحاور أنها ليست إنسانًا.
الاختبار الذي أصبح لاحقًا أداة شهيرة في تقييم الذكاء الاصطناعي يعتمد على مخرجات سطحية لا على فهم الآليات الداخلية التي تنتج تلك المخرجات وهو ما أدى إلى اعتراضات كثيرة من علماء وفلاسفة يرون أنه لا يمكن اختزال العقل البشري إلى آلة ولا يمكن مساواة تقليد السلوك بامتلاك التفكير الحقيقي.
مخاوف مفاهيمية
الانتقادات الموجهة إلى اختبار تورينج تتمحور حول أربع نقاط رئيسية أولها أن الاختبار لا يقيس التفكير بل فقط القدرة على المحاكاة إذ يمكن لنموذج ذكي إنتاج إجابات مقنعة دون أن يفهم معناها أو يشعر بها.
ثانيًا يعتمد الاختبار ضمنًا على فكرة أن الدماغ يشبه الحاسوب في طريقة عمله وهو افتراض ترفضه علوم الأعصاب والفلسفة الحديثة باعتباره اختزاليًا وغير واقعي.

ثالثًا يتجاهل الاختبار كيفية توليد الإجابات ويهتم فقط بالنتيجة النصية الظاهرة وهو ما يُعرف بمشكلة الصندوق الأسود أي أننا لا نعرف ما إذا كانت الآلة تفكر فعلًا أم فقط تنفذ تعليمات مبرمجة بكفاءة.
رابعًا يركز الاختبار على جانب واحد من جوانب الذكاء وهو القدرة اللغوية بينما يتكون الذكاء البشري من قدرات عديدة تشمل الإبداع والوعي والتعلم من القليل والتفاعل مع البيئة وهي قدرات لا يمكن لاختبار واحد أن يغطيها أو يقيسها.
نتائج مؤقتة
نتائج الدراسة التي أكدت نجاح GPT-4.5 في محاكاة البشر لم تُخضع بعد لمراجعة الأقران وهي تجربة قصيرة زمنًا لا تتجاوز خمس دقائق وقد لا تكشف عن التناقضات التي قد تظهر في محادثات طويلة وأكثر تعقيدًا إضافة إلى أن كل نموذج طُلب منه تبني شخصية معينة أثناء المحادثة وهي جزئية لم توضحها الدراسة بشكل كاف مما قد يعني أن نتائج النموذج تأثرت بعوامل خارجية مثل طبيعة تلك الشخصية.
الباحثون أنفسهم حذروا من تضخيم دلالة النتائج حيث أشاروا إلى أن اختبار تورينج يقيس قابلية الاستبدال لا مستوى الذكاء أي أنه يشير إلى مدى قدرة الذكاء الاصطناعي على أداء دور الإنسان في مهمة معينة دون أن يُكشف أمره وليس إلى أنه يمتلك ذكاءً حقيقيًا.
ذكاء محدود
اجتياز اختبار تورينج بنجاح لا يعني أن النموذج يتمتع بوعي أو إدراك أو تفكير نقدي وإنما يدل فقط على أن أداءه الخارجي أصبح مقنعًا بدرجة كافية ضمن ظروف معينة ولفترة قصيرة.
التقدم الذي أحرزته النماذج الحديثة مثل GPT-4.5 في محاكاة البشر لغويًا مثير لكنه لا يمثل بالضرورة قفزة نحو ذكاء بشري متكامل وإنما يعكس تطورًا في القدرة على تقليد الأنماط اللغوية والتفاعلية.
ما زلنا أمام أنظمة قادرة على المحاكاة بدرجة عالية لكنها تفتقر إلى الفهم العميق والمعنى وتعمل ضمن حدود ما تم تدريبها عليه دون امتلاك استقلال معرفي أو وعي ذاتي.
أخبار ذات صلة
أحدث الموبايلات
-
Apple iPhone 13 Pro Max
-
Xiaomi Redmi Note 11
-
Samsung Galaxy A52s
-
OPPO Reno6 Pro 5G
-
realme GT2 Pro
-
vivo Y19
-
Honor 50 Pro
-
Huawei Nova 9
-
Nokia 8.3 5G
هل يتراجع عدد عملاء CIB خلال الفترة المقبلة بعد زيادة أسعار رسوم التحويل والخدمات؟
-
نعم
-
لا
-
غير مهتم
أكثر الكلمات انتشاراً