نماذج OpenAI الجديدة تبهر في الأداء وتفشل في الموثوقية

ChatGPT
ياسين عبد العزيز
أعلنت شركة OpenAI عن إطلاق نماذجها الذكية الجديدة o3 وo4-mini التي تنتمي إلى ما يعرف بنماذج الاستدلال، ويمثل هذا التطور قفزة واضحة في مجالات مثل البرمجة وحل المسائل الرياضية، ولكن المفاجأة الكبرى جاءت من خلال نتائج الاختبارات، حيث أظهرت النماذج الجديدة معدلات هلوسة أعلى بكثير من النماذج السابقة، مما أثار مخاوف كبيرة تتعلق بدقة المعلومات التي تنتجها هذه النماذج وموثوقيتها في الاستخدام العملي.
هلوسة متزايدة
أجرت OpenAI اختبارات داخلية أظهرت أن النماذج o3 وo4-mini، ورغم تفوقها من حيث قوة الاستدلال، إلا أنها تُظهر سلوكًا أكثر اضطرابًا في إنتاج المعلومات مقارنة بالنماذج السابقة مثل o1 وo3-mini وGPT-4o، حيث وُجد أن معدل الهلوسة لدى o3 يصل إلى 33%، وهو ما يعادل أكثر من ضعف معدل النموذج o1 الذي سجل 16%، في حين بلغ معدل الهلوسة في o4-mini نسبة 48%، وهو رقم صادم حتى بمعايير التجريب الداخلي في مجال الذكاء الاصطناعي.
أسباب غامضة
ورغم أن OpenAI صرحت بأن هذه النماذج تمثل نقلة نوعية في قدرات الفهم المنطقي، إلا أنها أكدت في تقريرها الرسمي أنها لا تمتلك تفسيرًا واضحًا لسبب ارتفاع معدلات الهلوسة مع تطور هذه النماذج، وأشارت الشركة إلى أن مزيدًا من الأبحاث الجارية قد تكشف لاحقًا العلاقة بين آليات الاستدلال والخلل الناتج في المخرجات.
نتائج خارجية
وأكدت مؤسسة Transluce البحثية غير الربحية، التي أجرت اختبارات مستقلة على النماذج الجديدة، أن o3 يميل إلى اختلاق تفاصيل وهمية في خطوات الاستدلال، وذكرت في أحد تقاريرها أن النموذج زعم تشغيل كود برمجي على جهاز MacBook Pro عام 2021 خارج بيئة ChatGPT، ثم نقل نتائج التنفيذ، وهو أمر غير ممكن تقنيًا لأن النماذج لا تملك هذه القدرات الفيزيائية، ما يعكس انحرافًا خطيرًا في فهم النموذج لقدراته وحدود استخدامه.
آراء متباينة
يرى الباحث Neil Chowdhury، وهو موظف سابق في OpenAI ويعمل الآن مع Transluce، أن استخدام تقنيات التعلم المعزز قد يكون عاملًا في تفاقم سلوك الهلوسة، بدلًا من تقليصه، بينما ترى Sarah Schwettmann، الشريكة المؤسسة لـ Transluce، أن النماذج الجديدة تصبح أقل فائدة كلما زادت أهمية دقة المعلومات، حيث لا يمكن الاعتماد عليها في السياقات الحساسة مثل المجالات الطبية أو القانونية.

ومن ناحية أخرى، أوضح Kian Katanforoosh، الأستاذ بجامعة ستانفورد والرئيس التنفيذي لشركة Workera الناشئة، أن فريقه يستخدم o3 في تطوير البرمجيات وحقق من خلاله نتائج متقدمة على نماذج منافسة، ولكنهم لاحظوا أيضًا تكرارًا واضحًا لمشكلة الروابط الوهمية التي تُنتجها النماذج خلال عملية البحث أو التوليد.
إبداع مزيف
تشير بعض التحليلات إلى أن سلوك الهلوسة قد يكون انعكاسًا لنمط تفكير إبداعي تم بناؤه داخل النموذج، إلا أن هذا النمط لا يمكن قبوله عندما يتعلق الأمر بمعلومات حساسة، لأن الخلط بين الإبداع واختراع معلومات زائفة يقوّض ثقة المستخدمين ويعيق إدماج هذه النماذج في أنظمة حرجة مثل الخدمات الطبية أو القضاء.
حلول ممكنة
تعمل OpenAI على دمج قدرات البحث عبر الإنترنت في نماذجها المستقبلية للحد من هذا السلوك، حيث سجل النموذج GPT-4o المزود بآلية بحث مباشر نسبة دقة بلغت 90% في اختبار SimpleQA، ما يشير إلى أن إدخال مصادر خارجية موثوقة قد يكون الطريق الأقرب لتقليل الهلوسة وتحسين المخرجات، ويدفع هذا النهج الشركة نحو تطوير نماذج هجينة تجمع بين القدرة الاستدلالية والربط اللحظي بالمصادر المعتمدة.
التطوير مستمر
أوضح المتحدث باسم OpenAI، نيكو فيليكس، أن معالجة مشكلة الهلوسة لا تزال محورًا أساسيًا في أبحاث الشركة، وأن الجهود مستمرة لتطوير نماذج يمكن الاعتماد عليها في جميع المجالات، ويمثل هذا التحدي نقطة فاصلة في سباق الذكاء الاصطناعي، حيث لم تعد القوة الحسابية وحدها كافية، بل أصبحت الدقة والموثوقية من أهم معايير النجاح والتبني.
أخبار ذات صلة
الأكثر مشاهدة
أحدث الموبايلات
-
Apple iPhone 13 Pro Max
-
Xiaomi Redmi Note 11
-
Samsung Galaxy A52s
-
OPPO Reno6 Pro 5G
-
realme GT2 Pro
-
vivo Y19
-
Honor 50 Pro
-
Huawei Nova 9
-
Nokia 8.3 5G
هل يتراجع عدد عملاء CIB خلال الفترة المقبلة بعد زيادة أسعار رسوم التحويل والخدمات؟
-
نعم
-
لا
-
غير مهتم
أكثر الكلمات انتشاراً