DeepSeek تحدث ثورة في صناعة الذكاء الاصطناعي.. يتفوق على ChatGPT

الأحد، 29 ديسمبر 2024 03:52 م

في ظل التطور التكنولوجي والتقني الهائل، أحدثت شركة ناشئة صينية DeepSeek، ثورة في صناعة الذكاء الاصطناعي، بإصدار نموذج لغة كبير جديد (LLM).

وأظهرت اختبارات المقارنة أنه تفوق على نماذج منافسة من أمثال Meta Platforms و OpenAI منشئ ChatGPT.

‎وقالت الشركة التي يقع مقرها في هانغتشو في منشور على WeChat إن نموذجها الذي يحمل نفس الاسم، DeepSeek V3، يأتي مع 671 مليار معلمة ويتم تدريبه في حوالي شهرين بتكلفة 5.58 مليون دولار أمريكي، باستخدام موارد حوسبة أقل بكثير من النماذج التي طورتها شركات التكنولوجيا الأكبر.

‎يشير LLM إلى التكنولوجيا التي تدعم خدمات الذكاء الاصطناعي التوليدي مثل ChatGPT، في الذكاء الاصطناعي، يعد العدد الكبير من المعلمات محوريًا في تمكين LLM من التكيف مع أنماط البيانات الأكثر تعقيدًا وإجراء تنبؤات دقيقة.

‎وردًا على التقرير الفني للشركة الناشئة الصينية حول نموذج الذكاء الاصطناعي الجديد، قال عالم الكمبيوتر أندريه كارباثي - أحد أعضاء الفريق المؤسسين في OpenAI - في منشور على منصة التواصل الاجتماعي X: "تجعل DeepSeek الأمر يبدو سهلاً ... من خلال إصدار أوزان مفتوحة لبرنامج ماجستير في القانون من الدرجة الأولى تم تدريبه بميزانية ضئيلة".

‎تشير الأوزان المفتوحة إلى إصدار المعلمات المدربة مسبقًا أو الأوزان فقط لنموذج الذكاء الاصطناعي، مما يسمح لجهة خارجية باستخدام النموذج للاستدلال والضبط الدقيق فقط، ولا يتم توفير رمز تدريب النموذج ومجموعة البيانات الأصلية وتفاصيل البنية ومنهجية التدريب.

‎يتم عرض أيقونات روبوت الدردشة DeepSeek وChatGPT من OpenAI على شاشة الهاتف الذكي. الصورة: Shutterstock alt=يتم عرض أيقونات روبوت الدردشة DeepSeek وChatGPT من OpenAI على شاشة الهاتف الذكي.

‎يُظهِر تطوير DeepSeek لـ LLM قوي - بجزء بسيط من رأس المال الذي تستثمره الشركات الأكبر مثل Meta و OpenAI عادةً - مدى تقدم شركات الذكاء الاصطناعي الصينية، على الرغم من العقوبات الأمريكية التي منعت وصولها إلى أشباه الموصلات المتقدمة المستخدمة في نماذج التدريب.

‎بالاستفادة من البنية الجديدة المصممة لتحقيق تدريب فعال من حيث التكلفة، احتاجت DeepSeek إلى 2.78 مليون ساعة GPU فقط - وهو إجمالي الوقت الذي تستخدمه وحدة معالجة الرسومات لتدريب LLM - لنموذج V3 الخاص بها، واستخدمت عملية تدريب الشركة الناشئة وحدات معالجة الرسوميات H800 المصممة خصيصًا للصين من Nvidia.

‎أظهر التقرير الفني الذي نشرته شركة DeepSeek عن V3 أن برنامجها LLM تفوق على برنامج Meta's Llama 3.1 وبرنامج Qwen 2.5 التابع لمجموعة Alibaba القابضة في سلسلة من الاختبارات المعيارية لتقييم قدرات نظام الذكاء الاصطناعي من فهم النصوص وتوليدها، ومعرفة الخبراء في المجال، والترميز وحل المشكلات الرياضية، وتمتلك شركة Alibaba صحيفة South China Morning Post.