DeepSeek V4: نموذج ذو معلمات 1T يسعى للسيطرة على السياق الطويل

  • يأتي DeepSeek V4 ببنية Mixture-of-Experts تصل إلى 1,6 تريليون من المعلمات وما يقرب من 1 تريليون في النماذج المفتوحة، حيث يتم تفعيل عشرات المليارات فقط لكل رمز مميز لتحقيق الكفاءة.
  • توفر عائلة V4 نافذة سياق تصل إلى مليون رمز مميز كمعيار جديد، مما يسمح لك بالعمل مع مستودعات التعليمات البرمجية الضخمة والوثائق في تمريرة واحدة.
  • تجمع النسختان Pro و Flash بين الأداء العالي والتعددية الوسائطية وتكاليف الاستدلال المنخفضة للغاية مقارنة بالنماذج المغلقة مثل GPT أو Claude.
  • إن فتح الأوزان والتوافق مع واجهات برمجة التطبيقات الشائعة يقرب الذكاء الاصطناعي الرائد من الشركات الناشئة والشركات الأوروبية، مع تأثير خاص على إسبانيا والنظام البيئي الناطق بالإسبانية.

سياق طويل لنموذج DeepSeek V4

أصبح الجيل الجديد من نماذج DeepSeek محور نقاش تكنولوجي من خلال اقتراح واضح للغاية: سياق يصل إلى مليون رمز مميز وبنية تضم أكثر من تريليون معلمة صُممت هذه السلسلة لتكون فعالة، وقبل كل شيء، أرخص بكثير من البدائل ذات الحلقة المغلقة في الولايات المتحدة، وقد استثمرت الشركة الصينية كل شيء في V4، وهي عائلة تجمع بين الأوزان المفتوحة، ونافذة سياق ضخمة، واستراتيجية تسعير تنافسية.

تأتي هذه الخطوة في وقت تقوم فيه أوروبا وإسبانيا بالتدقيق في تكلفة الذكاء الاصطناعي وسيادته التكنولوجية. يُعدّ DeepSeek V4 خيارًا جذابًا للشركات الناشئة والشركات الصغيرة والمتوسطة والشركات الكبيرة في أوروبا. التي تحتاج إلى قدرات على مستوى الحدود، ولكنها لا تستطيع - أو لا ترغب في - الاعتماد كليًا على واجهات برمجة التطبيقات الخاصة باهظة الثمن أو الأجهزة الحصرية مثل وحدات معالجة الرسومات NVIDIA الأكثر طلبًا.

عائلة V4 تتمحور حول 1 تيرابايت من المعلمات وسياق من 1 مليون رمز مميز

بنية DeepSeek V4

أعلنت شركة DeepSeek عن وصول DeepSeek-V4 Preview كمجموعة من النماذج المفتوحة التي تتمحور حول فكرتين: نافذة سياقية تصل إلى مليون رمز مميز وهياكل ضخمة تعتمد على مزيج الخبراء (MoE)ضمن هذه العائلة، يبرز نوعان رئيسيان: DeepSeek-V4-Pro و DeepSeek-V4-Flash، وكلاهما يتميز بسياق 1M كسمة مميزة.

في أقصى طموحاتها، تعمل V4-Pro بأرقام يصل إجمالي المعايير إلى 1,6 تريليون (1,6 تيرابايت)، على الرغم من أنه لا يُفعّل سوى ما بين 32 و49 مليار مُعامل في كل خطوة استدلال بفضل نظام MoE، وهو أمر بالغ الأهمية للحفاظ على الكفاءة. في الوقت نفسه، طرحت الشركة إصدارات أخف وزنًا، مثل V4-Flash وV4-Lite، مع ما يقارب 284-285 مليار مُعامل إجمالي ونحو 13 مليار مُعامل مُفعّل، مُصممة للتطبيقات التي تُعطي الأولوية للسرعة والتكلفة.

يضع العدد الإجمالي للمعايير عائلة V4 في صدارة السوق، ولكن التفصيل المهم هو أن جزء صغير فقط من هؤلاء الخبراء يتم تفعيلهم بواسطة رمز مميز.يُمكّن هذا النظام من العمل كنموذج ضخم من حيث السعة، ولكن باستهلاك طاقة حاسوبية أقرب إلى استهلاك النماذج الأصغر حجمًا. وهو نهج يتوافق مع رؤية DeepSeek: منافسة النماذج الكبيرة ذات المصادر المغلقة دون رفع تكلفة الاستخدام بشكل كبير.

أصدرت الشركة أيضاً نسخاً تجريبية أولية مثل V4-Lite، والتي تُستخدم للتحقق التقني، وتعمل على تعديل جدول النشر. على الرغم من ذلك لا يزال الإصدار الرابع في مرحلة اختبار محدودة في بعض السياقات، يمكن بالفعل استخدام عائلة V4 Preview في برنامج الدردشة الآلي الرسمي ومن خلال واجهة برمجة التطبيقات المحدثة للشركة، مع اعتبار سياق 1M هو القيمة الافتراضية في خدماتها.

بنية هجينة ومزيج من الخبراء لجعل السياق طويل الأجل قابلاً للتطبيق

يكمن سر قدرة DeepSeek على توفير نافذة سياقية تضم مليون رمز مميز دون ارتفاع تكلفة الاستدلال بشكل كبير في بنيتها. ويوضح المصنّع أن الإصدار الرابع (V4) يقدم مزيج من الرعاية الهجينة، ومزيج من الخبراء، وتقنيات الضغط مصمم للعمل مع التسلسلات الطويلة جدًا، مما يقلل من عمليات الفاصلة العائمة لكل رمز والذاكرة المطلوبة.

من بين المكونات التقنية التي ذكرتها الشركة، تبرز المكونات التالية: MLA (الانتباه الكامن متعدد الرؤوس)، وDSA أو الانتباه المتفرق DeepSeek، وآليات الذاكرة الشرطية مثل Engramتهدف هذه المكونات مجتمعة إلى تقليل عبء حساب الانتباه، خاصة عندما يتعين على النموذج التعامل مع مئات الآلاف أو مليون رمز في تمريرة واحدة.

وفقًا للبيانات التي شاركتها الشركة نفسها، في سيناريوهات مليون رمز مميز قد يتطلب DeepSeek-V4-Pro حوالي 27% من عمليات الفاصلة العائمة لكل رمز مميز و10% فقط من ذاكرة التخزين المؤقت للمفتاح والقيمة مقارنة بالإصدارات السابقة مثل DeepSeek-V3.2تعمل الإصدارات الأخف وزناً، مثل V4-Flash، على تقليل هذه الأرقام بشكل أكبر، مما يجعلها حلول استدلال سريعة للتطبيقات التي يكون فيها زمن الاستجابة أمراً بالغ الأهمية.

لا تقتصر هذه الأنواع من التحسينات على الجانب النظري فحسب: إذ تزعم الشركة أن الجمع بين هامش الخطأ، وتشتت الانتباه، وفهم السياق يسمح العمل مع سياق طويل للغاية في أجهزة أقل تطرفا تكلفة المليون رمز أقل بكثير من تكلفة العديد من النماذج المغلقة ذات النوافذ التي تبلغ 128 ألف أو 200 ألف رمز.

الأداء في مهام الاستدلال والبرمجة والتنفيذ الآلي

لا تسعى شركة DeepSeek إلى التميز فقط من خلال حجمها وسياقها. ففي مقارناتها الداخلية، تصر الشركة على أن تم تحسين V4-Pro ومتغيراته خصيصًا للاستدلال المعقد والبرمجة والوكلاءتمثل هذه المجالات الثلاثة حاليًا جزءًا كبيرًا من الطلب التجاري. وتُستخدم معايير مثل SWE-bench لقياس قدرة فهم وتعديل مستودعات التعليمات البرمجيةهناك حديث عن أرقام تتجاوز 80% من الدقة، بما يتماشى مع النماذج المغلقة الرائدة.

في مجال التفكير الأكثر عمومية - بما في ذلك الرياضيات، وتخصصات العلوم والتكنولوجيا والهندسة والرياضيات، ومشكلات سلسلة التفكير - تضع الشركة V4-Pro باعتبارها واحدة من أقوى النماذج المفتوحةويجادل بأنها تقترب من مستوى مقترحات إغلاق الحدود. أما من حيث الوعي العالمي، فتضعها البيانات الداخلية في طليعة النظام البيئي المفتوح، ولا تتخلف إلا عن عدد قليل جدًا من النماذج الاحتكارية المحددة للغاية، مثل بعض المتغيرات المتقدمة من جيميني.

وبعيدًا عن الأرقام، فإن التركيز على المهام الوكيلة يشير ذلك إلى استخدام يتجاوز بكثير مجرد الدردشة الأساسية. وتزعم شركة DeepSeek أن يدير الإصدار الرابع بالفعل بنيته التحتية الخاصة من وكلاء التعليمات البرمجية والأنظمة التي تربط خطوات متعددةيستخدمون الأدوات ويعملون على مستودعات أو قواعد بيانات وثائقية واسعة النطاق. ويتماشى هذا النهج مع توجهات الصناعة الحالية، حيث لم تعد العديد من الشركات تبحث فقط عن روبوت محادثة، بل عن مساعدين قادرين على العمل كـ"زملاء رقميين" ضمن سير العمل المعقد.

ينبغي التعامل مع هذه المقارنات بحذر: كما هو الحال مع جميع إصدارات الذكاء الاصطناعي الحديثة تقريبًا، تأتي معظم البيانات من الشركة نفسها ومن الاختبارات التي أجريت في بيئات خاضعة للرقابة.ومع ذلك، فإن الجمع بين السياق الطويل والهندسة المعمارية الفعالة والأداء التنافسي يجذب الانتباه بين المطورين الأوروبيين الذين يقارنون التكاليف والقدرات بخيارات مثل GPT أو Claude أو Llama أو Mistral.

النماذج المفتوحة، والأوزان المنشورة، والتوافق مع واجهات برمجة التطبيقات الشائعة

أحد العوامل الرئيسية التي أكسبت شركة DeepSeek شهرتها هو التزامها بالنظام البيئي المفتوح. ومع الإصدار الرابع، تعزز الشركة هذا النهج. وقد نشرت التقرير الفني وأصدرت أوزان العائلة المفتوحة على منصات مثل Hugging Faceمما يسمح للباحثين والشركات والإدارات العامة بتنزيل النماذج وتشغيلها على بنيتهم ​​التحتية الخاصة.

إن هذا النهج المفتوح للأوزان، على عكس المقترحات المغلقة تمامًا للعديد من المختبرات الأمريكية، له آثار واضحة على إسبانيا والاتحاد الأوروبي. إمكانية نشر هذه النماذج في مراكز البيانات داخل الاتحاد الأوروبيفي إطار أطر مثل اللائحة العامة لحماية البيانات (GDPR) ولائحة الذكاء الاصطناعي المستقبلية للاتحاد الأوروبيفهو يوفر طريقة للحفاظ على سيطرة أكبر على البيانات دون التضحية بالقدرات عالية المستوى.

من حيث التكامل العملي، اختارت شركة DeepSeek تقليل الاحتكاك: تحافظ واجهة برمجة التطبيقات (API) على نفس عنوان URL الأساسي، وهي متوافقة مع أنظمة إكمال المحادثات من OpenAI ومع الواجهات البشريةبالنسبة للعديد من فرق التطوير، هذا يعني أن ترحيل الاختبارات أو أجزاء من حركة المرور إلى الإصدار الرابع يقتصر بشكل أساسي على تغيير معرف النموذج إلى deepseek-v4-pro أو deepseek-v4-flash وتعديل بعض المعلمات.

وفي الوقت نفسه، حددت الشركة جدولاً زمنياً لإيقاف تشغيل النماذج القديمة، مثل deepseek-chat و deepseek-reasoner. سيتم إيقافها وإعادة توجيهها إلى V4-Flash إلى حين سحبها بالكامل، مما يُجبر مستخدميها على البدء بالاستعداد للانتقال. إنها طريقة واضحة لتركيز العرض على الجيل الجديد وتجنب تشتيت قاعدة المستخدمين إلى العديد من الإصدارات القديمة.

تكاليف الاستدلال المحدودة والتركيز على الكفاءة الاقتصادية

لطالما تمحورت رؤية DeepSeek حول الكفاءة منذ نشأتها. ومع الإصدار الرابع، تعزز هذا التوجه من خلال مزيج من بنية MoE، وآليات الانتباه الموزعة، وتحسينات الأجهزة التي تهدف إلى... خفض تكلفة المليون رمز إلى مستويات أقل بكثير من تكلفة أشهر واجهات برمجة التطبيقات المتميزةتشير بعض التحليلات الخارجية إلى أرقام تقارب 0,30 دولار لكل مليون رمز دخول لبعض التكوينات، وهو جزء صغير مما تتقاضاه النماذج المغلقة الراقية.

في السياق الأوروبي، حيث تعتبر تكاليف البنية التحتية والطاقة ذات أهمية، فإن هذا التركيز على الكفاءة يتناسب بشكل جيد مع احتياجات الشركات الناشئة والشركات الصغيرة والمتوسطة. معالجة المستندات القانونية المطولة، والسجلات الطبية الطويلة، أو مستودعات البرامج بأكملها لم يعد الأمر ترفاً مقتصراً على الشركات ذات الميزانيات غير المحدودة تقريباً، بل أصبح جزءاً من سيناريوهات ميسورة التكلفة للمشاريع الناشئة.

يقدم بعض مزودي البنية التحتية للذكاء الاصطناعي بالفعل إمكانية الوصول المبكر إلى العقد القائمة على DeepSeek V4 كجزء من كتالوجاتهم، مما يسهل الأمر على الشركات الأوروبية بإمكانهم تقييم الأداء والتكاليف الحقيقية دون الحاجة إلى بناء بنيتهم ​​التحتية الخاصة من الصفر.بالنسبة للعديد من المؤسسات، تُعد مرحلة الاختبار هذه الخطوة التمهيدية قبل اتخاذ قرار بشأن ما إذا كان سيتم الاستمرار في نموذج الاستعانة بمصادر خارجية أو اختيار عمليات النشر المحلية.

في غضون ذلك، أثار صمت الشركة الجزئي بشأن تكاليف التدريب الدقيقة والأجهزة المستخدمة تحديدًا شكوكًا في بعض القطاعات. فمنذ عام 2025، انتشرت الشكوك حول الحجم الحقيقي للموارد اللازمة لتدريب نماذجها، بما في ذلك تقديرات تشير إلى عشرات الآلاف من وحدات معالجة الرسومات المتطورة. تؤكد شركة DeepSeek أنها حققت مرحلة جديدة من "السياق المربح طويل الأجل".لكنها لم توضح بعد بشكل كامل الأمور المجهولة المتعلقة بالنطاق المادي لعملياتها.

التأثير على الشركات الناشئة والشركات في إسبانيا وأوروبا

بالنسبة للنظام البيئي لريادة الأعمال الأوروبي، وخاصة بالنسبة للشركات الناشئة في مجال التكنولوجيا في إسبانيا، فإن ظهور نماذج مثل DeepSeek V4 يفتح خيارات كان من الصعب التفكير فيها حتى وقت قريب. الوصول إلى نموذج يحتوي على أكثر من تريليون معلمة ضمن سياق مليون رمز مميز وأوزان مفتوحة يتيح لك ذلك استكشاف المنتجات المتقدمة دون الاعتماد بشكل حصري على موردي وادي السيليكون.

في القطاعات الخاضعة للتنظيم - المالية، والصحة، والقانونية، والإدارة العامة - إمكانية قم بتشغيل النموذج في مراكز البيانات داخل الاتحاد الأوروبي أو حتى في مرافقك الخاصة هذا الأمر ذو أهمية خاصة. يصبح الامتثال للائحة العامة لحماية البيانات (GDPR) ولوائح حماية البيانات الوطنية أكثر سهولة عندما لا يتعين على المعلومات مغادرة الولايات القضائية الأوروبية ليتم معالجتها بواسطة نموذج الذكاء الاصطناعي.

يمكن للشركات الناشئة الإسبانية التي تعمل مع كميات كبيرة من المستندات، مثل شركات التكنولوجيا القانونية أو التكنولوجيا الصحية أو أدوات المطورين، الاستفادة من سياق مليون رمز مميز لـ تحليل الملفات الكاملة، أو السجلات الطبية الطويلة جدًا، أو مستودعات التعليمات البرمجية الضخمة دون الحاجة إلى تقسيمها إلى أجزاء متعددة وتصميم أنظمة استعادة معقدة. هذا يقلل من التعقيد التقني، وفي كثير من الحالات، يقلل من زمن الاستجابة أيضًا.

في الوقت نفسه، من المهم مراعاة المخاطر: فنظام الأدوات المحيطة بـ DeepSeek أحدث عهداً من نظام الأدوات المحيطة بنماذج مفتوحة أخرى مثل Llama، و لا تزال الوثائق ودعم المجتمع في طور النضج.علاوة على ذلك، فإن كونها شركة صينية يضيف بُعداً جيوسياسياً تنظر إليه بعض المنظمات الأوروبية بحذر، لا سيما في المشاريع المرتبطة بالإدارات أو البنية التحتية الحيوية.

خطوة تضغط على النماذج المغلقة عالية التكلفة

وبغض النظر عن مواصفاته المحددة، يُفسر برنامج DeepSeek V4 في هذا القطاع على أنه خطوة أخرى في الضغط التنافسي على أغلى الطرازات المغلقة في السوقمن خلال جعل سياق الرمز المميز 1M معيارًا عبر خدماتها الرسمية وإرفاقه بأوزان مفتوحة، ترسل الشركة الصينية رسالة واضحة: لم يعد السياق الطويل للغاية بحاجة إلى أن يكون ميزة حصرية لعدد قليل من النماذج الخاصة باهظة الثمن.

يمثل هذا تحديًا للمختبرات الغربية الكبيرة. وقد استخدمت كل من OpenAI وAnthropic وGoogle تاريخيًا مزيجًا من جودة أعلى، وسياق أوسع، ونظام بيئي خاص كقيمة مضافة. إن ظهور بديل مفتوح يتمتع بسياق متفوق في بعض الحالات وبتكاليف منخفضة للغاية يجبر على إعادة التفكير في استراتيجيات المنتج والتسعير، لا سيما في القطاعات التي تكون فيها هوامش ربح الشركات المستخدمة ضيقة.

في العالم الناطق بالإسبانية، حيث تعمل العديد من الشركات الناشئة بميزانيات متواضعة للغاية مقارنة بنظيراتها في الولايات المتحدة، فإن الضغط التنافسي يعمل لصالحها. كلما توفرت نماذج أكثر قوة وانفتاحًا، زادت قدرة الفرق التقنية على الاختيار بناءً على السعر والامتثال التنظيمي وحالة الاستخدام.وليس فقط من العلامة التجارية التي تقف وراء واجهة برمجة التطبيقات (API).

في الوقت نفسه، تدرك شركة DeepSeek أن رهانها ليس خالياً من التحديات: فمعظم المعايير والمقارنات تأتي من وثائقها الخاصة أو من الاختبارات في مراحل المعاينة، ولا يزال السوق ينتظر ليرى كيف ستؤدي نماذج V4 عند نشرها على نطاق واسع في بيئات الإنتاج الصعبة، بما في ذلك البيئات الأوروبية.

بشكل عام، يُعزز وصول DeepSeek V4 اتجاهاً كان يتطور منذ فترة: لم تعد نماذج الذكاء الاصطناعي المتطورة حكراً على عدد قليل من الشركات ذات الأنظمة المغلقة والميزانيات الفلكية.بفضل مزيج من أكثر من 1 تيرابايت من المعلمات، وسياق من مليون رمز مميز، وأوزان مفتوحة، وخطاب يركز على الكفاءة، تقدم الشركة الصينية بديلاً يصعب على الشركات والمطورين في إسبانيا وأوروبا تجاهله في خططهم القادمة لاعتماد وتجديد البنية التحتية للذكاء الاصطناعي.

مؤتمر الذكاء الاصطناعي
المادة ذات الصلة:
مؤتمرات الذكاء الاصطناعي تقرّب الذكاء الاصطناعي من الشركات الصغيرة والمتوسطة وقطاع السياحة والقطاع الجامعي