صدر برنامج DeepSeek دي سبارك، إطار فك التشفير التأملي، مع نقاط تفتيش مفتوحة المصدر وكود التدريب. إنه تحسين للخدمة، وليس نموذجًا جديدًا. نقاط التفتيش DeepSeek-V4-Pro-DSpark و DeepSeek-V4-Flash-DSpark أعد استخدام أوزان V4 الموجودة، مع إرفاق مسودة الوحدة.

قام فريق بحث DeepSeek أيضًا بفتح مصدر DeepSpec، وهي قاعدة تعليمات برمجية مرخصة من معهد ماساتشوستس للتكنولوجيا (MIT) لتدريب وتقييم واضعي فك التشفير التأملي. يستهدف العمل مشكلة واحدة: الاستدلال الأسرع للنماذج الكبيرة في خدمة الإنتاج المزدحمة.

ليرة تركية؛ د

  • يقرن DSpark عمودًا فقريًا متوازيًا برأس متسلسل صغير لقطع تسوس اللاحقة.
  • يتحقق رأس الثقة والمجدول المدرك للتحميل من المزيد من الرموز المميزة عندما تكون وحدات معالجة الرسومات في وضع الخمول، وعدد أقل عندما تكون مشغولة.
  • في وضع عدم الاتصال، يرتفع الطول المقبول بنسبة 26-31% فوق Eagle3 و16-18% فوق DFlash.
  • في الإنتاج على DeepSeek-V4، يتم تشغيل الجيل لكل مستخدم بنسبة 60-85% أسرع من خط الأساس MTP-1.
  • يظل الإخراج بدون فقدان، وتكون نقاط التفتيش بالإضافة إلى كود تدريب DeepSpec مفتوحة المصدر.

ما هو دي سبارك؟

يقسم فك التشفير التأملي عملية الإنتاج إلى دورين. يقترح نموذج مسودة صغير كتلة من الرموز المميزة. يقوم نموذج الهدف الكامل بعد ذلك بالتحقق من تلك الكتلة في تمريرة أمامية واحدة.

يقبل أخذ عينات الرفض أطول بادئة صالحة ويلحق رمزًا إضافيًا واحدًا. ونظرًا لأن القاعدة تحافظ على التوزيع المستهدف تمامًا، فلا يوجد فقدان للجودة. تحتفظ DSpark بهذا الضمان. إنه يغير كيفية صياغة الرموز المميزة وعدد الرموز التي يتم التحقق منها.

الرياضيات الكمون هو الأمثل

يتبع زمن الاستجابة لكل رمز معادلة واحدة من الورقة: L = (Tdraft + Tverify) / τ. هنا τ هو عدد الرموز المقبولة في كل دورة. يأتي التسريع من ثلاث روافع فقط.

يمكنك الصياغة بشكل أسرع وخفضها Tdraft. يمكنك صياغة أفضل، ورفع τ. أو يمكنك التحقق بشكل أكثر ذكاءً، مما يقلل من الهدر Tverify. يقوم DSpark بسحب الروافع الثلاثة مرة واحدة.

كيف يعمل: جيل شبه الانحدار الذاتي

واضعو الصياغة الأوائل يفرضون مقايضة. يقوم مصممو الانحدار التلقائي مثل Eagle3 بربط كل رمز مميز بالرموز السابقة. وهذا يعطي قبولًا قويًا، لكن تكلفة الصياغة تنمو مع حجم الكتلة.

يقوم المصممون المتوازيون مثل DFlash بإنتاج الكتلة بأكملها في مسار واحد. تظل الصياغة رخيصة الثمن، لكن كل موقع يتجاهل جيرانه. والنتيجة هي “تصادم متعدد الوسائط” واضمحلال القبول السريع على طول اللاحقة.

يقسم DSpark الصياغة إلى مرحلتين. يقوم العمود الفقري المتوازي الثقيل، DFlash في إعداده، بإنتاج سجلات أساسية لكل موضع. ثم يضيف الرأس المتسلسل خفيف الوزن انحيازًا يعتمد على البادئة قبل أخذ عينات من كل رمز مميز.

الرأس التسلسلي الافتراضي هو رأس ماركوف. إنه ينظر فقط إلى الرمز المميز السابق مباشرة. إن التحليل المنخفض (المرتبة 256) يبقيه رخيصًا، حتى مع المفردات الكبيرة.

بمجرد وضع عينة واحدة “من”، يعزز الرأس “المسار” ويمنع “المشكلة”. يتتبع رأس RNN الاختياري بادئة الكتلة الكاملة. إنه يضيف مكاسب هامشية فقط، وبالتالي فإن رأس ماركوف هو الخيار الافتراضي.

تظهر المكافأة موضعًا تلو الآخر. يرث DSpark دقة الرمز الأول العالية للعمود الفقري الموازي. ثم يحافظ الرأس المتسلسل على القبول بثبات في عمق الكتلة.

يؤدي التدريب إلى تجميد النموذج المستهدف وإعادة استخدام رأس التضمين والإخراج. خسارة التباين الكلي هي المصطلح الرئيسي. يؤدي تقليل هذه المسافة إلى زيادة معدل قبول المسودة بشكل مباشر.

كيف يعمل: التحقق المجدول بالثقة

المزيد من الرموز المميزة لا تعني دائمًا المزيد من السرعة. يؤدي التحقق من الرموز المميزة التي سيتم رفضها إلى إهدار سعة الدفعة تحت الحمل الثقيل. يضيف DSpark جزأين لإصلاح ذلك.

يقوم رأس الثقة بإخراج النتيجة لكل موضع مسودة. تقدر النتيجة فرصة نجاة الرمز المميز من عملية التحقق، في ضوء الأسلاف المقبولة. ويشرف عليه معدل القبول التحليلي لكل خطوة.

عادة ما تكون الثقة العصبية الخام مفرطة الثقة. لذلك يطبق فريق البحث مقياس درجة الحرارة المتسلسل، وهي خطوة معايرة لاحقة. فهو يقلل خطأ المعايرة المتوقع من 3-8% إلى حوالي 1%.

يقوم برنامج جدولة البادئة المدرك للأجهزة بتعيين طول التحقق لكل طلب. ويستخدم منحنى الإنتاجية لمحة، SPS(B)، يتم قياسها مرة واحدة عند بدء التشغيل. عندما تكون وحدات معالجة الرسومات في وضع الخمول، فإنها تتحقق من المزيد من الرموز المميزة. عندما تكون وحدات معالجة الرسومات مشغولة، فإنها تتحقق بشكل أقل.

يستخدم المجدول قاعدة الإيقاف المبكر ليظل بلا فقدان. يقدم قسم الملحق مثالًا مضادًا يوضح سبب قيام بحث عالمي ساذج بتسريب المعلومات.

المقاييس

تغطي الاختبارات غير المتصلة بالإنترنت الرياضيات والتعليمات البرمجية والدردشة اليومية. تشمل الأهداف Qwen3-4B و8B و14B وGemma4-12B. يتفوق DSpark على خطي الأساس بالطول المقبول في كل مجال.

مقابل Eagle3، ارتفع متوسط ​​الطول المقبول بنسبة 30.9% و26.7% و30.0% على أحجام Qwen3 الثلاثة. مقابل DFlash، بلغت المكاسب 16.3% و18.4% و18.3%. حتى أن DSpark المكون من طبقتين يتفوق على DFlash المكون من 5 طبقات.

يضيف الرأس المتسلسل تكلفة قليلة. يؤدي تغيير طول المسودة من 4 إلى 16 إلى إضافة 0.2-1.3% فقط من زمن الوصول لكل جولة. وفي المقابل، يتحسن الطول المقبول بنسبة تصل إلى 30%.

تأتي نتائج الإنتاج من DeepSeek-V4-Flash وV4-Pro في ظل حركة المرور المباشرة. خط الأساس هو MTP-1، الإعداد السابق للرمز الفردي. عند الإنتاجية المتطابقة، ترتفع السرعة لكل مستخدم بنسبة 60-85% على Flash و57-78% على Pro. التكوين الذي تم شحنه هو DSpark-5، وهو عبارة عن كتلة مسودة مكونة من خمسة رموز برأس ماركوف.

رسام أسلوب الصياغة تكلفة الكتلة قبول اللاحقة طول التحقق
النسر3 الانحدار الذاتي ينمو مع حجم الكتلة عالية ومستقرة مُثَبَّت
دففلاش موازي شبه ثابت يتحلل بسرعة ثابت (كتلة كاملة)
الخطة المتوسطة الأجل-1 رمز واحد (MTP) قليل —” ثابت 2 الرموز
دي سبارك الموازي + الرأس المتسلسل شبه ثابت عالية ومستقرة ديناميكية، واعية بالتحميل

استخدام الحالات مع الأمثلة

تستفيد أعباء العمل المنظمة إلى أقصى حد من التحقق الأطول. في توليد التعليمات البرمجية، يكون القبول مرتفعًا بشكل طبيعي. يمكن للمجدول التحقق من البادئات الطويلة مع القليل من الهدر، لذلك يقوم وكلاء الترميز بتدفق المخرجات بشكل أسرع.

تتصرف الدردشة المفتوحة بشكل مختلف. أدى اكتساح عتبة الثقة إلى رفع نسبة قبول الدردشة من 45.7% إلى 95.7%. يشير رأس الثقة إلى رموز لاحقة غير مؤكدة حتى يمكن تقليمها.

المنطق الرياضي يقع بين الاثنين. وارتفع قبولها من 76.9% إلى 92.5% في نفس الحملة. تستفيد الآثار الطويلة خطوة بخطوة من القبول الثابت للكتلة العميقة.

العرض عالي التزامن هو الحالة الرئيسية. عند التحميل المعتدل، يقوم المجدول بتشغيل ما يقرب من 4 إلى 6 رموز مميزة تم التحقق منها لكل طلب. ومع زيادة التزامن، فإنه يقوم بتقليص تلك الميزانية لحماية الإنتاجية.

جربه

يتم تشغيل DeepSpec على ثلاث مراحل: إعداد البيانات، والتدريب، ثم التقييم. يحدد التكوين الخوارزمية والنموذج المستهدف. يقوم التقييم بمعايير نقطة تفتيش مسودة مدربة عبر تسع مجموعات بيانات.

# Install dependencies
python -m pip install -r requirements.txt

# Train a DSpark draft against a Qwen3-4B target.
# The algorithm and target are chosen by the config, e.g.
# config/dspark/dspark_qwen3_4b.py
bash scripts/train/train.sh

# Evaluate the trained draft across the 9 benchmark datasets.
# Set in the eval config:
#   target_name_or_path = Qwen/Qwen3-4B
#   draft_name_or_path  = ~/checkpoints/deepspec/dspark_block8_qwen3_4b/step_latest
bash scripts/eval/eval.sh

تفترض التكوينات الافتراضية عقدة واحدة تحتوي على 8 وحدات معالجة رسوميات. يقلل CUDA_VISIBLE_DEVICES لعدد أقل. لاحظ أن ذاكرة التخزين المؤقت الهدف يمكن أن تكون كبيرة، بالقرب من 38 تيرابايت لإعداد Qwen3-4B.

بالنسبة لنقاط فحص الإنتاج، يتم ربط وحدة المسودة بأوزان V4 الموجودة. تشتمل بطاقات Hugging Face على مثال بسيط للاستدلال في inference المجلد. لا يلزم إعادة تدريب النموذج المستهدف.

يوضح العرض التفاعلي أدناه الآلية. اختر أداة الصياغة والمجال ومستوى تحميل وحدة معالجة الرسومات. شاهد كتلة المسودة ودرجات الثقة وميزانية التحقق الخاصة بالمجدول وهي تتغير في الوقت الفعلي. الأرقام توضيحية، وعلى غرار السلوك الذي ذكرته الصحيفة.


تحقق من الورق، جيثب و وزن النموذج على التردد العالي. أيضًا، لا تتردد في متابعتنا على تغريد ولا تنسى الانضمام إلينا 150 ألف + مل§ والاشتراك في النشرة الإخبارية لدينا. انتظر! هل أنت على برقية؟ الآن يمكنك الانضمام إلينا على التليجرام أيضًا.

هل تحتاج إلى الشراكة معنا للترويج لصفحة GitHub Repo أو صفحة الوجه المعانقة أو إصدار المنتج أو الندوة عبر الويب وما إلى ذلك؟ تواصل معنا



اكتشاف المزيد من كحيل | أخبار التقنية

اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.

شاركها.
اترك تعليقاً

اكتشاف المزيد من كحيل | أخبار التقنية

اشترك الآن للاستمرار في القراءة والحصول على حق الوصول إلى الأرشيف الكامل.

Continue reading