فك التشفير التأملي هو أسلوب لتسريع استنتاج نماذج اللغة الكبيرة. يقترح نموذج مسودة صغير وسريع عدة رموز. ويتحقق نموذج الهدف الكبير منها بالتوازي. إذا تم قبوله، فإن الاستدلال يكون أسرع. إذا تم رفضه، فإن النظام يتراجع بأمان.
أطلق فريق EAGLE وفريق vLLM وفريق TorchSpec سلسلة EAGLE بما في ذلك EAGLE 1 وEAGLE 2 وEAGLE 3 التي أصبحت واحدة من أكثر العائلات اعتماداً ونشرًا عمليًا لخوارزميات فك التشفير التأملية عبر أنظمة البحث والإنتاج. واليوم، تحصل هذه العائلة على ترقية موثوقية مستهدفة مع تقديم EAGLE 3.1.
ما الخطأ الذي حدث
على الرغم من أن فك التشفير التخميني يؤدي أداءً جيدًا في الإعدادات الخاضعة للتحكم، إلا أن الأداء غالبًا ما يتدهور في ظل قوالب الدردشة المختلفة، أو المدخلات ذات السياق الطويل، أو مطالبات النظام خارج التوزيع.
وقد أرجع فريق EAGLE هذه الهشاشة إلى ظاهرة تسمى انحراف الانتباه مع زيادة عمق التفكير، يقوم القائم على الصياغة بتحويل الانتباه تدريجيًا بعيدًا عن الرموز المميزة ونحو الرموز المميزة التي تم إنشاؤها.
بعبارات أبسط: الصياغة هي نموذج صغير يتنبأ بالرموز المستقبلية. ومع تعمق التخمين، يبدأ في الاهتمام بمخرجاته السابقة بدلاً من السياق الأصلي. وهذا يقلل من طول القبول واستقرار الإخراج.
تم تحديد قضيتين أساسيتين. أولاً، يصبح تمثيل المدخلات المندمجة غير متوازن بشكل متزايد حيث تهيمن الحالات المخفية ذات الطبقة العليا على مدخلات أداة الصياغة. ثانيًا، ينمو حجم الحالة المخفية عبر خطوات المضاربة بسبب المسار المتبقي غير الطبيعي. معًا، تجعل هذه التأثيرات صانع الصياغة أقل استقرارًا بشكل تدريجي في أعماق المضاربة الأعمق.
اثنين من الإصلاحات المعمارية في EAGLE 3.1
ولمعالجة انحراف الانتباه، يأتي EAGLE 3.1 مزودًا بتحسينين معماريين رئيسيين: تطبيع FC بعد كل حالة مخفية مستهدفة وقبل طبقة FC، وتغذية الحالات المخفية بعد المعيار في خطوة فك التشفير التالية.
يعمل تطبيع FC على استقرار الحالات المخفية التي يتلقاها المصمم من النموذج المستهدف. وبدون ذلك، ينمو حجم الحالة الخفية عبر الخطوات، مما يجعل من قام بالصياغة غير موثوق به على نحو متزايد. يؤدي تطبيق التطبيع في كل خطوة إلى إبقاء المدخلات محدودة.
يجعل تصميم ما بعد المعيار الطريقة تتصرف بشكل أشبه باستدعاء أداة الصياغة بشكل متكرر عبر خطوات فك التشفير، بدلاً من مجرد إلحاق طبقات إضافية بالنموذج المستهدف.

ما تقدمه هذه الإصلاحات
بالمقارنة مع EAGLE 3، يوضح EAGLE 3.1 ما يلي: وقت تدريب أفضل لاستقراء وقت الاستدلال، وقوة أقوى للسياق الطويل، ومرونة أعلى لقالب الدردشة والتنوع الفوري للنظام، وطول قبول أكثر استقرارًا عبر بيئات الخدمة المتنوعة.
في أحمال العمل ذات السياق الطويل، يحقق EAGLE 3.1 طول قبول أطول بما يصل إلى 2× مقارنةً بـ EAGLE 3.
البنية التحتية للتدريب: TorchSpec
يوفر TorchSpec الآن دعمًا تدريبيًا فعالاً لـ EAGLE 3.1 وخوارزميات فك التشفير المستقبلية. من خلال خفض تكاليف التدريب وتبسيط سير عمل التجربة، يساعد TorchSpec على تسريع التكرار والاستكشاف للجيل التالي من أبحاث فك التشفير التخميني ونشره.
استنادًا إلى TorchSpec وvLLM، قام فريق البحث أيضًا بتدريب نموذج مسودة EAGLE 3.1 لـ Kimi K2.6 وفتح مصدر مفتوح له، وهو متاح على HuggingFace. يعد النموذج بمثابة مثال لنشر EAGLE 3.1 مع تدريب TorchSpec ودعم تقديم vLLM على نموذج خدمة في العالم الحقيقي
تكامل vLLM: يعتمد على التكوين ومتوافق مع الإصدارات السابقة
وصل EAGLE 3.1 إلى vLLM كامتداد يعتمد على التكوين لتطبيق EAGLE 3 الحالي. يتضمن التكامل دعم تطبيع FC، وملاحظات الحالة المخفية بعد المعيار، وإزالة الافتراضات المشفرة حول الحالات المخفية المستهدفة.
يتم الاحتفاظ بالتوافق مع الإصدارات السابقة مع نقاط فحص EAGLE 3 الحالية بشكل كامل. يمكن توصيل نماذج مسودة EAGLE 3.1 مباشرة من خلال نفس مسار كود فك التشفير التخميني.
vllm serve nvidia/Kimi-K2.6-NVFP4 \
--trust-remote-code \
--tensor-parallel-size 4 \
--tool-call-parser kimi_k2 \
--enable-auto-tool-choice \
--reasoning-parser kimi_k2 \
--attention-backend tokenspeed_mla \
--speculative-config '{"model":"lightseekorg/kimi-k2.6-eagle3.1-mla","method":"eagle3","num_speculative_tokens":3}' \
--language-model-only
النتائج المعيارية على كيمي K2.6
قام فريق البحث بقياس مسودة نموذج Kimi K2.6 EAGLE 3.1 على Kimi-K2.6-NVFP4 باستخدام vLLM (TP=4، GB200، غير disagg) على مجموعة بيانات ترميز SPEED-Bench. يوفر EAGLE 3.1 إنتاجية أعلى بمعدل 2.03× لكل مستخدم عند التزامن 1. ويظل التسريع ذا معنى كمقاييس التزامن: 1.71× عند C=4 و1.66× عند C=16.
الشرح المرئي لـ Marktechpost
الوجبات السريعة الرئيسية
- إصلاحات إيجل 3.1 انحراف الانتباه – حالة عدم استقرار تم تحديدها حديثًا حيث يفقد القائم على الصياغة التركيز على الرموز المميزة في أعماق المضاربة الأعمق.
- اثنين من التغييرات المعمارية – تطبيع FC و ردود فعل الحالة المخفية بعد المعيار – تثبيت المحرر عبر خطوات المضاربة.
- في أحمال العمل ذات السياق الطويل، يقدم EAGLE 3.1 أداءً جيدًا ما يصل إلى 2 × طول قبول أطول مقارنة مع إيجل 3.
- المعايير في عرض Kimi-K2.6-NVFP4 2.03 × إنتاجية الإخراج لكل مستخدم عند التزامن 1، وانخفض إلى 1.66× عند C=16.
- النسر 3.1 هو متوافق مع نقاط التفتيش EAGLE 3 وتم دمجه بالفعل في vLLM الرئيسي، ويتم الشحن في الإصدار 0.22.0.
تحقق من التفاصيل الفنية. أيضا، لا تتردد في متابعتنا على تغريد ولا تنسى الانضمام إلينا 150 ألف+ مل من SubReddit والاشتراك في النشرة الإخبارية لدينا. انتظر! هل أنت على برقية؟ الآن يمكنك الانضمام إلينا على التليجرام أيضًا.
هل تحتاج إلى الشراكة معنا للترويج لصفحة GitHub Repo أو صفحة الوجه المعانقة أو إصدار المنتج أو الندوة عبر الويب وما إلى ذلك؟ تواصل معنا

ميشال سوتر متخصص في علوم البيانات وحاصل على درجة الماجستير في علوم البيانات من جامعة بادوفا. بفضل أساس متين في التحليل الإحصائي والتعلم الآلي وهندسة البيانات، تتفوق ميشال في تحويل مجموعات البيانات المعقدة إلى رؤى قابلة للتنفيذ.
اكتشاف المزيد من كحيل للتقنية | أخبار التقنية والذكاء الاصطناعي وشروحات الويب
اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.
