تواجه نماذج اللغات الكبيرة ذات السياق الطويل (LLMs) اختناقًا في الذاكرة لا علاقة له بأوزان النماذج. أثناء فك التشفير، تقوم المحولات بتخزين ناقلات المفتاح والقيمة (KV) لكل رمز مميز في كل طبقة حتى لا تضطر إلى إعادة حساب الانتباه. تنمو ذاكرة التخزين المؤقت هذه خطيًا مع طول التسلسل وحجم الدفعة، وفي سياق طويل مع التزامن العالي، يمكن أن تؤدي إلى تقزم أثر النموذج.
خذ بعين الاعتبار Llama-3.1-70B في BF16. تبلغ تكلفة ذاكرة التخزين المؤقت KV حوالي 0.31 ميجابايت لكل رمز مميز (80 طبقة × 8 رؤوس KV × 128 رأس خافت × 2 موتر × 2 بايت). عند 128 ألف رمزًا أي ما يعادل 40 جيجابايت تقريبًا؛ عند 1 مليون رمز، يتجاوز 300 جيجابايت – أكثر من 140 جيجابايت من الأوزان نفسها. والأسوأ من ذلك، أن كل رمز مميز تم فك تشفيره حديثًا يجب أن يقوم بتدفق ذاكرة التخزين المؤقت بأكملها من الذاكرة ذات النطاق الترددي العالي (HBM)، مما يجعل فك التشفير مرتبطًا بعرض النطاق الترددي للذاكرة بدلاً من أن يكون مرتبطًا بالحساب. وبالتالي فإن تقليص ذاكرة التخزين المؤقت KV هو الرافعة الأكثر مباشرة لخفض التكلفة وزمن الوصول لفك التشفير.
تنقسم الأساليب الحالية إلى خمس عائلات تقريبًا: إخلاء رمزي (H2O، سناب كيه في)، التكميم (كيفي، جير)، إسقاط رتبة منخفضة (بالو)، دمج (كفميرجر)، و المشاركة المعمارية (قانون مكافحة غسل الأموال). لقد دفعت الأعمال الأخيرة في عام 2026 بقوة نحو حدود التكميم ذات البتات المنخفضة للغاية. يهاجم كل من Google وTurboQuant (ICLR 2026) من جامعة نيويورك وOSCAR من شركة Together AI نفس المشكلة من اتجاهين متعاكسين، بينما يعالج EpiCache من Apple مشكلة لا يعالجها أي منهما.
معظم أجهزة قياس الكميات KV تحارب نفس العدو الأساسي: القنوات المتطرفة – حفنة من القنوات ذات الأحجام الكبيرة بشكل غير متناسب والتي تهيمن على نطاق التكميم وتضغط على بقية الإشارة في عدد قليل من المستويات القابلة للتمثيل. وهذا هو السبب في انهيار تكميم INT2 الساذج (أربعة مستويات فقط) إلى دقة تقترب من الصفر.
أنشأت KIVI خط الأساس القياسي هنا. لقد أظهر أن المتجهات الرئيسية لديها قنوات خارجية ثابتة عبر الرموز المميزة في حين أن ناقلات القيمة لا تفعل ذلك، لذا فهي تقوم بتكميم المفاتيح لكل قناة والقيم لكل رمز. تعمل هذه الوصفة الخالية من الضبط ذات 2 بت على خفض ذاكرة الذروة الشاملة (بما في ذلك الأوزان) بحوالي 2.6×، وهي النقطة المرجعية التي تعتمد عليها الأساليب الأحدث.
TurboQuant: غافل عن البيانات والأمثل من الناحية النظرية
يتعامل TurboQuant مع القيم المتطرفة دون النظر إلى بياناتك مطلقًا، وذلك على مرحلتين:
- المرحلة الأولى: يتم تدوير كل متجه بشكل عشوائي بحيث تصبح إحداثياته مستقلة تقريبًا وغاوسية تقريبًا، مما يتيح تطبيق مُكمِّم عددي محسوب مسبقًا (Lloyd – Max) لكل إحداثي.
- المرحلة الثانية: يتم تطبيق تحويل جونسون-ليندنشتراوس (QJL) الكمي بمقدار 1 بت على الجزء المتبقي، مما يوفر تقديرًا غير متحيز لسجلات الاهتمام مع عدم وجود حمل ثابت للتطبيع.
نقطة البيع نظرية: من المؤكد أن تشويه TurboQuant يقع ضمن عامل ثابت صغير (≈ 2.7 ×) من الحد الأدنى النظري للمعلومات. من الناحية العملية، تصل إلى استدعاء كامل الدقة بشكل أساسي على Needle-in-a-Haystack عند ضغط 4×، وتشير الورقة إلى حيادية الجودة المطلقة عند 3.5 بت وتدهور هامشي فقط عند 2.5 بت لكل قناة. نظرًا لأنه لا يحتاج إلى معايرة، فهو يعمل على أي نموذج لم يمسه أحد ويعمل كمقياس سريع لقاعدة بيانات المتجهات.
أحد التحذيرات الجديرة بالملاحظة: الرقم المتكرر على نطاق واسع “8× انتباه أسرع على H100” يأتي من مدونة جوجل، وليس الصحيفة، ويشير إلى مقياس دقيق لسجل الاهتمام الضيق. إن النقطة الرائعة الموثقة لـ TurboQuant هي نظام 3-4 بت شبه بدون فقدان.
OSCAR: مدرك للانتباه وجاهز للنشر
يراهن OSCAR في الاتجاه المعاكس. فرضيتها هي أنه في المستويات الأربعة لـ INT2، يعد التدوير المتجاهل للبيانات أداة خاطئة – لا يكون التجانس الأعمى للنطاقات كافيًا عندما لا يكون هناك أي دقة تقريبًا. لذلك يحسب OSCAR مدرك للانتباه التدوير من تمريرة معايرة غير متصلة بالإنترنت لمرة واحدة: يتم تدوير المفاتيح إلى الأساس الذاتي للتباين المشترك للاستعلام، والقيم إلى تباين القيمة الموزونة بالنتيجة. يقوم تحويل Hadamard بالإضافة إلى التقليب العكسي بتوزيع أهمية القناة بالتساوي عبر مجموعات التكميم.
ما يميز OSCAR هو أنه يأتي كنظام كامل، وليس مجرد خوارزمية:
- ذاكرة تخزين مؤقت مقسمة إلى صفحات ذات دقة مختلطة: تبقى الرموز المميزة والرموز الحديثة في BF16 بينما يتم ضغط السجل إلى INT2 – في سياق 128 كيلو بايت فقط ~ 0.24% من الرموز المميزة تبقى في BF16.
- حبات تريتون المنصهرة مع تكامل SGLang الكامل (متوافق مع الاهتمام بالصفحات وذاكرة التخزين المؤقت للبادئة).
- عمليات التدوير المحسوبة مسبقًا (“RotationZoo”) لـ Qwen3-4B/8B/32B، وGLM-4.7-FP8، وMiniMax-M2.7 – لا حاجة إلى إعادة المعايرة.
عند 2.28 بت فعالة، يقع OSCAR ضمن 1.42 نقطة من BF16 على Qwen3-8B وهو في الأساس على قدم المساواة مع Qwen3-32B (فجوة قدرها 0.02 نقطة). في GLM-4.7-FP8 – حيث ينهار INT2 الساذج إلى الصفر وتصل خطوط الأساس غافلة عن البيانات إلى أرقام فردية منخفضة فقط – يتطابق OSCAR مع BF16 بل ويتقدم قليلاً على المعايير المُبلغ عنها (ضمن الضوضاء). يُبلغ الذكاء الاصطناعي معًا عن ما يصل إلى 7.83 × إنتاجية على مستوى المهمة وتقليل ذاكرة التخزين المؤقت بمقدار 8 × كيلو فولت تقريبًا في سياق 100 كيلو، مع فك تشفير أسرع بما يصل إلى 3 × تقريبًا.
إذن أيهما يفوز؟
لا – وهذه هي الإجابة الصادقة. ل INT2 القابل للنشر عند 128 ألف رمز مميز على النماذج المدعومةيعد OSCAR حاليًا الخيار الوحيد الموضح الذي لا ينهار، ويأتي مزودًا بدعم SGLang الجاهز للإنتاج. ل خالية من التدريب، وتكميم نموذجي في نظام 3-4 بت، يقدم TurboQuant عمومية أوسع بكثير.
تشير ورقة OSCAR إلى أن TurboQuant ينخفض بأكثر من 40 نقطة بميزانية قابلة للمقارنة، لكن هذا التقييم يتم داخل إطار عمل OSCAR الخاص، ويحدد كمية جميع الطبقات، ويستخدم بذرة عشوائية واحدة، ويعمل أقل بكثير من عرض البت المقصود لـ TurboQuant، لذا فهو أساس ضعيف للحكم المباشر. الاحتمال الأكثر إثارة للاهتمام هو أن الاثنين كذلك مكمل: إن إقران التدوير المدرك للمعايرة مع مُكمِّم العددي الأمثل هو مزيج واعد لم يتم شحنه بعد. (أشار كلا الفريقين علنًا إلى نفس الفكرة).
المحور الثالث: EpiCache
تم تصميم كل من TurboQuant وOSCAR لسياق طويل واحد. لا يعالج محادثات موسعة متعددة المنعطفات، حيث يتراكم التاريخ عبر العديد من التبادلات. EpiCache من Apple عبارة عن إطار عمل لإدارة ذاكرة التخزين المؤقت KV بدون تدريب يهدف بالضبط إلى سد هذه الفجوة:
- التعبئة المسبقة للكتلة يعالج التاريخ في كتل للحفاظ على ذروة الذاكرة محدودة.
- التجمعات العرضية يقوم بتقسيم المحادثة إلى “حلقات” دلالية متماسكة، ولكل منها ذاكرة تخزين مؤقت مضغوطة خاصة بها.
- استرجاع الحلقة المتطابقة يوجه كل استعلام إلى الحلقة الأكثر صلة في وقت الاستدلال.
- تخصيص الميزانية التكيفية على مستوى الطبقة يقيس حساسية كل طبقة للإخلاء ويوزع ميزانية الذاكرة وفقًا لذلك.
عبر LongMemEval وRealTalk وLoCoMo، تبلغ EpiCache عن دقة أعلى بنسبة تصل إلى 40% من الخطوط الأساسية للإخلاء، ودقة ذاكرة تخزين مؤقت شبه كاملة عند ضغط 4–6×، وذاكرة ذروة أقل بما يصل إلى 3.5× (وزمن استجابة أقل بمقدار 2.4× تقريبًا). لأنه يقرر أيّ الرموز للحفاظ عليها بدلا من كيف بالضبط لتخزينها، يتم تركيبها مباشرة مع OSCAR أو TurboQuant لمضاعفة المدخرات.
الوجبات السريعة الرئيسية
- TurboQuant يدفع الحدود النظرية المحايدة للنموذج – الانتقال إلى الضغط شبه المفقود من 3 إلى 4 بت على أي نموذج.
- أوسكار يؤدي إلى INT2 القابل للنشر، مع ما يصل إلى 7.83× من الإنتاجية و~8× من تقليل الذاكرة عند سياق 100K على النماذج المدعومة.
- EpiCache يحل ذاكرة المحادثة عبر المنعطفات – ما يصل إلى 40% من دقة الإخلاء وذاكرة ذروة أقل بمقدار 3.5× – ويؤلف باستخدام أي من المُكمِّم.
- الاختيار حسب القيد: ميزانية عرض البت، أو إمكانية نقل النموذج، أو طول المحادثة، ثم قم بدمج الأساليب المتعامدة التي تناسبك. وهذه الأساليب تكاملية أكثر منها تنافسية.
مصادر
أرناف حاليًا طالب في معهد روتشستر للتكنولوجيا يسعى للحصول على درجة البكالوريوس في علوم الكمبيوتر وتخصص فرعي في الاقتصاد مع خبرة عملية في تطوير الواجهة الخلفية، وهو مساهم في Marktechpost، حيث يكتب عن أبحاث الذكاء الاصطناعي/تعلم الآلة.
اكتشاف المزيد من كحيل | أخبار التقنية
اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.
