بالكاد تغيرت آلية انتباه المحول منذ عام 2017. وقد حاولت معظم أعمال الكفاءة استبدال انتباه softmax بشكل مباشر. ورقة جديدة تأخذ طريقا مختلفا. إنه يحافظ على انتباه softmax ويثبت البراغي على فرع التصحيح.
يقدم فريق من الباحثين من جامعة نورث وسترن وTilde Research وجامعة واشنطن اهتمامًا خطيًا محليًا ذو معلمات يسمى “Parallax” والذي يتناسب مع التدريب المسبق في ماجستير إدارة الأعمال والتصميمات المشتركة مع Muon.
لا يسعى Parallax إلى تحقيق الكفاءة عن طريق قطع الحساب. فهي تضيف الحوسبة بشكل متعمد، ثم تجعل تلك الحوسبة أرخص في تشغيلها على وحدات معالجة الرسومات الحديثة.
ما هو المنظر
يعتمد اختلاف المنظر على الانتباه الخطي المحلي (LLA). LLA يأتي من إطار الانحدار وقت الاختبار. يقرأ هذا الإطار الانتباه باعتباره حلاً للانحدار على أزواج القيمة الرئيسية.
في هذا العرض، المفاتيح هي نقاط بيانات التدريب. القيم هي تسميات. الاستعلام هو نقطة الاختبار. اهتمام Softmax هو مقدر غير معلمي يسمى Nadaraya-Watson. يناسب وظيفة ثابتة محلية لكل استعلام.
يقوم LLA بترقية هذا التقدير الثابت المحلي إلى تقدير خطي محلي. ويثبت فريق البحث أن هذا يؤدي إلى خطأ متوسط مربع متكامل أصغر حجمًا. الفائدة هي مقايضات أفضل للتباين والتحيز للذاكرة الترابطية.
لكن LLA لديها مشكلة على نطاق واسع. يتطلب توجيهه الدقيق حل نظام خطي لكل استعلام. يستخدم ذلك حل التدرج المتوازي المتوازي (CG). يقوم حل CG بإنشاء ثلاث مشكلات: الإدخال/الإخراج المكثف، والمفاضلة الصعبة بين التنظيم والتعبير، وعدم التوافق منخفض الدقة.
المنظر يزيل الحلال. وبدلاً من ذلك، فإنه يتعلم مصفوفة إسقاط إضافية. يكتب فريق البحث هذا كـ ρأنا = دبليورسأنا. هنا دبليور عبارة عن مصفوفة قابلة للتعلم تستكشف التباين المشترك KV مباشرة من مدخلات الطبقة.
لذلك يحتفظ Parallax بالمبدأ الخطي المحلي. إنه يستبدل فقط الحل لكل استعلام بجهاز عرض يشبه الاستعلام. وهذا يجعلها أبسط وأكثر كفاءة وأسهل في التنفيذ.
كيف تعمل الآلية
يعيد Parallax صياغة LLA باعتباره اهتمامًا ناعمًا بالإضافة إلى تصحيح إضافي. الناتج يساوي ناتج انتباه softmax مطروحًا منه مصطلح التغاير المتوقع. في تدوين ورقة البحث، هذا المصطلح هو التباين المشترك KV مضروبًا في المسبار المكتسب ρi.
يقوم فريق البحث أيضًا بإسقاط قطعة واحدة من LLA تسمى عامل تضخيم الحدود، مضبوطة على الصفر. وهذا ضروري لتحقيق الاستقرار. وبمجرد أن يصبح المسبار بارامتريًا، ينقطع التفسير الهندسي الأصلي. قد يؤدي ترك العامل إلى تباعد المقياس أو قلب الإشارة.
يقع Parallax داخل عائلة من آليات الانتباه. وقد قام فريق البحث بتنظيمها في الورقة من خلال ثلاثة محاور: عرض النطاق الترددي، وبناء المسبار، والبنية التقاربية. في أحد الأطراف، يتدهور Parallax تمامًا إلى انتباه softmax عندما تصل قاعدة المسبار إلى الصفر.
الإعداد دبليور = 0 يجعل طبقة Parallax تتصرف بشكل مماثل لانتباه softmax. لذلك يمكن تحويل نقطة تفتيش المحولات المدربة مسبقًا عن طريق إضافة Wر والضبط الدقيق.
حجة الأجهزة
يرث Parallax بنية تدفق FlashAttention. يضيف فرعًا واحدًا من التغاير الذي يعيد استخدام نفس تدفق قيمة المفتاح.
يقوم فريق البحث بتوسيع المهاجم إلى فرعين متوازيين للتسجيل. يشترك كلا الفرعين في الحد الأقصى عبر الإنترنت، وعامل إعادة القياس، والبلاطات K وV. لذلك لا يحتاج Parallax إلى إدخال/إخراج إضافي لكل تكرار.
الخاصية الرئيسية هي الكثافة الحسابية الأعلى (AI). الذكاء الاصطناعي هو نسبة عمليات الفاصلة العائمة إلى حركة مرور الذاكرة ذات النطاق الترددي العالي. في النظام الذي يهيمن عليه عمل KV، يقوم Parallax بمضاعفة الكثافة الحسابية تقريبًا. يضيف الحساب أثناء إعادة استخدام نفس دفق الذاكرة.
وهذا يحول الانتباه نحو نظام أكثر ارتباطًا بالحوسبة. هذا هو بالضبط النظام الذي يساعد فيه تحسين النواة على الأجهزة الحديثة.
قام فريق البحث بوضع نموذج أولي لنواة فك التشفير في CuTeDSL على وحدات معالجة الرسوميات NVIDIA Hopper. تعمل تعليمات ماتمول الأساسية للموتر هوبر على بلاطات مكونة من 64 صفًا على الأقل. توفر خطوة فك التشفير صف استعلام واحد فقط. لذلك يمكن حساب منتجات QK وRK معًا، ضمن التعليمات القياسية التي تم إصدارها بالفعل.
لقد تم تصنيفهم ضد FlashAttention 2 و3 على وحدات معالجة الرسوميات H200 بدقة BF16. لقد اكتسحوا أحجام الدفعات من 1 إلى 2048 وأطوال السياق من 128 إلى 32768. يتطابق النموذج الأولي للنواة مع FlashAttention أو يتفوق عليه في جميع التكوينات. يوضح الشكل أدناه عمليات تسريع تبلغ 1.54× في الإعداد المطابق للحساب و1.14× في الإعداد المطابق للإدخال/الإخراج.

ما تظهره التجارب
قام فريق البحث بالتحقق من صحة Parallax في المهام الاصطناعية وفي التدريب المسبق على LLM بمقياس 0.6B و1.7B. استخدمت النماذج بنية Qwen-3 في مستودع torchtitan. لقد تدربوا على مجموعة بيانات Ultra-FineWeb بطول سياق يبلغ 4096. تضمنت خطوط الأساس اهتمام softmax (Transformer)، وMamba، وGated DeltaNet، وMesaNet، وKimi DeltaAttention.
في MAD-Benchmark، حقق Parallax أعلى دقة إجمالية بمتوسط 0.716. لقد قام باستمرار بتحسين المهام الموجهة نحو الاستدعاء مثل الاستدعاء داخل السياق والنسخ الانتقائي. ظلت قادرة على المنافسة في مهام الضغط والحفظ.
في نمذجة اللغة، حقق Parallax مع Muon أفضل حيرة في كلا المقياسين. كما سجلت أعلى متوسط دقة المصب. عند 1.7B، سجل Parallax متوسط 62.45 مقابل 61.43 للمحول.
اثنين من الضوابط اختبار من أين يأتي المكسب. قام المحول المطابق للمعلمة بإغلاق جزء صغير فقط من الفجوة. لا يزال Parallax المطابق للحساب يتفوق على خطي الأساس. وتقول الورقة أن هذا يشير إلى الآلية نفسها، وليس المعلمات الإضافية أو الحساب.
تطور المحسن
النتيجة الأساسية هي التفاعل بين المُحسِّن والهندسة المعمارية. يُظهر Parallax ميزة كبيرة في ظل Muon. وفي ظل نظام AdamW، تتقلص الميزة بشكل ملحوظ أو حتى تختفي.
Muon هو مُحسِّن حديث لمعلمات المصفوفة في الطبقات المخفية. ويستخدم العامل القطبي لمخزن الزخم، لذا فإن التحديثات لها الشرط رقم واحد بالضبط. يُظهر العمل السابق أن هذا ينتج مصفوفات وزن مكيفة بشكل أفضل.
وقام فريق البحث في الورقة بتتبع الفجوة إلى فرع التصحيح. وهي تحدد نسبة التصحيح إلى الإخراج (COR). تحت الميون، يتجاوز COR 8 في أعمق الطبقات. تحت AdamW، يبقى أقل من 4.
دبليور يتأثر الإسقاط بشكل غير متناسب. تنهار رتبتها المستقرة تحت حكم AdamW ولكنها تظل عالية تحت حكم Muon. تؤكد تجربة النابضة هذا النمط. في ظل AdamW، يتعلم النموذج قمع فرع التصحيح بدلاً من استخدامه.
يطلق فريق البحث على هذا أول عرض تجريبي للتصميم القوي لمُحسِّن البنية لآليات الانتباه. إنهم لا يزعمون أن Muon مع WSD هو الوصفة المثالية. يظهر استئصال الزائدة الدودية أن الميزة تتقلص خلال مرحلة الاضمحلال.
كيف تختلف النتائج
ينتج Parallax أيضًا توزيعات مختلفة للدرجات من اهتمام softmax. يمكن أن تأخذ أوزانها لكل رمز قيمًا سالبة وتتجاوز واحدًا من حيث الحجم. لا تستطيع أوزان softmax القياسية القيام بذلك.
أبلغ فريق البحث عن ثلاثة تأثيرات. يمكن لـ Parallax طرح مكونات القيمة بشكل فعال من الرموز المميزة غير ذات الصلة. إنه يقلل بشكل كبير من الاهتمام بالرمز الأول. تظل إنتروبيا softmax الأساسية أعلى، مما يعطي أوزان انتباه أكثر انتشارًا.
نقاط القوة والضعف والأسئلة المفتوحة
نقاط القوة
- يحافظ على اهتمام softmax سليمًا، بحيث يمكن للمحول المُدرب مسبقًا التحويل عن طريق إضافة WR والضبط الدقيق.
- لا يضيف أي إدخال/إخراج إضافي لكل تكرار عن طريق إعادة استخدام دفق قيمة مفتاح FlashAttention.
- مضاعفة الكثافة الحسابية، مع مطابقة نواة النموذج الأولي أو التغلب على FlashAttention 2/3 في فك التشفير.
- يُظهر الحيرة المتسقة والمكاسب النهائية ضمن عناصر التحكم المطابقة للمعلمات والحسابات المطابقة.
نقاط الضعف والأسئلة المفتوحة
- وتعتمد المكاسب بشكل كبير على الميون؛ في ظل AdamW تختفي الميزة إلى حد كبير.
- يظل السبب الدقيق لاعتماد المحسن سؤالاً مفتوحًا.
- تتوقف النتائج عند مقياس 1.7B، بدون وزارة التعليم، أو سياق أطول، أو عمليات تشغيل أكبر.
- تتآكل الميزة أثناء مرحلة اضمحلال WSD، ويتم إصلاحها جزئيًا فقط عن طريق التلدين باضمحلال الوزن.
الوجبات السريعة الرئيسية
- يحافظ Parallax على اهتمام softmax ويضيف فرع تصحيح التغاير المكتسب، ليحل محل حل التدرج المترافق لكل استعلام في LLA.
- إنه يضاعف الكثافة الحسابية أثناء إعادة استخدام نفس تيار KV، مع مطابقة نواة فك التشفير أو التغلب على FlashAttention 2/3.
- الحيرة المستمرة والمكاسب النهائية عند 0.6B و1.7B، مع الاحتفاظ بعناصر التحكم المطابقة للمعلمات والحسابات المطابقة.
- وتعتمد المكاسب بشكل كبير على الميون؛ وفي ظل AdamW تتقلص الميزة بشكل ملحوظ أو تختفي.
- الإعداد دبليور = 0 يستعيد انتباه softmax تمامًا، لذلك يمكن للمحولات المدربة مسبقًا التحويل عن طريق إضافة WR والضبط الدقيق.
تحقق من ورق و الريبو. أيضا، لا تتردد في متابعتنا على تغريد ولا تنسى الانضمام إلينا 150 ألف+ مل من SubReddit والاشتراك في النشرة الإخبارية لدينا. انتظر! هل أنت على برقية؟ الآن يمكنك الانضمام إلينا على التليجرام أيضًا.
هل تحتاج إلى الشراكة معنا للترويج لصفحة GitHub Repo أو صفحة الوجه المعانقة أو إصدار المنتج أو الندوة عبر الويب وما إلى ذلك؟ تواصل معنا
