يتوقف معظم عملاء الذكاء الاصطناعي عن التحسن بمجرد توقف الإنسان عن ضبطهم. تم إصلاح النموذج. السقالة حولها ثابتة. تريد Hexo Labs نقل كليهما في وقت واحد. لقد أصدرت SIA (الذكاء الاصطناعي المحسن ذاتيًا) هذا الأسبوع كإطار عمل مفتوح المصدر بموجب ترخيص MIT.
الادعاء الأساسي لهذا البحث ضيق ولكنه ملموس. يقوم SIA بتحرير كل من سقالة الوكيل وأوزان النموذج داخل حلقة واحدة ذاتية التحسين.
ما هو SIA (الذكاء الاصطناعي المحسن ذاتيًا)
يقوم SIA بتقسيم الوكيل الخاص بالمهمة إلى قسمين. الأول هو الحزام، ويسمى أيضًا السقالة. يغطي ذلك موجه النظام ومنطق إرسال الأدوات وسياسة إعادة المحاولة وكود استخراج الإجابات. الجزء الثاني هو نموذج الأوزان نفسها.
ثلاثة مكونات LLM تقود الحلقة. يقوم Meta-Agent بكتابة السقالة الأولية من مواصفات المهمة وأي رمز مرجعي. يقوم الوكيل الخاص بالمهمة بتشغيل المهمة ويسجل كل خطوة. يقرأ وكيل الملاحظات بعد ذلك المسار الكامل ويقرر ما يجب تغييره.
هذا القرار هو الفكرة الرئيسية. بعد كل تشغيل، يختار وكيل الملاحظات أحد الإجراءين. يمكنها إعادة كتابة السقالة بينما تظل الأوزان ثابتة. أو يمكن أن يؤدي إلى تحديث الوزن بينما تظل السقالة ثابتة.
النموذج الأساسي هو openai/gpt-oss-120b. تستخدم تحديثات الوزن LoRA، وهو محول منخفض الرتبة، في المرتبة 32. يعمل كل من Meta-Agent وFeedback-Agent على Claude Sonnet 4.6. يتم التدريب على وحدات معالجة الرسومات H100 من خلال Modal، منصة RL الخاصة بالفريق.
قام فريق البحث بتسمية نقطتي التشغيل SIA-H وSIA-W+H. يستخدم SIA-H تحديثات الحزام فقط. يضيف SIA-W+H تحديثات الوزن في الأعلى.

القضية المرجعية
قام فريق البحث باختبار SIA في ثلاثة مجالات مختلفة عمدًا. النمط الذي عقد عبر الثلاثة. أضافت تحديثات الوزن مكاسب تتجاوز ما وصل إليه تحرير السقالة وحده. “الأولي” هو النموذج الأساسي من خلال السقالة الأولى للوكيل التعريفي، قبل أي تعليقات.
| مهمة | أولي | السابق. سوتا | SIA-H (حزام الأمان فقط) | SIA-W+H (حزام + أوزان) |
|---|---|---|---|---|
| LawBench (أعلى 1 حساب) | 13.5% | 45.0% | 50.0% | 70.1% |
| AlphaEvolve TriMul (مكافأة) | 0.105 | 1.292 | 0.120 | 1.475 |
| تقليل الضوضاء (mse_norm) | 0.048 | 0.240 | 0.241 | 0.289 |
في LawBench، المهمة هي تصنيف التهم الجنائية الصينية من فئة 191. قام تكرار الحزام ببناء خط أنابيب TF-IDF بالإضافة إلى LinearSVC واستقر عند 50.0%. ثم أدت تحديثات الوزن عبر PPO إلى زيادة الدقة إلى 70.1%. وهذا يمثل زيادة بنسبة 20.1 نقطة مئوية عن الأفضل فقط.
تطلب مهمة TriMul نواة CUDA مخصصة على وحدة معالجة الرسومات H100. تحسب النواة العملية الأساسية في وحدة Evoformer الخاصة بـ AlphaFold2. وصلت تعديلات السقالة إلى سرعة 1.14× فوق خط الأساس. أدت تحديثات الوزن بعد ذلك إلى زيادة وقت التشغيل من 12483 إلى 1017 ميكروثانية. وهذا يمثل انخفاضًا بنسبة 91.9% عن ذروة الحزام فقط.
يظهر تحذير واحد صادق في نفس الرسم البياني. وصل وكيل الترميز Claude Code إلى 1.50× على TriMul دون مساعدة، متغلبًا على SIA-H’s 1.14×. لا يزال SIA-W+H يتقدم بشكل عام عند 14.02×.
لتقليل الضوضاء، يقوم العامل بضبط MAGIC، وهي طريقة لحساب الحمض النووي الريبي (RNA) لخلية واحدة. استقرت عمليات مسح Harness على معلماتها الفائقة عند 0.241 mse_norm. أضافت نقطة تفتيش تحديث الوزن الأولى خطوة مكونة من سطرين ولم يتم إنتاج أي سقالة. لقد قام بتقريب الأعداد المحسوبة إلى أعداد صحيحة غير سالبة، مما رفع النتيجة إلى 0.289.
كيف يختار وكيل ردود الفعل تحركه
لا يقوم SIA بتشغيل وصفة RL واحدة ثابتة. يختار وكيل الملاحظات خوارزمية تدريب بناءً على إشارة المكافأة التي يلاحظها.
في LawBench، كانت المكافأة عبارة عن عدد قياسي نظيف قائم على النتائج، لذلك تم استخدام PPO مع GAE. في TriMul، فشلت معظم النوى في التجميع، لذلك استخدمت ميزة ترجيح الانتروبيا. تعمل هذه الطريقة على زيادة الأوزان النادرة ذات المكافآت العالية. عند تقليل الضوضاء، تم استخدام GRPO، الذي يلغي شبكة القيمة تمامًا.
يدرج فريق البحث أيضًا REINFORCE باستخدام KL-to-base، وDPO، والاستنساخ السلوكي الأفضل من بين N. كل خريطة لشكل مكافأة مختلف ومخاطر الفشل.
نقاط القوة وماذا تشاهد
نقاط القوة:
- أول نظام يقوم بتحرير كل من السقالة والأوزان في حلقة واحدة، وفقًا لجدول المقارنة الخاص بالمؤلفين.
- مكاسب متسقة مقارنة بـ SOTA السابقة عبر ثلاثة مجالات غير مرتبطة.
- مفتوح المصدر ضمن معهد ماساتشوستس للتكنولوجيا (MIT)، قابل للتثبيت كوكيل sia، مع أربع مهام مجمعة.
- اختيار الخوارزمية مشروط بالمكافآت المرصودة، وليس بجدول زمني محدد.
ما يجب مشاهدته:
- ويورد البحث ثلاث مهام؛ يتم تأجيل نتائج اختيار الخوارزمية الأوسع.
- يعمل كلا الرافعتين على تحسين نفس أداة التحقق الثابتة، مما يؤدي إلى المخاطرة بتأثيرات Goodhart المقترنة.
- ويحذر البحث من أن النقطة الثابتة المشتركة قد تكون هشة في ظل الاضطراب.
الشرح المرئي لـ Marktechpost
01 / 09
الوجبات السريعة الرئيسية
- SIA هي أول حلقة ذاتية التحسين تقوم بتحرير كل من سقالة الوكيل وأوزان النماذج الخاصة به.
- يقرأ وكيل الملاحظات المسار الكامل لكل جولة، ثم يختار إعادة كتابة الحزام أو تحديث الوزن.
- يؤدي الجمع بين كلا الرافعتين إلى التغلب على السقالة فقط في جميع المهام الثلاث: LawBench، وTriMul kernels، وتقليل الضوضاء scRNA-seq.
- تضيف تعديلات تسخير نظافة هندسة البرمجيات. تحديثات الوزن معرفة المجال السطحي لا تصل إلى المطالبة.
- مفتوح المصدر تحت MIT (hexo-ai/sia)، مبني على gpt-oss-120b مع تصنيف LoRA 32.
تحقق من الريبو و ورقة بحثية. أيضا، لا تتردد في متابعتنا على تغريد ولا تنسى الانضمام إلينا 150 ألف+ مل من SubReddit والاشتراك في النشرة الإخبارية لدينا. انتظر! هل أنت على برقية؟ الآن يمكنك الانضمام إلينا على التليجرام أيضًا.
هل تحتاج إلى الشراكة معنا للترويج لصفحة GitHub Repo أو صفحة الوجه المعانقة أو إصدار المنتج أو الندوة عبر الويب وما إلى ذلك؟ تواصل معنا
اكتشاف المزيد من كحيل للتقنية | أخبار التقنية والذكاء الاصطناعي وشروحات الويب
اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.
