يتوقف معظم عملاء الذكاء الاصطناعي عن التحسن بمجرد توقف الإنسان عن ضبطهم. تم إصلاح النموذج. السقالة حولها ثابتة. تريد Hexo Labs نقل كليهما في وقت واحد. لقد أصدرت SIA (الذكاء الاصطناعي المحسن ذاتيًا) هذا الأسبوع كإطار عمل مفتوح المصدر بموجب ترخيص MIT.

الادعاء الأساسي لهذا البحث ضيق ولكنه ملموس. يقوم SIA بتحرير كل من سقالة الوكيل وأوزان النموذج داخل حلقة واحدة ذاتية التحسين.

ما هو SIA (الذكاء الاصطناعي المحسن ذاتيًا)

يقوم SIA بتقسيم الوكيل الخاص بالمهمة إلى قسمين. الأول هو الحزام، ويسمى أيضًا السقالة. يغطي ذلك موجه النظام ومنطق إرسال الأدوات وسياسة إعادة المحاولة وكود استخراج الإجابات. الجزء الثاني هو نموذج الأوزان نفسها.

ثلاثة مكونات LLM تقود الحلقة. يقوم Meta-Agent بكتابة السقالة الأولية من مواصفات المهمة وأي رمز مرجعي. يقوم الوكيل الخاص بالمهمة بتشغيل المهمة ويسجل كل خطوة. يقرأ وكيل الملاحظات بعد ذلك المسار الكامل ويقرر ما يجب تغييره.

هذا القرار هو الفكرة الرئيسية. بعد كل تشغيل، يختار وكيل الملاحظات أحد الإجراءين. يمكنها إعادة كتابة السقالة بينما تظل الأوزان ثابتة. أو يمكن أن يؤدي إلى تحديث الوزن بينما تظل السقالة ثابتة.

النموذج الأساسي هو openai/gpt-oss-120b. تستخدم تحديثات الوزن LoRA، وهو محول منخفض الرتبة، في المرتبة 32. يعمل كل من Meta-Agent وFeedback-Agent على Claude Sonnet 4.6. يتم التدريب على وحدات معالجة الرسومات H100 من خلال Modal، منصة RL الخاصة بالفريق.

قام فريق البحث بتسمية نقطتي التشغيل SIA-H وSIA-W+H. يستخدم SIA-H تحديثات الحزام فقط. يضيف SIA-W+H تحديثات الوزن في الأعلى.

https://arxiv.org/pdf/2605.27276

القضية المرجعية

قام فريق البحث باختبار SIA في ثلاثة مجالات مختلفة عمدًا. النمط الذي عقد عبر الثلاثة. أضافت تحديثات الوزن مكاسب تتجاوز ما وصل إليه تحرير السقالة وحده. “الأولي” هو النموذج الأساسي من خلال السقالة الأولى للوكيل التعريفي، قبل أي تعليقات.

مهمة أولي السابق. سوتا SIA-H (حزام الأمان فقط) SIA-W+H (حزام + أوزان)
LawBench (أعلى 1 حساب) 13.5% 45.0% 50.0% 70.1%
AlphaEvolve TriMul (مكافأة) 0.105 1.292 0.120 1.475
تقليل الضوضاء (mse_norm) 0.048 0.240 0.241 0.289

في LawBench، المهمة هي تصنيف التهم الجنائية الصينية من فئة 191. قام تكرار الحزام ببناء خط أنابيب TF-IDF بالإضافة إلى LinearSVC واستقر عند 50.0%. ثم أدت تحديثات الوزن عبر PPO إلى زيادة الدقة إلى 70.1%. وهذا يمثل زيادة بنسبة 20.1 نقطة مئوية عن الأفضل فقط.

تطلب مهمة TriMul نواة CUDA مخصصة على وحدة معالجة الرسومات H100. تحسب النواة العملية الأساسية في وحدة Evoformer الخاصة بـ AlphaFold2. وصلت تعديلات السقالة إلى سرعة 1.14× فوق خط الأساس. أدت تحديثات الوزن بعد ذلك إلى زيادة وقت التشغيل من 12483 إلى 1017 ميكروثانية. وهذا يمثل انخفاضًا بنسبة 91.9% عن ذروة الحزام فقط.

يظهر تحذير واحد صادق في نفس الرسم البياني. وصل وكيل الترميز Claude Code إلى 1.50× على TriMul دون مساعدة، متغلبًا على SIA-H’s 1.14×. لا يزال SIA-W+H يتقدم بشكل عام عند 14.02×.

لتقليل الضوضاء، يقوم العامل بضبط MAGIC، وهي طريقة لحساب الحمض النووي الريبي (RNA) لخلية واحدة. استقرت عمليات مسح Harness على معلماتها الفائقة عند 0.241 mse_norm. أضافت نقطة تفتيش تحديث الوزن الأولى خطوة مكونة من سطرين ولم يتم إنتاج أي سقالة. لقد قام بتقريب الأعداد المحسوبة إلى أعداد صحيحة غير سالبة، مما رفع النتيجة إلى 0.289.

كيف يختار وكيل ردود الفعل تحركه

لا يقوم SIA بتشغيل وصفة RL واحدة ثابتة. يختار وكيل الملاحظات خوارزمية تدريب بناءً على إشارة المكافأة التي يلاحظها.

في LawBench، كانت المكافأة عبارة عن عدد قياسي نظيف قائم على النتائج، لذلك تم استخدام PPO مع GAE. في TriMul، فشلت معظم النوى في التجميع، لذلك استخدمت ميزة ترجيح الانتروبيا. تعمل هذه الطريقة على زيادة الأوزان النادرة ذات المكافآت العالية. عند تقليل الضوضاء، تم استخدام GRPO، الذي يلغي شبكة القيمة تمامًا.

يدرج فريق البحث أيضًا REINFORCE باستخدام KL-to-base، وDPO، والاستنساخ السلوكي الأفضل من بين N. كل خريطة لشكل مكافأة مختلف ومخاطر الفشل.

نقاط القوة وماذا تشاهد

نقاط القوة:

  • أول نظام يقوم بتحرير كل من السقالة والأوزان في حلقة واحدة، وفقًا لجدول المقارنة الخاص بالمؤلفين.
  • مكاسب متسقة مقارنة بـ SOTA السابقة عبر ثلاثة مجالات غير مرتبطة.
  • مفتوح المصدر ضمن معهد ماساتشوستس للتكنولوجيا (MIT)، قابل للتثبيت كوكيل sia، مع أربع مهام مجمعة.
  • اختيار الخوارزمية مشروط بالمكافآت المرصودة، وليس بجدول زمني محدد.

ما يجب مشاهدته:

  • ويورد البحث ثلاث مهام؛ يتم تأجيل نتائج اختيار الخوارزمية الأوسع.
  • يعمل كلا الرافعتين على تحسين نفس أداة التحقق الثابتة، مما يؤدي إلى المخاطرة بتأثيرات Goodhart المقترنة.
  • ويحذر البحث من أن النقطة الثابتة المشتركة قد تكون هشة في ظل الاضطراب.

الشرح المرئي لـ Marktechpost

Hexo Labs · المصدر المفتوح (MIT)

SIA: تحسين الذكاء الاصطناعي ذاتيًا

تحديثات الحزام + الوزن

حلقة ذاتية التحسين تقوم بتحرير كل من سقالة الوكيل وأوزان النماذج الخاصة به، دون إجراء المزيد من الضبط البشري.

gpt-oss-120b
لورا المرتبة 32
3 معايير
كلود سونيت 4.6 وكلاء

الفجوة

صومعتان، تعملان بشكل منفصل

مدرسة تسخير

تحرير السقالة

يقوم الوكيل التعريفي بإعادة كتابة المطالبات والأدوات ومنطق إعادة المحاولة. تبقى أوزان النموذج ثابتة.

التدريب وقت الاختبار

تحرير الأوزان

يقوم خط أنابيب RL بتحديث النموذج بناءً على تعليقات المهمة. يبقى الحزام ثابتًا.


يقوم SIA بإغلاق الفجوة عن طريق تحريك كلا الرافعتين داخل حلقة واحدة.

تشريح

ما هو SIA في الواقع

  • تسخير (سقالة): موجه النظام، ومنطق إرسال الأدوات، وسياسة إعادة المحاولة، وكود استخراج الإجابات.
  • الأوزان: معلمات النموذج الخاصة، والتي تم تكييفها مع LoRA في المرتبة 32.
  • ثلاثة مكونات LLM قيادة الحلقة: وكيل التعريف، ووكيل المهام المحددة، ووكيل الملاحظات.

الحلقة

حلقة واحدة، رافعتان

بعد كل تشغيل، يقرأ وكيل الملاحظات المسار الكامل ويختار إجراءً واحدًا.

الإجراء أ

تحديث تسخير

أعد كتابة السقالة. يتم تثبيت الأوزان.

الإجراء ب

تحديث الوزن

تدريب أوزان LoRA. السقالة ثابتة.


يتشابك الرافعتان بحرية، وليس في مراحل متتالية مقفلة.

شهادة

النتائج المرجعية

مهمة أولي السابق. سوتا سيا-ح سيا-ث+ح
LawBench (أعلى 1 حساب) 13.5% 45.0% 50.0% 70.1%
AlphaEvolve TriMul (مكافأة) 0.105 1.292 0.120 1.475
تقليل الضوضاء (mse_norm) 0.048 0.240 0.241 0.289

تفوق SIA-W+H (الحزام + الأوزان) على SIA-H (الحزام فقط) في جميع المهام الثلاث.

آلية

كيف يختار وكيل الملاحظات حركته

  • مقعد القانون: مكافأة نظيفة قائمة على النتائج، لذلك تم استخدام PPO مع GAE. وصلت الدقة إلى 70.1%.
  • تريمول: تفشل معظم النوى في التجميع، لذلك استخدمت ميزة ترجيح الانتروبيا. بلغ وقت التشغيل 1,017 ميكروثانية.
  • تقليل الضوضاء: لقد استخدم GRPO، الذي يلغي شبكة القيمة. ارتفعت النتيجة إلى 0.289.
  • متاح أيضا: REINFORCE + KL-to-base وDPO والاستنساخ السلوكي الأفضل من بين N.

RQ2

ما يتغير كل رافعة

تسخير

التغييرات الخارجية

تحسينات هندسة البرمجيات: أدوات جديدة، ومحللات أكثر صرامة، وإعادة محاولة المنطق.

الأوزان

المعرفة الداخلية

معرفة المجال لا تصل إلى أي مطالبة: أنماط kernel H100، خطوة تقريب عدد صحيح.


يشكل الحزام الطريقة التي يبحث بها الوكيل؛ تحديثات الوزن تغير ما يعرفه النموذج.

القراءة الصادقة

القيود التي يجب وضعها في الاعتبار

  • كلا الرافعتين تعملان على تحسين نفس المدقق الثابت، المخاطرة بتأثير جودهارت التطوري المشترك.
  • النقاط الثابتة يمكن أن تبدو قوية على المدقق ولكنها تبقى هشة تحت الاضطراب.
  • تقارير ورقة ثلاث مهام; يتم تأجيل نتائج اختيار الخوارزمية الأوسع.
  • منفصل 350× الذكاء الفائق لا تظهر المطالبة في تغطية الإطلاق في الورقة.

ابدأ

تشغيله بنفسك

مفتوح المصدر تحت معهد ماساتشوستس للتكنولوجيا في hexo-ai/sia. مبني على gpt-oss-120b مع تصنيف LoRA 32.

# install the Claude backend
pip install 'sia-agent[claude]'
export ANTHROPIC_API_KEY="..."

# run 5 self-improvement generations on a bundled task
sia --task lawbench --max_gen 5 --run_id 1

أربع مهام مجمعة يتم شحنها في الصندوق: GPQA، Lawbench، Longcot-Chess، Spaceship-Titanic.


01 / 09

الوجبات السريعة الرئيسية

  • SIA هي أول حلقة ذاتية التحسين تقوم بتحرير كل من سقالة الوكيل وأوزان النماذج الخاصة به.
  • يقرأ وكيل الملاحظات المسار الكامل لكل جولة، ثم يختار إعادة كتابة الحزام أو تحديث الوزن.
  • يؤدي الجمع بين كلا الرافعتين إلى التغلب على السقالة فقط في جميع المهام الثلاث: LawBench، وTriMul kernels، وتقليل الضوضاء scRNA-seq.
  • تضيف تعديلات تسخير نظافة هندسة البرمجيات. تحديثات الوزن معرفة المجال السطحي لا تصل إلى المطالبة.
  • مفتوح المصدر تحت MIT (hexo-ai/sia)، مبني على gpt-oss-120b مع تصنيف LoRA 32.

تحقق من الريبو و ورقة بحثية. أيضا، لا تتردد في متابعتنا على تغريد ولا تنسى الانضمام إلينا 150 ألف+ مل من SubReddit والاشتراك في النشرة الإخبارية لدينا. انتظر! هل أنت على برقية؟ الآن يمكنك الانضمام إلينا على التليجرام أيضًا.

هل تحتاج إلى الشراكة معنا للترويج لصفحة GitHub Repo أو صفحة الوجه المعانقة أو إصدار المنتج أو الندوة عبر الويب وما إلى ذلك؟ تواصل معنا



اكتشاف المزيد من كحيل للتقنية | أخبار التقنية والذكاء الاصطناعي وشروحات الويب

اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.

شاركها.
اترك تعليقاً

اكتشاف المزيد من كحيل للتقنية | أخبار التقنية والذكاء الاصطناعي وشروحات الويب

اشترك الآن للاستمرار في القراءة والحصول على حق الوصول إلى الأرشيف الكامل.

Continue reading