StepFun تطلق فلاش الخطوة 3.7: نموذج رؤية ولغة 198B لوزارة التعليم لوكلاء الترميز وسير عمل البحث

أصدرت StepFun اليوم Step 3.7 Flash، وهو نموذج متعدد الوسائط لمزيج من الخبراء يستهدف حالات الاستخدام الوكيل. فهو يضيف مدخلات رؤية أصلية وموثوقية محسنة لاستخدام الأداة مقارنة بالخطوة 3.5 فلاش.

ما هي الخطوة 3.7 فلاش؟

الخطوة 3.7 فلاش هو 198B-معلمة نموذج لغة الرؤية المتناثر لخليط الخبراء (MoE). إنه أزواج أ 196B-العمود الفقري للغة المعلمة مع أ جهاز تشفير الرؤية بمعلمة 1.8B (ViT) لفهم الصورة الأصلية.

يتم تنشيط النموذج تقريبًا 11B معلمات لكل رمز أثناء الاستدلال. في تصميمات وزارة البيئة، يتم تشغيل مجموعة فرعية فقط من الشبكات الفرعية “الخبيرة” لكل تمريرة أمامية – وليس الشبكة بأكملها. يؤدي هذا إلى إبقاء حساب الاستدلال أقرب إلى نموذج كثيف يبلغ 11B مع الحفاظ على ميزانية إجمالية للمعلمات تبلغ 198B.

المواصفات الرئيسية:

المواصفات	قيمة
مجموع المعلمات	198B (لغة 196B + 1.8B ViT)
المعلمات النشطة لكل رمز مميز	~11ب
نافذة السياق	256 ألف رمز
الإنتاجية	ما يصل إلى 400 رمز/ثانية
مستويات الاستدلال	منخفضة، متوسطة، عالية
رخصة	أباتشي 2.0

ملاحظات الهندسة المعمارية

يعمل جهاز تشفير الرؤية كوحدة منفصلة 1.8B ViT. يقوم بإدخال تمثيلات الصور في سياق العمود الفقري للغة. الخطوة 3.5 لم يكن لدى Flash أي دعم متعدد الوسائط؛ هذه إضافة جديدة في 3.7.

تتيح ثلاثة أعماق تفكير قابلة للتحديد – منخفضة ومتوسطة وعالية – للمطورين استبدال زمن الاستجابة بعمق التفكير. منخفض أسرع وأرخص. عالي يطبق المزيد من الحسابات لكل استجابة.

أداء الترميز الوكيل

على سوي-مقعد بروالخطوة 3.7 درجات الفلاش 56.26%، أعلى من نسبة 51.3% التي حققها Flash في الخطوة 3.5 — وهي زيادة قدرها 5 نقاط مئوية تقريبًا. على المحطة الطرفية 2.1، فإنه يسجل 59.55%ارتفاعا من 53.37%.

على سويس-MTLG (معيار ترميز طويل الأمد متعدد المهام)، فإنه يسجل نتائج 72.42%.

تناسق السرج المتقاطع على الجزء الداخلي من StepFun خطوة سوي-مقعد:

سقالة	الخطوة 3.7 فلاش	الخطوة 3.5 فلاش
وكيل هيرميس	67.5%	60.0%
OpenClaw	67.0%	47.0%
كيلو كود	67.5%	59.0%
كود روك	64.5%	43.0%
كلود كود	71.5%	73.0%
كود مفتوح	64.5%	57.0%

الخطوة 3.5 تراوحت نسبة الفلاش من 43% إلى 73% عبر الأحزمة. الخطوة 3.7 يتراوح الفلاش من 64.5% إلى 71.5%. في الإنتاج، غالبًا ما تعمل وكلاء التشفير داخل سقالات غير متجانسة، ولكل منها اتفاقياتها الدافعة ومخططات الأدوات الخاصة بها. يعني التباين الأضيق لكل تسخير سلوكًا أكثر قابلية للتنبؤ عبر الإعدادات المختلفة.

وضع المستشار

الخطوة 3.7 يدعم الفلاش وضع المستشار، تنفيذ StepFun لاستراتيجية المستشار التي وصفتها Anthropic. يقوم النموذج بتشغيل حلقة الوكيل من البداية إلى النهاية – أدوات الاتصال، وقراءة النتائج، والتكرار – ويتصاعد إلى نموذج مستشار أكبر فقط عند نقاط انعطاف محددة، مثل التخطيط أو التعافي من حالات الفشل المتكررة. يبقى معظم التشغيل على تكلفة المنفذ.

مع تمكين وضع المستشار في SWE-Bench Verified، يبلغ StepFun عن وصول فلاش إلى الخطوة 3.7 97% من أداء البرمجة لـ Claude Opus 4.6 بحوالي تسع تكلفة المهمة الواحدة (0.19 دولار مقابل 1.76 دولار لكل مهمة). هذه هي الشخصيات الداخلية لـ StepFun.

قدرات الوسائط المتعددة

الخطوة 3.7 يدعم Flash مسارين للأدوات المرئية:

أداة البحث المرئي — بالنسبة لمهام التعرف التي تكون فيها المعرفة البارامترية للنموذج غير كافية (الكيانات الطويلة، والمفاهيم التي ظهرت مؤخرًا)، فإنها تستدعي أداة بحث مرئية للاسترجاع والتحقق. على SimpleVQA (مع البحث)، فإنه يسجل 79.16%، يمكن مقارنته بـ GPT 5.5 (79.11%) وما فوق Kimi K2.6 (78.24%) وGLM 5V Turbo (78.20%).

أداة بايثون – بالنسبة للمهام المرئية الدقيقة (الصور عالية الدقة، والفحص البصري، وتحليل المربع المحيط)، فإنها تستخدم واجهة تعليمات برمجية لاقتصاص وحدات البكسل أو المربعات المحيطة، أو تكبيرها/تصغيرها، أو رسمها. على V (نتيجة تم اختبارها ذاتيًا باستخدام بايثون)، فهي تسجل نتائج 95.29%. على الموارد البشرية-مقعد 4K و الموارد البشرية-مقعد 8K، فإنه يسجل 89.13% و 86.34% على التوالى.

يلاحظ StepFun سلوكًا ملحوظًا أثناء الاختبار: قام النموذج بدمج الأدوات المرئية مع الأدوات غير المرئية دون تدريبه بشكل صريح على القيام بذلك. على سبيل المثال، بعد إنشاء كود الواجهة الأمامية، تم استخدام واجهة المستخدم الرسومية لعرض النتيجة وفحصها قبل التكرار. يصف StepFun هذا بأنه استخدام أداة تركيبية ناشئة.

على الروبوت يوميا (إكمال مهمة واجهة مستخدم الهاتف طويلة المدى)، الخطوة 3.7 درجات الفلاش 61.87%متقدماً على Kimi K2.6 (53.36%) وGLM 5V Turbo (51.68%). يتصدر Gemini 3 Flash (63.21%) هذا المعيار.

معايير البحث والبحث

ركزت StepFun تصميم البحث لهذا النموذج على التخطيط وتصفية الأدلة والتوليف – ودمج البحث كجزء من حلقة الاستدلال بدلاً من وظيفة إضافية منفصلة.

المعيار	الخطوة 3.7 فلاش	مقارنة ملحوظة
HLE مع الأدوات (acc)	47.20%	فلاش ديب سيك V4: 45.10%
متصفح كومب (acc)	75.82%	كلود أوبوس 4.7: 79.30%
ضمان جودة البحث العميق (F1)	92.82%	كيمي ك2.6: 92.50%
معايير البحث (النتيجة)	71.68%	جي بي تي 5.5: 61.50%

ملاحظة: تبلغ درجة HLE مع الأدوات 47.20% مقارنة بدرجة النص فقط للخطوة 3.5 Flash البالغة 35.68%. الخطوة 3.5 لم يدعم Flash التقييم المعزز بالأداة على HLE.

معايير الوكيل العام

المعيار	الخطوة 3.7 فلاش	وصف
سباق الأدوات	49.51%	التنسيق بين الأدوات المتعددة
ClawEval-1.1	67.07%	تنفيذ المهام المستقلة اليومية في بيئات واقعية
الناتج المحلي الإجمالي (44 مهنة)	45.8%	تنفيذ المهام المهنية العامة
Tau2-مقعد للاتصالات	> 98%	عبر مستويات صعوبة التفكير المختلفة

في ClawEval-1.1، تتفوق الخطوة 3.7 Flash (67.07%) على DeepSeek V4 Flash (57.80%) وDeepSeek V4 Pro (59.80%) بين النماذج المقارنة.

أداء طويل السياق

على أأ-لكر (مقياس استرجاع طويل السياق، متوسط 16/acc)، الخطوة 3.7 درجات فلاش 63.94%. وهذا مشابه لـ DeepSeek V4 Flash (63.70%) و DeepSeek V4 Pro (66.30%).

التسعير

نوع الرمز المميز	سعر
الإدخال (ذاكرة التخزين المؤقت المفقودة)	0.20 دولارًا أمريكيًا / مليون رمزًا
الإدخال (ضرب ذاكرة التخزين المؤقت)	0.04 دولار / م من الرموز المميزة
الإخراج	1.15 دولارًا أمريكيًا / مليون رمزًا

الشرح المرئي لـ Marktechpost

الشريحة 1 من 8 — نظرة عامة

ما هي الخطوة 3.7 فلاش؟

الخطوة 3.7 الفلاش متناثر خليط من الخبراء (وزارة التربية والتعليم) نموذج لغة الرؤية من StepFun. فهو يجمع بين العمود الفقري للغة بمعلمة 196B ومشفر Vision Transformer (ViT) بمعلمة 1.8B لفهم الصورة الأصلية.

في نموذج وزارة البيئة، يتم تنشيط مجموعة فرعية فقط من الشبكات الفرعية “الخبيرة” لكل رمز مميز – وليس الشبكة بأكملها. يؤدي هذا إلى إبقاء حساب الاستدلال قريبًا من نموذج كثيف 11B مع الحفاظ على إجمالي 198B من المعلمات.

نافذة السياق

256 ألف رمز

مستويات الاستدلال

منخفض / متوسط / مرتفع

الشريحة 2 من 8 — الهندسة المعمارية

ملاحظات الهندسة المعمارية

يعمل جهاز التشفير 1.8B ViT كملف وحدة منفصلة ويحقن تمثيلات الصور في سياق العمود الفقري للغة. الخطوة 3.5 كان الفلاش عبارة عن نص فقط؛ دعم الوسائط المتعددة الأصلي جديد في 3.7.

ثلاثة أعماق المنطق للاختيار السماح للمطورين بالموازنة بين السرعة والتكلفة:

قليل – الأسرع والأرخص. مناسبة للإكمال البسيط.
واسطة – التكلفة المتوازنة وعمق التفكير.
عالي – المزيد من الحساب لكل استجابة. الأفضل لمهام الوكيل المعقدة.

توجيه MoE يعني أنك تدفع مقابل ما يقرب من 11 مليار معلمة نشطة عند الاستدلال، وليس 198 مليار. هذه هي مقايضة الكفاءة الأساسية في نماذج Flash-tier.

الشريحة 3 من 8 — الترميز الوكيل

أداء الترميز الوكيل

الخطوة 3.7 درجات فلاش خصم 56.26% على SWE-Bench Pro (ارتفاعًا من 51.3% في 3.5 فلاش) و 59.55% على المحطة الطرفية 2.1 (ارتفاعًا من 53.37%). على SWE-MTLG يسجل 72.42%.

نتائج كل تسخير على مقعد Step-SWE-Bench الداخلي الخاص بـ StepFun:

سقالة	3.7 فلاش	3.5 فلاش
وكيل هيرميس	67.5%	60.0%
OpenClaw	67.0%	47.0%
كيلو كود	67.5%	59.0%
كود روك	64.5%	43.0%
كلود كود	71.5%	73.0%
كود مفتوح	64.5%	57.0%

3.5 تراوحت نسبة الفلاش بين 43-73% عبر الأحزمة. 3.7 يقوم الفلاش بتضييق ذلك إلى 64.5-71.5% – وهو أكثر قابلية للتنبؤ به عبر السقالات غير المتجانسة.

الشريحة 4 من 8 — وضع المستشار

وضع المستشار

الخطوة 3.7 يدعم الفلاش وضع المستشار، تنفيذ StepFun لاستراتيجية المستشار التي وصفتها Anthropic. يقوم النموذج بتشغيل حلقة الوكيل الكاملة – أدوات الاتصال، وقراءة النتائج، والتكرار – ويتصاعد إلى نموذج مستشار أكبر فقط عند نقاط انعطاف محددة.

يتصاعد خلال تخطيط أو التعافي من الإخفاقات المتكررة
يبقى معظم التشغيل بتكلفة المنفذ (فلاش).
يتم استشارة نموذج المستشار الكبير بشكل مقتصد

نتائج SWE-Bench التي تم التحقق منها باستخدام وضع المستشار (أرقام StepFun الداخلية):

الخطوة 3.7 فلاش + مستشار

76.3% درجة

كلود أوبوس 4.6

درجة 78.7%

كلود أوبوس 4.6 التكلفة

1.76 دولار

الشريحة 5 من 8 — الوسائط المتعددة

قدرات الوسائط المتعددة

الخطوة 3.7 يدعم Flash مسارين للأدوات المرئية:

أداة البحث المرئي — يتم الاستناد إليه للتعرف على الكيانات طويلة الذيل أو المفاهيم التي ظهرت مؤخرًا حيث تكون المعرفة البارامترية غير كافية. SimpleVQA (بحث): 79.16%
أداة بايثون – واجهة التعليمات البرمجية لعمليات الاقتصاص والتكبير/التصغير والمربع المحيط على الصور عالية الدقة. الخامس* (بايثون): 95.29% | مقعد الموارد البشرية 4K: 89.13% | مقعد الموارد البشرية 8K: 86.34%

الروبوت يوميا (مهام واجهة المستخدم طويلة المدى للهاتف): الخطوة 3.7 درجات الفلاش 61.87%متقدماً على Kimi K2.6 (53.36%) وGLM 5V Turbo (51.68%). الجوزاء 3 فلاش يتقدم بنسبة 63.21%.

أبلغت StepFun عن الاستخدام الناشئ للأداة التركيبية أثناء الاختبار – حيث يجمع النموذج بين الأدوات المرئية وغير المرئية دون تدريب واضح للقيام بذلك.

الشريحة 6 من 8 — البحث والبحث

معايير البحث والبحث

تم دمج البحث في حلقة الاستدلال الخاصة بالنموذج بدلاً من التعامل معه كوظيفة إضافية خارجية. ركز تدريب StepFun على تخطيط البحث وتصفية الأدلة والتوليف.

المعيار	3.7 فلاش	مقارنة
هلي ث. الأدوات (حسب)	47.20%	فلاش ديب سيك V4: 45.10%
متصفح كومب (acc)	75.82%	كلود أوبوس 4.7: 79.30%
ضمان جودة البحث العميق (F1)	92.82%	كيمي ك2.6: 92.50%
قواعد البحث	71.68%	جي بي تي 5.5: 61.50%

مقارنة HLE: الخطوة 3.5 سجل Flash 35.68% للنص فقط. الخطوة 3.7 حصل Flash على 47.20% من خلال الوصول إلى الأداة – وهذه ليست عمليات تبادل بين التفاحتين.

الشريحة 7 من 8 — النشر

التسعير والنشر والنظام البيئي

نوع الرمز المميز	سعر
الإدخال (ذاكرة التخزين المؤقت المفقودة)	0.20 دولارًا أمريكيًا / مليون رمزًا
الإدخال (ضرب ذاكرة التخزين المؤقت)	0.04 دولار / م من الرموز المميزة
الإخراج	1.15 دولارًا أمريكيًا / مليون رمزًا

متاح على:

منصة ستيب فن
OpenRouter
نفيديا نيم
ديب إنفرا (قريبا)
الألعاب النارية AI (قريبا)
مشروط (قريبا)

الخلفيات الاستدلالية: vLLM، SGLang، Hugging Face Transformers (يتطلب الإصدار 5.0+)، llama.cpp

صيغ التكميم: BF16، FP8، NVFP4، GGUF

الحد الأدنى المحلي: ذاكرة موحدة/VRAM سعة 120 جيجابايت

الشريحة 8 من 8 – الوجبات السريعة الرئيسية

الوجبات السريعة الرئيسية

198B نموذج MoE متفرق مع ~ 11B معلمات نشطة لكل رمز ونافذة سياق 256 كيلو بايت
دعم الوسائط المتعددة الأصلي (الصور وواجهات المستخدم الرسومية والمستندات) – الخطوة 3.5 كان Flash عبارة عن نص فقط
سجل وضع المستشار 76.3% في SWE-Bench Verified بسعر 0.19 دولار/مهمة مقابل Claude Opus 4.6 بسعر 1.76 دولار
ضاقت تباين الترميز المتقاطع من 43-73% (3.5) إلى 64.5-71.5% (3.7)
تم إصدار Apache 2.0 مع أوزان BF16 وFP8 وNVFP4 وGGUF على Hugging Face

الأحزمة المتوافقة:

كلود كود
كيلو كود
وكيل هيرميس
OpenClaw

الوجبات السريعة الرئيسية

الخطوة 3.7 Flash هو نموذج MoE متناثر 198B مع 11B معلمات نشطة ونافذة سياق 256 كيلو بايت.
يعد الدعم الأصلي متعدد الوسائط (الصور وواجهات المستخدم الرسومية والمستندات) جديدًا – الخطوة 3.5 كان Flash عبارة عن نص فقط.
يصل وضع المستشار إلى 97% من أداء SWE-Bench الذي تم التحقق منه لـ Claude Opus 4.6 بسعر 0.19 دولار لكل مهمة مقابل 1.76 دولار.
تم تضييق نطاق تباين الترميز المتقاطع من نطاق 43-73% (3.5 فلاش) إلى 64.5-71.5% (3.7 فلاش).
تم إصداره ضمن Apache 2.0 مع أوزان BF16 وFP8 وNVFP4 وGGUF على Hugging Face.

أين (الاستدلالات) للتشغيل الخطوة 3.7 فلاش

أين يمكن تشغيله

الخطوة 3.7 فلاش – موفري الاستدلال والوصول

نموذج لغة الرؤية 198B MoE الخاص بـ StepFun عبر واجهات برمجة التطبيقات المستضافة والأوزان المفتوحة.

واجهة برمجة التطبيقات المستضافة · مباشر الآن

الأوزان المفتوحة · أباتشي 2.0

تحقق من الأوزان النموذجية, الريبو و التفاصيل الفنية. أيضا، لا تتردد في متابعتنا على تغريد ولا تنسى الانضمام إلينا 150 ألف+ مل من SubReddit والاشتراك في النشرة الإخبارية لدينا. انتظر! هل أنت على برقية؟ الآن يمكنك الانضمام إلينا على التليجرام أيضًا.

هل تحتاج إلى الشراكة معنا للترويج لصفحة GitHub Repo أو صفحة الوجه المعانقة أو إصدار المنتج أو الندوة عبر الويب وما إلى ذلك؟ تواصل معنا

مرتبط

اكتشاف المزيد من كحيل | أخبار التقنية

اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.

Microsoft AI تطلق MAI-Cyber-1-Flash: نموذج إلكتروني ذو 5B-Active-Parameter يدفع MDASH إلى 95.95% في CyberGym

نشر نموذج Bonsai-27B ذو 1 بت باستخدام PrismML llama.cpp وسير عمل الاستدلال المحلي المتوافق مع OpenAI

Kimi AI وkvcache-ai المصادر المفتوحة ‘AgentENV’: نظام موزّع يدعم تدريب التعلم المعزز الوكيل (RL) لـ Kimi K3

ما هي الخطوة 3.7 فلاش؟

ملاحظات الهندسة المعمارية

أداء الترميز الوكيل

وضع المستشار

قدرات الوسائط المتعددة

معايير البحث والبحث

معايير الوكيل العام

أداء طويل السياق

التسعير

الشرح المرئي لـ Marktechpost

ما هي الخطوة 3.7 فلاش؟

ملاحظات الهندسة المعمارية

أداء الترميز الوكيل

وضع المستشار

قدرات الوسائط المتعددة

معايير البحث والبحث

التسعير والنشر والنظام البيئي

الوجبات السريعة الرئيسية

الوجبات السريعة الرئيسية

أين (الاستدلالات) للتشغيل الخطوة 3.7 فلاش

شارك هذا الموضوع:

معجب بهذه:

مرتبط

اكتشاف المزيد من كحيل | أخبار التقنية

المقالات ذات الصلة

Microsoft AI تطلق MAI-Cyber-1-Flash: نموذج إلكتروني ذو 5B-Active-Parameter يدفع MDASH إلى 95.95% في CyberGym

نشر نموذج Bonsai-27B ذو 1 بت باستخدام PrismML llama.cpp وسير عمل الاستدلال المحلي المتوافق مع OpenAI

Kimi AI وkvcache-ai المصادر المفتوحة ‘AgentENV’: نظام موزّع يدعم تدريب التعلم المعزز الوكيل (RL) لـ Kimi K3

اكتشاف المزيد من كحيل | أخبار التقنية