أصدرت StepFun اليوم Step 3.7 Flash، وهو نموذج متعدد الوسائط لمزيج من الخبراء يستهدف حالات الاستخدام الوكيل. فهو يضيف مدخلات رؤية أصلية وموثوقية محسنة لاستخدام الأداة مقارنة بالخطوة 3.5 فلاش.
ما هي الخطوة 3.7 فلاش؟
الخطوة 3.7 فلاش هو 198B-معلمة نموذج لغة الرؤية المتناثر لخليط الخبراء (MoE). إنه أزواج أ 196B-العمود الفقري للغة المعلمة مع أ جهاز تشفير الرؤية بمعلمة 1.8B (ViT) لفهم الصورة الأصلية.
يتم تنشيط النموذج تقريبًا 11B معلمات لكل رمز أثناء الاستدلال. في تصميمات وزارة البيئة، يتم تشغيل مجموعة فرعية فقط من الشبكات الفرعية “الخبيرة” لكل تمريرة أمامية – وليس الشبكة بأكملها. يؤدي هذا إلى إبقاء حساب الاستدلال أقرب إلى نموذج كثيف يبلغ 11B مع الحفاظ على ميزانية إجمالية للمعلمات تبلغ 198B.
المواصفات الرئيسية:
| المواصفات | قيمة |
|---|---|
| مجموع المعلمات | 198B (لغة 196B + 1.8B ViT) |
| المعلمات النشطة لكل رمز مميز | ~11ب |
| نافذة السياق | 256 ألف رمز |
| الإنتاجية | ما يصل إلى 400 رمز/ثانية |
| مستويات الاستدلال | منخفضة، متوسطة، عالية |
| رخصة | أباتشي 2.0 |
ملاحظات الهندسة المعمارية
يعمل جهاز تشفير الرؤية كوحدة منفصلة 1.8B ViT. يقوم بإدخال تمثيلات الصور في سياق العمود الفقري للغة. الخطوة 3.5 لم يكن لدى Flash أي دعم متعدد الوسائط؛ هذه إضافة جديدة في 3.7.
تتيح ثلاثة أعماق تفكير قابلة للتحديد – منخفضة ومتوسطة وعالية – للمطورين استبدال زمن الاستجابة بعمق التفكير. منخفض أسرع وأرخص. عالي يطبق المزيد من الحسابات لكل استجابة.
أداء الترميز الوكيل
على سوي-مقعد بروالخطوة 3.7 درجات الفلاش 56.26%، أعلى من نسبة 51.3% التي حققها Flash في الخطوة 3.5 — وهي زيادة قدرها 5 نقاط مئوية تقريبًا. على المحطة الطرفية 2.1، فإنه يسجل 59.55%ارتفاعا من 53.37%.
على سويس-MTLG (معيار ترميز طويل الأمد متعدد المهام)، فإنه يسجل نتائج 72.42%.
تناسق السرج المتقاطع على الجزء الداخلي من StepFun خطوة سوي-مقعد:
| سقالة | الخطوة 3.7 فلاش | الخطوة 3.5 فلاش |
|---|---|---|
| وكيل هيرميس | 67.5% | 60.0% |
| OpenClaw | 67.0% | 47.0% |
| كيلو كود | 67.5% | 59.0% |
| كود روك | 64.5% | 43.0% |
| كلود كود | 71.5% | 73.0% |
| كود مفتوح | 64.5% | 57.0% |
الخطوة 3.5 تراوحت نسبة الفلاش من 43% إلى 73% عبر الأحزمة. الخطوة 3.7 يتراوح الفلاش من 64.5% إلى 71.5%. في الإنتاج، غالبًا ما تعمل وكلاء التشفير داخل سقالات غير متجانسة، ولكل منها اتفاقياتها الدافعة ومخططات الأدوات الخاصة بها. يعني التباين الأضيق لكل تسخير سلوكًا أكثر قابلية للتنبؤ عبر الإعدادات المختلفة.
وضع المستشار
الخطوة 3.7 يدعم الفلاش وضع المستشار، تنفيذ StepFun لاستراتيجية المستشار التي وصفتها Anthropic. يقوم النموذج بتشغيل حلقة الوكيل من البداية إلى النهاية – أدوات الاتصال، وقراءة النتائج، والتكرار – ويتصاعد إلى نموذج مستشار أكبر فقط عند نقاط انعطاف محددة، مثل التخطيط أو التعافي من حالات الفشل المتكررة. يبقى معظم التشغيل على تكلفة المنفذ.
مع تمكين وضع المستشار في SWE-Bench Verified، يبلغ StepFun عن وصول فلاش إلى الخطوة 3.7 97% من أداء البرمجة لـ Claude Opus 4.6 بحوالي تسع تكلفة المهمة الواحدة (0.19 دولار مقابل 1.76 دولار لكل مهمة). هذه هي الشخصيات الداخلية لـ StepFun.
قدرات الوسائط المتعددة
الخطوة 3.7 يدعم Flash مسارين للأدوات المرئية:
أداة البحث المرئي — بالنسبة لمهام التعرف التي تكون فيها المعرفة البارامترية للنموذج غير كافية (الكيانات الطويلة، والمفاهيم التي ظهرت مؤخرًا)، فإنها تستدعي أداة بحث مرئية للاسترجاع والتحقق. على SimpleVQA (مع البحث)، فإنه يسجل 79.16%، يمكن مقارنته بـ GPT 5.5 (79.11%) وما فوق Kimi K2.6 (78.24%) وGLM 5V Turbo (78.20%).
أداة بايثون – بالنسبة للمهام المرئية الدقيقة (الصور عالية الدقة، والفحص البصري، وتحليل المربع المحيط)، فإنها تستخدم واجهة تعليمات برمجية لاقتصاص وحدات البكسل أو المربعات المحيطة، أو تكبيرها/تصغيرها، أو رسمها. على V (نتيجة تم اختبارها ذاتيًا باستخدام بايثون)، فهي تسجل نتائج 95.29%. على الموارد البشرية-مقعد 4K و الموارد البشرية-مقعد 8K، فإنه يسجل 89.13% و 86.34% على التوالى.
يلاحظ StepFun سلوكًا ملحوظًا أثناء الاختبار: قام النموذج بدمج الأدوات المرئية مع الأدوات غير المرئية دون تدريبه بشكل صريح على القيام بذلك. على سبيل المثال، بعد إنشاء كود الواجهة الأمامية، تم استخدام واجهة المستخدم الرسومية لعرض النتيجة وفحصها قبل التكرار. يصف StepFun هذا بأنه استخدام أداة تركيبية ناشئة.
على الروبوت يوميا (إكمال مهمة واجهة مستخدم الهاتف طويلة المدى)، الخطوة 3.7 درجات الفلاش 61.87%متقدماً على Kimi K2.6 (53.36%) وGLM 5V Turbo (51.68%). يتصدر Gemini 3 Flash (63.21%) هذا المعيار.
معايير البحث والبحث
ركزت StepFun تصميم البحث لهذا النموذج على التخطيط وتصفية الأدلة والتوليف – ودمج البحث كجزء من حلقة الاستدلال بدلاً من وظيفة إضافية منفصلة.
| المعيار | الخطوة 3.7 فلاش | مقارنة ملحوظة |
|---|---|---|
| HLE مع الأدوات (acc) | 47.20% | فلاش ديب سيك V4: 45.10% |
| متصفح كومب (acc) | 75.82% | كلود أوبوس 4.7: 79.30% |
| ضمان جودة البحث العميق (F1) | 92.82% | كيمي ك2.6: 92.50% |
| معايير البحث (النتيجة) | 71.68% | جي بي تي 5.5: 61.50% |
ملاحظة: تبلغ درجة HLE مع الأدوات 47.20% مقارنة بدرجة النص فقط للخطوة 3.5 Flash البالغة 35.68%. الخطوة 3.5 لم يدعم Flash التقييم المعزز بالأداة على HLE.
معايير الوكيل العام
| المعيار | الخطوة 3.7 فلاش | وصف |
|---|---|---|
| سباق الأدوات | 49.51% | التنسيق بين الأدوات المتعددة |
| ClawEval-1.1 | 67.07% | تنفيذ المهام المستقلة اليومية في بيئات واقعية |
| الناتج المحلي الإجمالي (44 مهنة) | 45.8% | تنفيذ المهام المهنية العامة |
| Tau2-مقعد للاتصالات | > 98% | عبر مستويات صعوبة التفكير المختلفة |
في ClawEval-1.1، تتفوق الخطوة 3.7 Flash (67.07%) على DeepSeek V4 Flash (57.80%) وDeepSeek V4 Pro (59.80%) بين النماذج المقارنة.
أداء طويل السياق
على أأ-لكر (مقياس استرجاع طويل السياق، متوسط 16/acc)، الخطوة 3.7 درجات فلاش 63.94%. وهذا مشابه لـ DeepSeek V4 Flash (63.70%) و DeepSeek V4 Pro (66.30%).
التسعير
| نوع الرمز المميز | سعر |
|---|---|
| الإدخال (ذاكرة التخزين المؤقت المفقودة) | 0.20 دولارًا أمريكيًا / مليون رمزًا |
| الإدخال (ضرب ذاكرة التخزين المؤقت) | 0.04 دولار / م من الرموز المميزة |
| الإخراج | 1.15 دولارًا أمريكيًا / مليون رمزًا |
الشرح المرئي لـ Marktechpost
الوجبات السريعة الرئيسية
- الخطوة 3.7 Flash هو نموذج MoE متناثر 198B مع 11B معلمات نشطة ونافذة سياق 256 كيلو بايت.
- يعد الدعم الأصلي متعدد الوسائط (الصور وواجهات المستخدم الرسومية والمستندات) جديدًا – الخطوة 3.5 كان Flash عبارة عن نص فقط.
- يصل وضع المستشار إلى 97% من أداء SWE-Bench الذي تم التحقق منه لـ Claude Opus 4.6 بسعر 0.19 دولار لكل مهمة مقابل 1.76 دولار.
- تم تضييق نطاق تباين الترميز المتقاطع من نطاق 43-73% (3.5 فلاش) إلى 64.5-71.5% (3.7 فلاش).
- تم إصداره ضمن Apache 2.0 مع أوزان BF16 وFP8 وNVFP4 وGGUF على Hugging Face.
أين (الاستدلالات) للتشغيل الخطوة 3.7 فلاش
أين يمكن تشغيله
الخطوة 3.7 فلاش – موفري الاستدلال والوصول
نموذج لغة الرؤية 198B MoE الخاص بـ StepFun عبر واجهات برمجة التطبيقات المستضافة والأوزان المفتوحة.
واجهة برمجة التطبيقات المستضافة · مباشر الآن
الأوزان المفتوحة · أباتشي 2.0
تحقق من الأوزان النموذجية, الريبو و التفاصيل الفنية. أيضا، لا تتردد في متابعتنا على تغريد ولا تنسى الانضمام إلينا 150 ألف+ مل من SubReddit والاشتراك في النشرة الإخبارية لدينا. انتظر! هل أنت على برقية؟ الآن يمكنك الانضمام إلينا على التليجرام أيضًا.
هل تحتاج إلى الشراكة معنا للترويج لصفحة GitHub Repo أو صفحة الوجه المعانقة أو إصدار المنتج أو الندوة عبر الويب وما إلى ذلك؟ تواصل معنا
