أصدر مختبر الذكاء الاصطناعي StepFun، ومقره شنغهاي، برنامج StepAudio 2.5 Realtime. إنه نموذج لغة كبير للكلام في الوقت الفعلي من طرف إلى طرف مع إمكانات شخصية قابلة للتخصيص بالكامل.

StepAudio 2.5 Realtime هو نموذج صوتي يعمل في الوقت الفعلي. على عكس الأنظمة القائمة على خطوط الأنابيب التي تفصل التعرف على الكلام، والاستدلال، والتركيب إلى خطوات متسلسلة، فإن هذا نموذج شامل. يدخل الصوت ويخرج الصوت من خلال نظام واحد موحد. النموذج يدعم الصينية والإنجليزية.

يتصل عبر WebSocket API. نقطة النهاية هي wss://api.stepfun.com/v1/realtime باستخدام سلسلة النموذج step-2.5-realtime.

الركائز التقنية الثلاث

يصف فريق بحث StepFun ثلاثة ابتكارات معمارية أساسية وراء النموذج:

1. زيادة بيانات الشخصية بمقياس مليوني

بدءًا من أكثر من 10000 شخصية مؤلفة محليًا عالية الجودة، طبقت StepFun التعزيز الخوارزمي لبناء مصفوفة ميزات شخصية بمليون مقياس. وقد تم دمج هذا مع الملايين من نماذج المحادثة الواقعية للتدريب. الهدف هو التعميم – على وجه التحديد، الأداء المستقر في موضوعات المحادثة الصعبة والطويلة.

بدلاً من تصنيف الملايين من عينات الشخصيات يدويًا، استخدم فريق StepFun التوسع الخوارزمي من مجموعة بذور منسقة.

2. محاذاة RLHF الخاصة بلعب الأدوار

أحد أوضاع الفشل المعروفة في الذكاء الاصطناعي للمحادثة هو السلوك “خارج الشخصية” (OOC) – عندما ينجرف النموذج بعيدًا عن شخصيته المحددة في منتصف المحادثة. أجرى فريق StepFun تحسينًا مخصصًا لـ RLHF (التعلم المعزز من التعليقات البشرية) خصيصًا لتحقيق اتساق الشخصية في سيناريوهات لعب الأدوار. RLHF هي تقنية تدريب حيث يتم استخدام إشارات التفضيل البشري لتدريب نموذج المكافأة، والذي يقوم بعد ذلك بتوجيه سلوك نموذج اللغة. يعد تطبيقه خصيصًا على استقرار لعب الأدوار خيارًا مستهدفًا للتصميم.

3. فهم وتوليد الكلام الموحد

يرث StepAudio 2.5 Realtime إمكانات StepAudio 2.5 TTS ويدمج بعمق فهم الكلام وتوليده من خلال التعلم المعزز. يتيح ذلك ما يسميه StepFun “الإعداد النغمي لمستوى المشهد العالمي” و”نحت التفاصيل داخل الجملة”. يمكن للنموذج تعيين سجل عاطفي شامل للاستجابة مع ضبط التفاصيل الصوتية الدقيقة داخل الجمل الفردية.

الفهم شبه اللغوي

المجال المتميز تقنيًا لهذا النموذج هو الإدراك اللغوي. يشير علم Paralinguistics إلى المعلومات الصوتية غير اللفظية في الكلام – أشياء مثل النغمة، ومعدل التحدث، والتوقفات، والتنهدات، والضحك. من خلال تحليل هذه العناصر، يمكن للنموذج إدراك الحالة المزاجية للمستخدم والنوايا الأساسية. على سبيل المثال، يمكنه تحديد التعب الناتج عن انخفاض نغمة الصوت أو الإحباط الناتج عن سرعة الكلام. يتطلب التقاط هذه الإشارات أن يعمل النموذج على ميزات الصوت بدلاً من النص المكتوب وحده.

سجل برنامج StepAudio 2.5 Realtime 82.18 في معيار الفهم اللغوي، مما يدل على إدراك سرعة الصوت والعاطفة والعمر والميزات الصوتية الأخرى.

https://stepaudiollm.github.io/step-audio-2.5-realtime/

النتائج المعيارية

أجرى فريق بحث StepFun مجموعة شاملة من التقييمات الذاتية والموضوعية، ومقارنة StepAudio 2.5 Realtime مع النماذج الصوتية الرائدة في الوقت الفعلي عبر خمسة أبعاد.

يتم إجراء التقييم البشري من خلال محادثات تطبيقات الهاتف المحمول الحقيقية التي سجلها المقيمون البشريون. النتائج:

  • التقييم البشري (ذاتي): 80.41
  • الحوار العام (الهدف): 86.36
  • سيناريو السيارات (الهدف): 84.80
  • ضمان الجودة المنطوق، يغطي 11 مهمة فهم صوتي (الهدف): 79.80
  • الفهم اللغوي (الهدف): 82.18

الوجبات السريعة الرئيسية

  • StepAudio 2.5 Realtime عبارة عن برنامج LLM شامل للكلام في الوقت الفعلي، أصدرته شركة StepFun ومقرها شنغهاي.
  • يستخدم RLHF الخاص بالشخصية وزيادة البيانات بمليون مقياس للحفاظ على اتساق الشخصية المستقر.
  • احتل النموذج المرتبة الأولى في جميع الأبعاد القياسية الخمسة، وتم اختباره في أبريل 2026.
  • يعد الفهم اللغوي – إدراك النغمة والمعدل والعاطفة من الصوت – بمثابة تمييز تقني أساسي.
  • يتم الوصول إلى واجهة برمجة التطبيقات عبر WebSocket على wss://api.stepfun.com/v1/realtime مع سلسلة النموذج step-2.5-realtime.

تحقق من البطاقة النموذجية و تجريبي. أيضا، لا تتردد في متابعتنا على تغريد ولا تنسى الانضمام إلينا 150 ألف+ مل من SubReddit والاشتراك في النشرة الإخبارية لدينا. انتظر! هل أنت على برقية؟ الآن يمكنك الانضمام إلينا على التليجرام أيضًا.

هل تحتاج إلى الشراكة معنا للترويج لصفحة GitHub Repo أو صفحة الوجه المعانقة أو إصدار المنتج أو الندوة عبر الويب وما إلى ذلك؟ تواصل معنا


ميشال سوتر متخصص في علوم البيانات وحاصل على درجة الماجستير في علوم البيانات من جامعة بادوفا. بفضل أساس متين في التحليل الإحصائي والتعلم الآلي وهندسة البيانات، تتفوق ميشال في تحويل مجموعات البيانات المعقدة إلى رؤى قابلة للتنفيذ.

شاركها.
اترك تعليقاً