تم شحن الذكاء الاصطناعي السائل للتو LFM2.5-8B-A1B. وهو عبارة عن نموذج خليط من الخبراء (MoE) الموجود على الجهاز والذي تم تصميمه لاستدعاء الأدوات. يحتوي النموذج على 8.3 مليار معلمة إجمالية ولكنه ينشط 1.5 مليار فقط لكل رمز مميز. هذا التناثر هو ما يتيح تشغيله على الأجهزة الاستهلاكية.

يأتي الإصدار بعد LFM2-8B-A1B، الذي نشره فريق Liquid AI سابقًا. LFM2.5 هي عائلة جديدة من النماذج الهجينة للنشر على الجهاز. يضيف هذا الإصدار نافذة سياق بحجم 128 كيلو بايت، واستدلالًا، وتدريبًا موسعًا.

ما هو LFM2.5-8B-A1B

يستخدم النموذج تصميم MoE المتناثر. يقوم بتنشيط 1.5B من إجمالي 8.3B من المعلمات لكل تمريرة أمامية. وهذا يبقي كل رمز مميز تم إنشاؤه رخيصًا لحسابه.

تتكون البنية من 24 طبقة. ثمانية عشر عبارة عن كتل تلافيفية ذات بوابات مزدوجة LIV؛ ستة هي طبقات GQA. فهو يجمع بين MoE وGQA وكتل تلافيفية قصيرة مسورة. طول السياق هو 131.072 رمزًا. يغطي النموذج تسع لغات، بما في ذلك العربية والصينية واليابانية.

يوصي فريق Liquid AI بدرجة حرارة 0.2، وأعلى درجة حرارة 80، وعقوبة التكرار 1.05.

على عكس سابقه، يعد LFM2.5-8B-A1B نموذجًا للاستدلال فقط. وتنتج سلسلة واضحة من الأفكار قبل إجابتها النهائية. اختار فريق Liquid AI هذا لأن نماذج MoE تعمل في إعدادات مرتبطة بالحوسبة. إن عدد المعلمات النشطة الأصغر يجعل كل رمز منطقي غير مكلف.

ما الذي تغير منذ LFM2-8B-A1B

قام Liquid بتوسيع نافذة السياق من 32768 إلى 128000 رمزًا. تم زيادة التدريب المسبق من 12T إلى 38T من الرموز. تضاعفت المفردات من 65.536 إلى 128.000 رمزًا.

تعمل المفردات الأكبر حجمًا على ترميز النصوص غير اللاتينية بشكل أكثر كفاءة. أبلغ فريق Liquid AI عن أقوى مكاسب الضغط باللغات الهندية والتايلاندية والفيتنامية والإندونيسية والعربية. تظل بقية البنية كما هي LFM2-8B-A1B.

كيف قام الذكاء الاصطناعي السائل بتدريبه

قام فريق Liquid AI بتوسيع الرمز المميز في مكانه بدلاً من إعادة التدريب من الصفر. لقد استمر في التدريب على دمج BPE من عمليات الدمج الأصلية في مجموعة متعددة اللغات. تتم تهيئة صفوف التضمين الجديدة كوسيلة لتحليل الرموز الفرعية الخاصة بها. ومن ثم يستعيد التكيف القصير على مرحلتين الجودة.

جاء امتداد السياق على مرحلتين. وصلت مرحلة التدريب المتوسط ​​لرمز 2T إلى 32 ألفًا، مع التركيز على التفكير والرياضيات واستخدام الأدوات. وصل رفع قاعدة RoPE θ، بالإضافة إلى مرحلة الرمز المميز 400B، إلى 128 ألفًا.

تستهدف مرحلتان للتعلم المعزز أوضاع الفشل المعروفة. تعمل مرحلة تحسين التفضيل على تقليل “حلقات الموت” في مسارات التفكير الطويلة. إنه يعيد توزيع كتلة الاحتمالية نحو البدائل المعقولة. تعمل مكافأة تشكيل RL المنفصلة على تثبيط كلمات إعادة التشغيل المحفزة للحلقة مثل “انتظر…”. تستخدم مرحلة RL أخرى مكافأة تعتمد على متوسط ​​@k لتقليل الهلوسة. والهدف هو الامتناع عن الأسئلة التي تتجاوز المعرفة الموثوقة.

https://www.liquid.ai/blog/lfm2-5-8b-a1b

القضية المرجعية

تم تحسين LFM2.5-8B-A1B مقارنة بسابقه في جميع المجالات. قفز معدل عدم الهلوسة AA-Omniscience من 7.46 إلى 63.47. وارتفع مؤشر IFEval من 79.44 إلى 91.84. ارتفع MATH500 من 74.80 إلى 88.76. ارتفع سهم Tau² Telecom من 13.60 إلى 88.07.

قام فريق Liquid AI بمقارنة النموذج بالبدائل الكثيفة وMoE. وفقًا للتعليمات التالية، فإنه يطابق Gemma-4-26B-A4B-IT على IFEval. وهو يفعل ذلك بجزء صغير من عدد المعلمات النشطة. في Tau² Telecom، حصلت على 88.07، متقدمة على الموديلات الأكبر بكثير.

تؤدي المكافأة المتوسطة إلى معدل هلوسة أقل بكثير. تظل الدقة معقولة بالنسبة لحجم النموذج. فيما يتعلق بمعايير الوكيل، تظل قادرة على المنافسة مع النماذج الأكبر.

المعيار LFM2-8B-A1B LFM2.5-8B-A1B Δ
AA-معدل عدم الهلوسة في كلي العلم 7.46 63.47 +56.01
IFEval 79.44 91.84 +12.40
الرياضيات500 74.80 88.76 +13.96
تاو² للاتصالات 13.60 88.07 +74.47

يأتي النموذج مع دعم اليوم الأول عبر النظام البيئي للاستدلال. تتضمن الأطر llama.cpp وMLX وvLLM وSGLang. يتم أيضًا دعم منصة ONNX وLiquid’s LEAP edge.

على وحدة المعالجة المركزية، يقوم بفك تشفير 253 رمزًا/ثانية على M5 Max. يصل إلى 146 رمزًا / ثانية على Ryzen AI Max + 395. ويظل أقل من 6 جيجابايت من الذاكرة طوال الوقت. على الهاتف، يحمل حوالي 30 رمزًا/ثانية.

على جهاز NVIDIA H100 SXM5 واحد، يصل إنتاجية الإخراج إلى 18.5 ألف رمز في الثانية. وهذا يزيد عن 1.6 مليار رمز يوميًا بتزامن عالٍ.

لاستخدام الأداة، يكتب LFM2.5 استدعاءات دالة Pythonic افتراضيًا. تظهر بين <|tool_call_start|> و <|tool_call_end|> الرموز الخاصة. يمكنك تجاوز هذا إلى JSON في موجه النظام.

نقاط القوة وماذا تشاهد

نقاط القوة:

  • ينشط 1.5 مليار معلمة فقط، مما يجعل الاستدلال رخيصًا على الأجهزة المتطورة
  • تعليمات تنافسية ودرجات وكيلة لفئة حجمها
  • نافذة سياق 128 كيلو بايت وتغطية بتسع لغات
  • وزن مفتوح بموجب ترخيص LFM1.0، مع نقاط تفتيش أساسية وما بعد التدريب

ما يجب مشاهدته:

  • قدرة معرفية محدودة من عدد المعلمات النشطة الصغيرة
  • لا يصلح للبرمجة الثقيلة أو ضمان الجودة كثيفة المعرفة دون استرجاعها
  • يضيف الإخراج المنطقي فقط رموزًا مميزة لسلسلة الأفكار إلى كل منعطف
  • نص فقط؛ هذا المتغير لا يحتوي على رؤية أو إدخال صوتي

الشرح المرئي لـ Marktechpost

دليل الطراز الموجود على الجهاز

LFM2.5-8B-A1B

نموذج Mixture of Experts الموجود على الجهاز من Liquid AI، مصمم لاستدعاء الأدوات والتعليمات المعقدة التي تتبع الأجهزة الاستهلاكية.

8.3 ب مجموع المعلمات
1.5 ب نشيط
128 ألف سياق
الاستدلال فقط
الوزن المفتوح

ما هو؟

وزارة التعليم المتفرقة التي تقوم بتنشيط 1.5 مليار من 8.3 مليار معلمة لكل رمز مميز

  • 24 طبقة – 18 كتلة إلتواء LIV مزدوجة البوابات بالإضافة إلى 6 طبقات GQA.
  • يجمع وزارة التربية والتعليم, GQA، و التفاف قصير مسور كتل.
  • طول السياق 131,072 الرموز؛ يغطي 9 لغات.
  • الاستدلال فقط: ينتج سلسلة واضحة من الأفكار قبل الإجابة.
  • المعلمات الموصى بها: درجة الحرارة 0.2, توب_ك 80, التكرار_عقوبة 1.05.

ما الذي تغير منذ LFM2-8B-A1B

سياق أكبر، مزيد من التدريب، ومفردات أوسع

نافذة السياق

32,768 ← 128,000

يعالج المستندات الأطول والأسباب لفترة أطول.

رموز ما قبل التدريب

12 طن → 38 طن

تدريب مسبق موسع بالإضافة إلى RL واسع النطاق.

حجم المفردات

65,536 ← 128,000

يقوم بترميز النصوص غير اللاتينية بشكل أكثر كفاءة.

أفضل مكاسب الضغط

5 لغات

الهندية، التايلاندية، الفيتنامية، الإندونيسية، العربية.

كيف تم تدريبه

امتداد Tokenizer، نمو السياق المرحلي، RL المستهدف

  • رمز مميز: تم تمديده، مع استمرار التدريب على دمج BPE في مجموعة متعددة اللغات.
  • سياق: مرحلة التدريب المتوسط ​​2T-token إلى 32K، ثم RoPE base θ بالإضافة إلى 400B من الرموز المميزة إلى 128K.
  • حلقات الموت: يؤدي تحسين التفضيل إلى إعادة توزيع كتلة الاحتمالية نحو البدائل المعقولة.
  • تعمل مكافأة تشكيل RL المنفصلة على تثبيط كلمات إعادة التشغيل المحفزة للحلقة مثل “انتظر…”.
  • الهلوسة: تشجع مكافأة RL المستندة إلى avg@k على الامتناع عن التصويت بما يتجاوز المعرفة الموثوقة.

المعايير مقابل LFM2-8B-A1B

أكبر المكاسب في عدم الهلوسة واستخدام الأدوات

المعيار LFM2 LFM2.5 Δ
AA-معدل عدم الهلوسة في كلي العلم 7.46 63.47 +56.01
IFEval 79.44 91.84 +12.40
الرياضيات500 74.80 88.76 +13.96
تاو² للاتصالات 13.60 88.07 +74.47

في IFEval، يطابق Gemma-4-26B-A4B-IT بجزء صغير من عدد المعلمات النشطة.

أداء الاستدلال

سريع على وحدة المعالجة المركزية ووحدة معالجة الرسومات، مع دعم إطار العمل ليوم واحد

فك تشفير وحدة المعالجة المركزية

253 توك / ثانية

M5 ماكس، أقل من 6 جيجابايت من الذاكرة. 146 tok/s على Ryzen AI Max+ 395.

على الهاتف

~30 توك / ثانية

يعمل محليا وبشكل خاص على الجهاز.

إنتاجية وحدة معالجة الرسومات

18.5 ألف توك/ثانية

التزامن العالي، > 1.6 مليار رمز/اليوم على H100 واحد.

دعم اليوم الأول

llama.cpp، MLX، vLLM، SGLang.

أيضًا ONNX و Liquid’s LEAP.

استخدام الأداة والوكلاء

استدعاءات دالة بايثونية، جاهزة للوكلاء الموجودين على الجهاز

  • افتراضيا، يكتب استدعاءات الدالة البايثونية بين <|tool_call_start|> و <|tool_call_end|> الرموز.
  • يمكنك تجاوز هذا ل JSON استدعاءات الوظائف في موجه النظام.
  • ال LocalCowork يعمل التجريبي 67 أداة عير 13 خوادم MCP.
  • إنه يعمل على كمبيوتر محمول واحد – بدون سحابة، ولا مفاتيح API، ولا توجد بيانات تغادر الجهاز.

تشغيله

خدمة في سطرين، أو تحميل مباشرة

# Serve with vLLM (OpenAI-compatible API)
pip install vllm
vllm serve "LiquidAI/LFM2.5-8B-A1B"

# Or load directly with Transformers
from transformers import AutoModelForCausalLM, AutoTokenizer
model_id = "LiquidAI/LFM2.5-8B-A1B"
model = AutoModelForCausalLM.from_pretrained(
    model_id, device_map="auto", dtype="bfloat16")
tokenizer = AutoTokenizer.from_pretrained(model_id)

الموصى بها ل

سير العمل الوكيل
استخدام الأداة
المخرجات المنظمة
مساعدين متعددي اللغات
المساعدين على الجهاز

أقل ملاءمة ل

البرمجة الثقيلة
ضمان الجودة كثيفة المعرفة دون استرجاعها

الوجبات السريعة الرئيسية

  • يحتوي LFM2.5-8B-A1B الخاص بـ Liquid AI على 8.3 مليار معلمة إجمالية ولكنه ينشط 1.5 مليار فقط لكل رمز مميز.
  • إنه منطقي فقط، مع نافذة سياق بحجم 128 كيلو بايت وتغطية بتسع لغات.
  • قفز معدل عدم الهلوسة من 7.46 إلى 63.47 على LFM2-8B-A1B؛ وصلت IFEval إلى 91.84.
  • يقوم بفك تشفير 253 tok/s على M5 Max أقل من 6 جيجابايت، و~30 tok/s على الهاتف.
  • يمتد دعم اليوم الأول إلى llama.cpp وMLX وvLLM وSGLang، مع قاعدة مفتوحة وأوزان ما بعد التدريب.

تحقق من الأوزان النموذجية و التفاصيل الفنية. أيضا، لا تتردد في متابعتنا على تغريد ولا تنسى الانضمام إلينا 150 ألف+ مل من SubReddit والاشتراك في النشرة الإخبارية لدينا. انتظر! هل أنت على برقية؟ الآن يمكنك الانضمام إلينا على التليجرام أيضًا.

هل تحتاج إلى الشراكة معنا للترويج لصفحة GitHub Repo أو صفحة الوجه المعانقة أو إصدار المنتج أو الندوة عبر الويب وما إلى ذلك؟ تواصل معنا



اكتشاف المزيد من كحيل للتقنية | أخبار التقنية والذكاء الاصطناعي وشروحات الويب

اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.

شاركها.
اترك تعليقاً

اكتشاف المزيد من كحيل للتقنية | أخبار التقنية والذكاء الاصطناعي وشروحات الويب

اشترك الآن للاستمرار في القراءة والحصول على حق الوصول إلى الأرشيف الكامل.

Continue reading