تدعي Meta أن نموذجها الجديد المولد للفن هو الأفضل في فئتها

على مدار العامين الماضيين ، أصبحت مولدات الصور التي تعمل بالذكاء الاصطناعي سلعة ، إلى حد ما ، بفضل التوافر الواسع للتكنولوجيا – وتقليل الحواجز التقنية حولها. لقد تم نشرها من قبل كل لاعب تقني رئيسي ، بما في ذلك Google و Microsoft ، بالإضافة إلى عدد لا يحصى من الشركات الناشئة التي تسعى للحصول على شريحة من فطيرة الذكاء الاصطناعي المربحة بشكل متزايد.

هذا لا يعني أنها متسقة حتى الآن ، من حيث الأداء – بعيدًا عن ذلك. في حين أن جودة مولدات الصور قد تحسنت ، فقد كان تقدمًا تدريجيًا مؤلمًا في بعض الأحيان.

لكن ميتا يدعي أنه حقق اختراقًا.

أعلنت شركة Meta اليوم عن CM3Leon (“الحرباء” في خطاب خاطئ أخرق) ، وهو نموذج ذكاء اصطناعي تدعي الشركة أنه يحقق أداءً متطورًا لتوليد النص إلى صورة. تتميز CM3Leon أيضًا بكونها واحدة من أول مولدات الصور القادرة على إنشاء تعليقات للصور ، مما يضع الأساس لنماذج أكثر قدرة على فهم الصور للمضي قدمًا ، كما يقول ميتا.

كتب Meta في منشور مدونة تمت مشاركته مع TechCrunch في وقت سابق من هذا الأسبوع: “مع إمكانات CM3Leon ، يمكن لأدوات إنشاء الصور إنتاج صور أكثر تماسكًا تتبع بشكل أفضل مطالبات الإدخال”. “نعتقد أن أداء CM3Leon القوي عبر مجموعة متنوعة من المهام هو خطوة نحو إنشاء صورة وفهم عالي الدقة.”

تعتمد معظم مولدات الصور الحديثة ، بما في ذلك OpenAI’s DALL-E 2 و Imagen من Google و Stable Diffusion ، على عملية تسمى الانتشار لإنشاء الفن. في الانتشار ، يتعلم النموذج كيفية طرح التشويش تدريجيًا من صورة البداية المكونة بالكامل من الضوضاء – مما يجعله أقرب خطوة بخطوة إلى موجه الهدف.

كانت النتائج مبهرة. لكن الانتشار مكثف من الناحية الحسابية ، مما يجعل تشغيله مكلفًا وبطيئًا بدرجة كافية تجعل معظم تطبيقات الوقت الفعلي غير عملية.

CM3Leon هو نموذج محول ، على النقيض من ذلك ، يستفيد من آلية تسمى “الانتباه” لتقييم أهمية بيانات الإدخال مثل النص أو الصور. يمكن أن يؤدي الانتباه والمراوغات المعمارية الأخرى للمحولات إلى زيادة سرعة تدريب النموذج وجعل النماذج أكثر سهولة في الموازاة. يمكن تدريب المحولات الأكبر والأكبر من خلال زيادات كبيرة ولكن لا يمكن تحقيقها في الحوسبة ، بمعنى آخر.

و CM3Leon متساوي أكثر أكثر كفاءة من معظم المحولات ، كما تدعي Meta ، تتطلب حوسبة أقل بخمس مرات ومجموعة بيانات تدريب أصغر من الأساليب السابقة القائمة على المحولات.

ومن المثير للاهتمام ، أن OpenAI استكشفت المحولات كوسيلة لتوليد الصور منذ عدة سنوات باستخدام نموذج يسمى Image GPT. لكنها في النهاية تخلت عن الفكرة لصالح الانتشار – وربما تنتقل قريبًا إلى “الاتساق”.

لتدريب CM3Leon ، استخدمت Meta مجموعة بيانات من ملايين الصور المرخصة من Shutterstock. يحتوي الإصدار الأكثر قدرة من إصدارات CM3Leon العديدة التي أنشأتها Meta على 7 مليارات من المعلمات ، أي أكثر من ضعف عدد DALL-E 2. (المعلمات هي أجزاء النموذج التي تم تعلمها من بيانات التدريب وتحدد بشكل أساسي مهارة النموذج في حل مشكلة ما ، مثل إنشاء نص – أو ، في هذه الحالة ، صور.)

أحد مفاتيح أداء CM3Leon الأقوى هو تقنية تسمى الضبط الدقيق تحت الإشراف أو SFT للاختصار. تم استخدام SFT لتدريب نماذج إنشاء النصوص مثل ChatGPT من OpenAI بشكل كبير ، لكن Meta افترض أنه يمكن أن يكون مفيدًا عند تطبيقه على مجال الصورة أيضًا. في الواقع ، أدى ضبط التعليمات إلى تحسين أداء CM3Leon ليس فقط في إنشاء الصور ولكن في كتابة تعليق الصورة ، مما يمكّنه من الإجابة على الأسئلة حول الصور وتعديل الصور باتباع الإرشادات النصية (على سبيل المثال ، “تغيير لون السماء إلى اللون الأزرق الساطع”).

تكافح معظم منشئي الصور مع الكائنات “المعقدة” والمطالبات النصية التي تتضمن قيودًا كثيرة جدًا. لكن CM3Leon لا يفعل ذلك – أو على الأقل ليس كثيرًا. في عدد قليل من الأمثلة المنتقاة ، كان لدى Meta CM3Leon لإنشاء صور باستخدام موجهات مثل “صبار صغير يرتدي قبعة من القش ونظارة شمسية نيون في الصحراء الكبرى” ، “صورة مقرّبة ليد بشرية ، نموذج يد” ، “حيوان الراكون الرئيسي شخصية في أنمي تستعد لمعركة ملحمية مع سيف ساموراي “و” علامة توقف بأسلوب خيالي مع النص “1991”.

من أجل المقارنة ، قمت بتشغيل نفس المطالبات من خلال DALL-E 2. كانت بعض النتائج متقاربة. لكن صور CM3Leon كانت بشكل عام أقرب إلى الموجه وأكثر تفصيلاً لعيني ، وكانت اللافتات هي المثال الأكثر وضوحًا. (حتى وقت قريب ، تعاملت نماذج الانتشار مع كل من النص والتشريح البشري بشكل سيء نسبيًا).

مولد صورة ميتا. اعتمادات الصورة: ميتا

نتائج DALL-E 2. اعتمادات الصورة: DALL-E 2

يمكن لـ CM3Leon أيضًا فهم التعليمات لتحرير الصور الموجودة. على سبيل المثال ، بالنظر إلى المطالبة “إنشاء صورة عالية الجودة لـ” غرفة بها مغسلة ومرآة بها “مع زجاجة في الموقع (199 ، 130)” ، يمكن للنموذج إنشاء شيء متماسك بصريًا ، وكما يقول ميتا ، “مناسب للسياق” – غرفة ، حوض ، مرآة ، زجاجة وكل شيء. يفشل DALL-E 2 تمامًا في التعرف على الفروق الدقيقة في مثل هذه المطالبات ، وفي بعض الأحيان يتم حذف العناصر المحددة في الموجه تمامًا.

وبالطبع ، على عكس DALL-E 2 ، يمكن لـ CM3Leon اتباع مجموعة من المطالبات لإنشاء تسميات توضيحية قصيرة أو طويلة والإجابة على أسئلة حول صورة معينة. في هذه المناطق ، كان أداء النموذج أفضل من نماذج التسميات التوضيحية للصور المتخصصة (مثل Flamingo و OpenFlamingo) على الرغم من رؤية نص أقل في بيانات التدريب الخاصة به ، كما تدعي Meta.

لكن ماذا عن التحيز؟ تم العثور على نماذج الذكاء الاصطناعي التوليدية مثل DALL-E 2 لتعزيز التحيزات المجتمعية ، حيث تولد صورًا لمناصب السلطة – مثل “المدير التنفيذي” أو “المدير” – التي تصور في الغالب الرجال البيض. يترك Meta هذا السؤال دون معالجة ، قائلاً فقط أن CM3Leon “يمكن أن يعكس أي تحيزات موجودة في بيانات التدريب.”

كتبت الشركة: “مع استمرار تطور صناعة الذكاء الاصطناعي ، أصبحت النماذج التوليدية مثل CM3Leon متطورة بشكل متزايد”. “بينما لا تزال الصناعة في مراحلها الأولى من فهم هذه التحديات ومعالجتها ، نعتقد أن الشفافية ستكون مفتاحًا لتسريع التقدم.”

لم تذكر Meta ما إذا كانت – أو متى – تخطط لإصدار CM3Leon. نظرًا للجدل الذي يدور حول مولدات الفن مفتوحة المصدر ، لن أحبس أنفاسي.