هذا الأسبوع في AI: تراهن التكنولوجيا الكبيرة على أدوات التعلم الآلي بالمليارات
إن مواكبة صناعة سريعة الحركة مثل الذكاء الاصطناعي هي مهمة صعبة. لذا حتى يتمكن الذكاء الاصطناعي من القيام بذلك نيابةً عنك ، إليك تقريرًا مفيدًا عن قصص الأسبوع الماضي في عالم التعلم الآلي ، جنبًا إلى جنب مع الأبحاث والتجارب البارزة التي لم نقم بتغطيتها بمفردها.
إذا لم يكن الأمر واضحًا بالفعل ، فإن المشهد التنافسي في الذكاء الاصطناعي – لا سيما الحقل الفرعي المعروف باسم الذكاء الاصطناعي التوليدي – شديد السخونة. وتزداد سخونة. هذا الأسبوع ، أطلقت Dropbox أول صندوق استثماري مؤسسي ، Dropbox Ventures ، والذي قالت الشركة إنه سيركز على الشركات الناشئة التي تبني منتجات مدعومة بالذكاء الاصطناعي “تشكل مستقبل العمل”. حتى لا يتم تجاوزها ، أطلقت AWS لأول مرة برنامجًا بقيمة 100 مليون دولار لتمويل مبادرات الذكاء الاصطناعي التوليدية التي يقودها شركاؤها وعملائها.
هناك الكثير من الأموال التي يتم إلقاؤها في فضاء الذكاء الاصطناعي ، بالتأكيد. يخطط قسم Salesforce Ventures ، قسم رأس المال الاستثماري في Salesforce ، إلى ضخ 500 مليون دولار في الشركات الناشئة التي تعمل على تطوير تقنيات الذكاء الاصطناعي التوليدية. أضافت Workday مؤخرًا 250 مليون دولار إلى صندوق رأس المال الاستثماري الحالي لدعم الشركات الناشئة في مجال الذكاء الاصطناعي والتعلم الآلي. وأعلنت شركتا Accenture و PwC أنهما تخططان لاستثمار 3 مليارات دولار ومليار دولار على التوالي في الذكاء الاصطناعي.
لكن المرء يتساءل ما إذا كان المال هو الحل للتحديات البارزة في مجال الذكاء الاصطناعي.
في لوحة مستنيرة خلال مؤتمر بلومبيرج في سان فرانسيسكو هذا الأسبوع ، ميريديث ويتاكر ، رئيس تطبيق المراسلة الآمنة Signal ، أوضح أن التكنولوجيا التي تدعم بعض تطبيقات الذكاء الاصطناعي الأكثر صخبًا اليوم أصبحت غامضة بشكل خطير. أعطت مثالاً لشخص دخل إلى أحد البنوك وطلب قرضًا.
يمكن رفض هذا الشخص للحصول على القرض وليس لديه فكرة عن وجود نظام [the] قال ويتاكر: “من المحتمل أن تكون مدعومة من قبل بعض Microsoft API التي حددت ، بناءً على وسائل التواصل الاجتماعي المكسورة ، أنني لست جديراً بالائتمان”. “لن أعرف أبدًا [because] لا توجد آلية بالنسبة لي لمعرفة ذلك “.
ليس رأس المال هذا هو الموضوع. يقول ويتاكر إنه بالأحرى هو التسلسل الهرمي الحالي للسلطة.
“لقد كنت على الطاولة منذ 15 عامًا و 20 عامًا. لدي كان على الطاولة. إن التواجد على الطاولة بلا قوة لا شيء “.
بطبيعة الحال ، فإن تحقيق التغيير الهيكلي أصعب بكثير من البحث عن النقود – لا سيما عندما لا يكون التغيير الهيكلي بالضرورة في صالح القوى الموجودة. ويحذر ويتاكر مما قد يحدث إذا لم يكن هناك معارضة كافية.
مع تسارع التقدم في الذكاء الاصطناعي ، تتسارع التأثيرات المجتمعية أيضًا ، وسنواصل السير في “طريق مليء بالضجيج نحو الذكاء الاصطناعي” ، كما قالت ، “حيث يتم ترسيخ هذه القوة وتجنيسها تحت ستار الذكاء ويتم مراقبتنا من أجل النقطة [of having] وكالة قليلة جدًا جدًا على حياتنا الفردية والجماعية “.
الذي – التي يجب توقف الصناعة. سواء كان ذلك في الواقع سوف هي مسألة أخرى. من المحتمل أن يكون هذا شيئًا سنسمعه نناقشه عندما تصعد على المسرح في Disrupt في سبتمبر.
فيما يلي عناوين أخرى للذكاء الاصطناعي تم ملاحظتها من الأيام القليلة الماضية:
- يتحكم الذكاء الاصطناعي في DeepMind في الروبوتات: تقول DeepMind إنها طورت نموذجًا للذكاء الاصطناعي ، يسمى RoboCat ، يمكنه أداء مجموعة من المهام عبر نماذج مختلفة من الأذرع الروبوتية. هذا وحده ليس جديدًا بشكل خاص. لكن DeepMind تدعي أن النموذج هو أول من يتمكن من حل مهام متعددة والتكيف معها ويقوم بذلك باستخدام روبوتات مختلفة في العالم الحقيقي.
- تعلم الروبوتات من يوتيوب: بالحديث عن الروبوتات ، عرض الأستاذ المساعد في معهد CMU Robotics ، Deepak Pathak هذا الأسبوع VRB (Vision-Robotics Bridge) ، وهو نظام ذكاء اصطناعي مصمم لتدريب الأنظمة الروبوتية من خلال مشاهدة تسجيل للإنسان. يراقب الروبوت بعض المعلومات الأساسية ، بما في ذلك نقاط الاتصال والمسار ، ثم يحاول تنفيذ المهمة.
- يدخل Otter في لعبة chatbot: أعلنت خدمة النسخ التلقائي Otter عن برنامج محادثة جديد يعمل بالذكاء الاصطناعي هذا الأسبوع سيسمح للمشاركين بطرح الأسئلة أثناء الاجتماع وبعده ومساعدتهم على التعاون مع زملائهم في الفريق.
- يدعو الاتحاد الأوروبي إلى تنظيم الذكاء الاصطناعي: يقف المنظمون الأوروبيون على مفترق طرق حول كيفية تنظيم الذكاء الاصطناعي – واستخدامه في النهاية تجاريًا وغير تجاري – في المنطقة. هذا الأسبوع ، أثنت أكبر مجموعة مستهلكين في الاتحاد الأوروبي ، وهي منظمة المستهلك الأوروبية (BEUC) ، في موقفها الخاص: توقف عن التباطؤ ، و “ابدأ تحقيقات عاجلة في مخاطر الذكاء الاصطناعي التوليدي” الآن ، على حد قولها.
- يطلق Vimeo ميزات مدعومة بالذكاء الاصطناعي: أعلن Vimeo هذا الأسبوع عن مجموعة من الأدوات التي تعمل بالذكاء الاصطناعي المصممة لمساعدة المستخدمين على إنشاء نصوص وتسجيل لقطات باستخدام جهاز قراءة مدمج وإزالة فترات التوقف الطويلة والأمور غير المرغوب فيها مثل “ahs” و “ums” من التسجيلات.
- عاصمة للأصوات الاصطناعية: جمعت ElevenLabs ، المنصة الفيروسية المدعومة بالذكاء الاصطناعي لإنشاء أصوات اصطناعية ، 19 مليون دولار في جولة تمويل جديدة. اكتسب ElevenLabs زخمًا سريعًا إلى حد ما بعد إطلاقه في أواخر يناير. لكن الدعاية لم تكن دائمًا إيجابية – خاصة عندما بدأ الفاعلون السيئون في استغلال المنصة لتحقيق غاياتهم الخاصة.
- تحويل الصوت إلى نص: أطلقت Gladia ، وهي شركة فرنسية ناشئة للذكاء الاصطناعي ، منصة تستفيد من نموذج نسخ Whisper الخاص بـ OpenAI من أجل – عبر واجهة برمجة التطبيقات – تحويل أي صوت إلى نص في الوقت الفعلي تقريبًا. تتعهد Gladia بإمكانية نسخ ساعة من الصوت مقابل 0.61 دولارًا ، وتستغرق عملية النسخ 60 ثانية تقريبًا.
- تسخير يحتضن الذكاء الاصطناعي التوليدي: تسخير ، وهي شركة ناشئة تنشئ مجموعة أدوات لمساعدة المطورين على العمل بكفاءة أكبر ، قامت هذا الأسبوع بحقن نظامها الأساسي بقليل من الذكاء الاصطناعي. الآن ، يمكن لـ Harness حل إخفاقات البناء والنشر تلقائيًا ، والعثور على الثغرات الأمنية وإصلاحها وتقديم اقتراحات للسيطرة على تكاليف السحابة.
تعلم الآلة الأخرى
كان هذا الأسبوع CVPR في فانكوفر ، كندا ، وأتمنى لو كنت سأذهب لأن المحادثات والأوراق تبدو مثيرة للاهتمام للغاية. إذا كان بإمكانك مشاهدة واحدة فقط ، فراجع خطاب Yejin Choi الرئيسي حول إمكانيات ومستحيلات ومفارقات الذكاء الاصطناعي.
عالج أستاذ UW وحاصل على منحة MacArthur Genius أولاً بعض القيود غير المتوقعة للنماذج الأكثر قدرة اليوم. على وجه الخصوص ، فإن GPT-4 سيء حقًا في الضرب. لقد فشل في العثور على ناتج عددين مكونين من ثلاثة أرقام بشكل صحيح بمعدل مفاجئ ، على الرغم من أنه مع القليل من الإقناع يمكنه الحصول عليه بشكل صحيح بنسبة 95 ٪ من الوقت. لماذا يهم أن نموذج اللغة لا يستطيع القيام بالرياضيات ، أنت تسأل؟ لأن سوق الذكاء الاصطناعي بأكمله يعتمد الآن على فكرة أن نماذج اللغة تعمم جيدًا على الكثير من المهام المثيرة للاهتمام ، بما في ذلك أشياء مثل القيام بالضرائب أو المحاسبة. كانت نقطة تشوي هي أننا يجب أن نبحث عن قيود الذكاء الاصطناعي والعمل على الداخل ، وليس العكس ، لأنه يخبرنا المزيد عن قدراتهم.
كانت الأجزاء الأخرى من حديثها مثيرة للاهتمام ومثيرة للتفكير. يمكنك مشاهدة كل شيء هنا.
قدم Rod Brooks ، الذي تم تقديمه على أنه “قاتل الضجيج” ، تاريخًا مثيرًا للاهتمام لبعض المفاهيم الأساسية للتعلم الآلي – المفاهيم التي تبدو جديدة فقط لأن معظم الأشخاص الذين يطبقونها لم يكونوا موجودين عندما تم اختراعها! وبالعودة إلى الوراء عبر العقود ، يتطرق إلى مكولوتش ، مينسكي ، وحتى هيب – ويوضح كيف ظلت الأفكار ذات صلة إلى ما بعد وقتها. إنه تذكير مفيد بأن التعلم الآلي هو مجال يقف على أكتاف عمالقة يعودون إلى حقبة ما بعد الحرب.
تم تقديم العديد والعديد من الأوراق إلى CVPR وتقديمها في CVPR ، ومن الاختزال أن ننظر فقط إلى الفائزين بالجوائز ، ولكن هذه تقرير إخباري ، وليس مراجعة شاملة للأدبيات. إذن ، هذا ما اعتقد الحكام في المؤتمر أنه الأكثر إثارة للاهتمام:
يعد VISPROG ، من الباحثين في AI2 ، نوعًا من النماذج الوصفية التي تؤدي مهام معالجة بصرية معقدة باستخدام صندوق أدوات كود متعدد الأغراض. لنفترض أن لديك صورة لدب أشيب على بعض الحشائش (كما في الصورة) – يمكنك إخباره فقط “باستبدال الدب بدب قطبي على الثلج” وسيبدأ العمل. فهو يحدد أجزاء الصورة ، ويفصلها بصريًا ، ويبحث عن بديل مناسب ويجد أو يولده ، ويعيد كل شيء مرة أخرى بذكاء ، دون الحاجة إلى مزيد من المطالبة من جانب المستخدم. بدأت واجهة Blade Runner “المحسّنة” في النظر إلى المشاة تمامًا. وهذه مجرد واحدة من إمكانياتها العديدة.
تحاول “القيادة المستقلة الموجهة نحو التخطيط” ، من مجموعة بحثية صينية متعددة المؤسسات ، توحيد الأجزاء المختلفة للنهج التدريجي إلى حد ما الذي اتخذناه للسيارات ذاتية القيادة. عادةً ما يكون هناك نوع من العملية التدريجية من “الإدراك والتنبؤ والتخطيط” ، وقد يكون لكل منها عدد من المهام الفرعية (مثل تقسيم الأشخاص ، وتحديد العوائق ، وما إلى ذلك). يحاول نموذجهم وضع كل هذه في نموذج واحد ، نوعًا ما مثل النماذج متعددة الوسائط التي نراها والتي يمكن أن تستخدم النص أو الصوت أو الصور كمدخلات وإخراج. وبالمثل ، يبسط هذا النموذج في بعض النواحي التبعيات المعقدة لمكدس القيادة الذاتية الحديث.
تُظهر DynIBaR طريقة عالية الجودة وقوية للتفاعل مع الفيديو باستخدام “مجالات الإشعاع العصبي الديناميكي” أو NeRFs. يسمح الفهم العميق للأشياء الموجودة في الفيديو بأشياء مثل التثبيت والحركات اللطيفة وأشياء أخرى لا تتوقع عمومًا أن تكون ممكنة بمجرد تسجيل الفيديو بالفعل. مرة أخرى … “تحسين”. هذا بالتأكيد هو نوع الأشياء التي توظفك Apple من أجلها ، ثم تحصل على الفضل في WWDC التالي.
قد تتذكر DreamBooth في وقت سابق قليلاً من هذا العام عندما تم نشر صفحة المشروع. إنه أفضل نظام حتى الآن ، لا توجد طريقة للتغلب على ذلك ، صنع التزييف العميق. بالطبع من المفيد والقوي القيام بهذه الأنواع من عمليات الصور ، ناهيك عن المتعة ، ويعمل باحثون مثل أولئك في Google على جعلها أكثر سلاسة وواقعية. العواقب … لاحقًا ، ربما.
تذهب جائزة أفضل ورقة طالب إلى طريقة لمقارنة الشبكات ومطابقتها ، أو سحب النقاط ثلاثية الأبعاد – بصراحة ، إنه أمر تقني للغاية بالنسبة لي لمحاولة الشرح ، ولكن هذه قدرة مهمة لإدراك العالم الحقيقي والتحسينات مرحب بها. تحقق من الورقة هنا للحصول على أمثلة ومزيد من المعلومات.
شذرتان أخريان فقط: عرضت Intel هذا النموذج المثير للاهتمام ، LDM3D ، لتوليد صور ثلاثية الأبعاد بزاوية 360 درجة مثل البيئات الافتراضية. لذلك عندما تكون في منطقة metaverse وتقول “ضعنا في خراب متضخم في الغابة” ، فإنه يخلق خرابًا جديدًا عند الطلب.
وأصدرت Meta أداة تركيب صوتية تسمى Voicebox وهي جيدة جدًا في استخراج ميزات الأصوات وتكرارها ، حتى عندما لا يكون الإدخال نظيفًا. عادةً ما تحتاج إلى كمية جيدة ومتنوعة من التسجيلات الصوتية النظيفة لنسخ الصوت ، لكن Voicebox يقوم بذلك بشكل أفضل من العديد من الآخرين ، مع بيانات أقل (فكر مثل ثانيتين). لحسن الحظ أنهم يحتفظون بهذا الجني في الزجاجة في الوقت الحالي. بالنسبة لأولئك الذين يعتقدون أنهم قد يحتاجون إلى استنساخ صوتهم ، تحقق من Acapela.