قدمت أبحاث Google نموذج TabFM، وهو نموذج أساسي تم تصميمه للبيانات الجدولية. يقوم TabFM بإجراء التصنيف والانحدار دون تدريب خاص بمجموعة البيانات. كل توقع يأتي من تمريرة أمامية واحدة. يعيد النموذج صياغة التنبؤ الجدولي باعتباره مشكلة تعليمية في السياق. وهو متاح الآن على Hugging Face وGitHub.

ليرة تركية؛ د

  • يتنبأ TabFM بالجداول غير المرئية بدون تدريب أو ضبط أو هندسة الميزات.
  • فهو يقرأ مجموعة البيانات الكاملة كموجه واحد، ثم يتنبأ بها من خلال التعلم في السياق.
  • تجمع البنية بين الاهتمام بالصف/العمود بنمط TabPFN والتعلم في السياق بنمط TabICL.
  • استخدم التدريب مئات الملايين من مجموعات البيانات الاصطناعية من النماذج السببية الهيكلية.
  • سيكشف Google BigQuery عن TabFM من خلال أمر AI.PREDICT SQL قريبًا.

ما هو تاب اف ام؟

تشكل البيانات الجدولية العمود الفقري للبنية التحتية لبيانات المؤسسة. توجد مهام مثل تغيير العملاء والكشف عن الاحتيال المالي في الجداول. لسنوات عديدة، سيطرت الأساليب المعتمدة على الأشجار على هذا الفضاء. قدمت XGBoost وAdaBoost والغابات العشوائية نتائج قوية على البيانات المنظمة. تقوم Google بتأطير TabFM باعتباره النظير الجدولي لـ TimesFM، وهو نموذج السلاسل الزمنية الصفرية.

تحملت هذه الموثوقية تكلفة. نادرًا ما يكون تركيب XGBoost على مجموعة بيانات جديدة أمرًا ضروريًا .fit() يتصل. يقضي علماء البيانات ساعات في تحسين المعلمات الفائقة وهندسة الميزات. يفعلون ذلك فقط لاستخراج إشارة موثوقة من البيانات الأولية. يستهدف TabFM عنق الزجاجة هذا بالضبط.

يطبق TabFM منطق الصفر الذي جعلته نماذج اللغات الكبيرة مألوفًا. يتعلم طلاب LLM مهام جديدة من الأمثلة في السياق، دون تحديث أي أوزان. تسمى هذه التقنية بالتعلم في السياق (ICL). يقدم TabFM نفس الفكرة إلى الجداول. يقوم بإنشاء تنبؤات على جداول غير مرئية سابقًا في مسار واحد.

كيف يعمل

تقوم النماذج التقليدية بتحديث المعلمات لتوزيع كل مجموعة بيانات. يتخطى TabFM هذه الخطوة تمامًا. يأخذ مجموعة البيانات بأكملها كموجه واحد موحد. تحتوي هذه المطالبة على أمثلة تدريبية وصفوف اختبار مستهدفة. يقرأ النموذج علاقات الأعمدة والصفوف في وقت الاستدلال.

الجداول ليست نصا. فهي ثنائية الأبعاد وغير منظمة بطبيعتها. تبديل صفين أو عمودين لا يغير معناها. تعالج نماذج اللغة القياسية تسلسلات مرتبة أحادية البعد بدلاً من ذلك. لسد هذه الفجوة، يقوم TabFM بتجميع TabPFN وTabICL في تصميم هجين.

يعتمد على ثلاث آليات:

  • الاهتمام بالصف والعمود بالتناوب: يمر الجدول الخام عبر وحدة اهتمام متعددة الطبقات. بعد TabPFN، يتناوب الاهتمام عبر الأعمدة (الميزات) والصفوف (الأمثلة). يلتقط هذا السياق العميق تفاعلات الميزات والتبعيات. إنه ينفذ عملاً قد يحتاج إلى صياغة يدوية للميزات.
  • ضغط الصف: يتم ضغط المعلومات المتقاطعة لكل صف في ناقل كثيف واحد.
  • التعلم في السياق: يعمل محول مخصص على هذه التضمينات المضغوطة. بعد TabICL، يؤدي الاهتمام بالصفوف المضغوطة إلى خفض تكلفة الحساب بشكل حاد. يظل التنبؤ فعالاً حتى في مجموعات البيانات الأكبر حجمًا.

التدريب على البيانات الاصطناعية على نطاق واسع

تحتاج نماذج الأساس إلى بيانات ضخمة ومتنوعة. مجموعات البيانات الجدولية عالية الجودة نادرة في الفضاء مفتوح المصدر. تحمل الجداول الصناعية مخططات خاصة ومعلومات حساسة. وهذا يجعلهم غير متاحين للتدريب المسبق على نطاق واسع.

يمكن إنشاء الجداول الاصطناعية لتكون كبيرة بشكل تعسفي. ويصفها فريق البحث في Google بأنها الخيار الوحيد القابل للتطبيق على هذا النطاق. لذلك يتدرب TabFM بالكامل على مئات الملايين من مجموعات البيانات الاصطناعية. ويتم إنشاؤها ديناميكيًا باستخدام النماذج السببية الهيكلية (SCMs). يتضمن كل منها مجموعة واسعة من الوظائف العشوائية. يلتقط هذا النهج التوزيعات وعلاقات الميزات المعقدة الموجودة في الجداول الحقيقية. أفاد فريق البحث أن النموذج يعمم بشكل جيد على بيانات العالم الحقيقي غير المرئية.

الأداء والمقارنات المعيارية

قام فريق البحث بتقييم TabFM على TabArena. يعد TabArena معيارًا حيًا يحسب نتائج Elo من معدلات الفوز وجهاً لوجه. يشمل التقييم 38 مجموعة بيانات تصنيف و13 مجموعة بيانات انحدار. تتراوح أحجام العينات من 700 إلى 150.000.

تم اختبار تكوينين. يتم تشغيل Plain TabFM خارج الصندوق في تمريرة أمامية واحدة. لا يحتاج إلى ضبط أو التحقق من الصحة. يضيف TabFM-Ensemble ميزات متقاطعة وميزات SVD (تحليل القيمة المفردة). فهو يحسب الأوزان المثالية لمجموعة ذات 32 اتجاهًا باستخدام حل المربعات الصغرى غير السالبة. بالنسبة للتصنيف، فإنه يضيف أيضًا مقياس بلات كخطوة معايرة.

أفاد فريق البحث أن TabFM يتفوق باستمرار على الخوارزميات الخاضعة للإشراف والمعايير الصناعية. توجد المقاييس الكاملة لكل مرة ومعدلات الفوز وجهاً لوجه على صفحة GitHub.

وجه GBDT التقليدي (XGBoost) TabFM فرقة TabFM
التدريب على كل مجموعة بيانات مطلوب لا شيء (التعلم في السياق) لا أحد
ضبط المعلمة الفائقة واسعة النطاق، دليل لا أحد مجموعة الأوزان عبر NNLS
هندسة الميزات دليل، خاص بالمجال تعلمت بالانتباه يضيف ميزات Cross + SVD
تنبؤ بعد التدريب الكامل تمريرة أمامية واحدة فرقة 32 طريقة
معايرة يدوي (اختياري) تحجيم بلات (التصنيف)

الشروع في العمل: التثبيت والكود

يقوم التثبيت باستنساخ المستودع وتثبيته محليًا. يستخدم التثبيت الأساسي JAX لوحدة المعالجة المركزية (CPU) فقط. أ cuda إضافي يسحب البرنامج المساعد CUDA 12 ومكتبات NVIDIA لتشغيل GPU.

المتطلبات الأساسية محددة. أنت بحاجة إلى إصدار Python 3.11 أو إصدار أحدث. انها دبابيس jax==0.10.1 و flax==0.12.7، باستخدام الحديث flax.nnx واجهة برمجة التطبيقات. يقوم Hugging Face Hub بتنزيل الأوزان المدربة مسبقًا تلقائيًا.

import numpy as np
import pandas as pd
from tabfm import tabfm_v1_0_0
from tabfm import TabFMClassifier

# Load pre-trained TabFM v1.0.0 (downloads from Hugging Face)
model = tabfm_v1_0_0.load()

# scikit-learn compatible classifier
clf = TabFMClassifier(model=model)

X_train = pd.DataFrame({
    "age": [25.0, 45.0, 35.0, 50.0],
    "job": ["engineer", "manager", "engineer", "manager"],
    "income": [80000, 120000, 90000, 130000]
})
y_train = np.array(["low_risk", "high_risk", "low_risk", "high_risk"])

X_test = pd.DataFrame({
    "age": [30.0, 48.0],
    "job": ["engineer", "manager"],
    "income": [85000, 125000]
})

clf.fit(X_train, y_train)
predictions = clf.predict(X_test)
probabilities = clf.predict_proba(X_test)

print("Predictions:", predictions)
print("Class Probabilities:\n", probabilities)

هنا fit() يقوم بإعداد التشفيرات الترتيبية والمقاييس العددية. لا يقوم بتدريب أوزان النماذج على بياناتك. يعكس الانحدار هذا النمط مع TabFMRegressor و reg.predict().

استخدام الحالات مع الأمثلة

تناسب واجهة برمجة التطبيقات (API) المهام التنبؤية الشائعة بشكل مباشر. بالنسبة لإيقاف العملاء، فإن السياق يتضمن تصنيف العملاء السابقين الذين تم إيقافهم أو الاحتفاظ بهم. يسجل TabFM مخاطر التقلب للعملاء الجدد في تمريرة واحدة.

بالنسبة لمخاطر الائتمان، تحتوي الصفوف على ميزات العمر والوظيفة والدخل. علامة التسميات low_risk أو high_risk، كما في نموذج التعليمات البرمجية. يحصل المتقدمون الجدد على درجات بدون دورة تدريبية.

بالنسبة للانحدار، فإن التنبؤ بأسعار المنازل يعد أمرًا طبيعيًا. تحمل صفوف السياق لقطات مربعة وحيًا. تقوم TabFM بإرجاع السعر المتوقع للقوائم غير المرئية.

الشرح التفاعلي



تحقق من الريبو و التفاصيل الفنية. أيضا، لا تتردد في متابعتنا على تغريد ولا تنسى الانضمام إلينا 150 ألف + مل والاشتراك في النشرة الإخبارية لدينا. انتظر! هل أنت على برقية؟ الآن يمكنك الانضمام إلينا على التليجرام أيضًا.

هل تحتاج إلى الشراكة معنا للترويج لصفحة GitHub Repo أو صفحة الوجه المعانقة أو إصدار المنتج أو الندوة عبر الويب وما إلى ذلك؟ تواصل معنا



اكتشاف المزيد من كحيل | أخبار التقنية

اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.

شاركها.
اترك تعليقاً

اكتشاف المزيد من كحيل | أخبار التقنية

اشترك الآن للاستمرار في القراءة والحصول على حق الوصول إلى الأرشيف الكامل.

Continue reading