اليوم، تم إصدار ميسترال AI التعرف الضوئي على الحروف 4، أحدث نموذج لفهم المستندات. يضيف هذا الإصدار الجديد المربعات المحيطة وتصنيف الكتل ودرجات الثقة المضمنة إلى جانب النص المستخرج. وهو يدعم 170 لغة عبر 10 مجموعات لغوية ويتم تشغيله في حاوية واحدة لعمليات النشر ذاتية الاستضافة بالكامل. يعمل OCR 4 أيضًا كمكون استيعاب للبحث المؤسسي، وRAG، وخطوط الاسترجاع الخاصة بالمجال.

ليرة تركية؛ د

  • يقوم OCR 4 بإرجاع المربعات المحيطة، وتسميات الكتل المكتوبة، ودرجات الثقة لكل كلمة، وليس فقط النص.
  • وهو يدعم 170 لغة عبر 10 مجموعات، مع تحقيق مكاسب في اللغات النادرة ومنخفضة الموارد.
  • فضل المعلقون المستقلون OCR 4 على كل نظام تم اختباره، حيث بلغ متوسط ​​معدلات الفوز 72%.
  • السعر هو 4 دولارات لكل 1000 صفحة، وينخفض ​​إلى 2 دولار مع خصم Batch-API.
  • تخدم نقطة النهاية الواحدة كلاً من الاستخراج الأولي ومخرجات المستند AI المستندة إلى المخطط.

ميسترال التعرف الضوئي على الحروف 4

يستخرج برنامج Mistral OCR 4 المحتوى ويبنيه من مجموعة واسعة من المستندات. ركزت الأجيال السابقة على تحويل الصفحة إلى نص وجداول نظيفة. يقوم OCR 4 بدلاً من ذلك بإرجاع تمثيل منظم للمستند بأكمله.

يتم ترجمة كل كتلة بمربع محيط وتصنيفها حسب النوع. تتضمن أنواع الكتل العناوين والجداول والمعادلات والتوقيعات والمزيد. يتم إنشاء درجات الثقة المضمنة لكل صفحة ولكل كلمة.

وبالتالي فإن الأنظمة النهائية تتعلم أكثر مما تقوله الوثيقة. ويتعلمون أيضًا مكان وجود كل عنصر، والدور الذي يلعبه، ومدى ثقة النموذج. هذا السياق الإضافي مهم بالنسبة للاستشهادات والتنقيحات والتحقق البشري في الحلقة.

يقبل OCR 4 تنسيقات المؤسسات الشائعة، بما في ذلك PDF وDOC وPPT وOpenDocument. النموذج مضغوط بما يكفي للنشر في حاوية واحدة. النشر المُدار ذاتيًا متاح لعملاء المؤسسات من أجل إقامة البيانات والامتثال.

المعيار

قامت ميسترال بمقارنة التعرف الضوئي على الحروف 4 مع نماذج التعرف الضوئي على الحروف الأصلية للذكاء الاصطناعي، ونماذج الأغراض العامة الحدودية، وخدمات مستندات المؤسسة، وMistral OCR 3.

فضل عدد من المعلقين المستقلين OCR 4 على كل نظام رائد تم اختباره. وبلغ متوسط ​​معدلات الفوز 72% عبر مجموعة المقارنة. استخدم التقييم أكثر من 600 مستند عبر أكثر من 12 لغة، تم الحصول عليها من موردين خارجيين. قام المدونون بتصنيف مخرجات كل منافس مقابل OCR 4، وثيقة تلو الأخرى.

في المعايير الآلية، سجل التعرف الضوئي على الحروف 4 85.20 على OlmOCRBench العام. وسجل 93.07 على OmniDocBench و .98 في تقييم الزحف الداخلي متعدد اللغات في ميسترال.

تضيف نقطتا بيانات العميل السياق. أبلغت شركة Rogo عن دقة مكافئة بتكلفة أقل بنحو 8 مرات وزمن وصول أقل بمقدار 17 مرة مقارنة بالموزعين الوكيلين الرائدين. قامت شركة Anaqua بقياس سرعة كل صفحة بمعدل 4 مرات تقريبًا مقارنة بمزودها الحالي.

التقسيم، وليس النص فقط

كانت الصناديق المحيطة هي القدرة الأكثر طلبًا لدى ميسترال. يقومون بترجمة النص لتسليط الضوء عليه في السياق وخطوط أنابيب البيانات الموثوقة.

تخدم أنواع الكتل ودرجات الثقة وظائف مختلفة. إنهم يقودون الاستشهادات المستندة إلى المصدر، والتنقيحات، والتحقق البشري في الحلقة. يدعم هذا الهيكل العديد من أحمال العمل النهائية.

تصبح الكتل النظيفة والمصنفة وحدات استرجاع أفضل لـ RAG. يكتسب الوكلاء أساسيات هيكلية للتعامل مع المستندات، وليس قراءتها فقط. تتلقى الموصلات مخرجات مكتوبة ومتسقة لاستيعابها وفهرستها.

يعد OCR 4 أيضًا أحد مكونات استيعاب مجموعة أدوات البحث ميسترال، الآن في المعاينة العامة. مجموعة أدوات البحث هي إطار بحث قابل للتركيب ومفتوح المصدر من ميسترال. توفر مخرجاتها المنظمة مدخلات جاهزة للاستشهاد لسير عمل الاسترجاع والتقييم.

استخدام الحالات مع الأمثلة

يدعم OCR 4 كلاً من خطوط الأنابيب ذات الحجم الكبير وسير عمل المستندات التفاعلية.

  • تحليل الوثائق واستخراجها: تحويل عقد متعدد اللغات إلى تخفيض سعري نظيف ومنظم للفهرسة.
  • الاسترجاع المعزز للجيل (RAG): قم بتغذية الكتل المصنفة في مجموعة أدوات البحث للحصول على إجابات مستندة إلى المصدر مع الاستشهادات.
  • سير العمل الوكيل: أعط وكيل معالجة الفواتير الحقول المكتوبة والمربعات المحيطة لملء النماذج تلقائيًا.
  • خطوط الأنابيب ذات بوابات الثقة: قم بتوجيه المناطق منخفضة الثقة إلى جهات التحقق البشرية، ثم قم بالموافقة تلقائيًا على الباقي.
  • بحث المؤسسة: استخدم OCR 4 كمكون مصدر بيانات لاستيعاب واستخراج الكيان عبر الأرشيف.

يطبق المستخدمون الأوائل تقنية OCR 4 لتحويل الفواتير إلى حقول منظمة ورقمنة أرشيفات الشركة. يقوم آخرون باستخراج نص نظيف من التقارير الفنية أو البحث في مؤسسات الطاقة.

ملاحظة حول النطاق من الإصدار الرسمي لميسترال: OCR 4 هو نموذج لفهم المستندات، وليس صانع قرار. إنه غير مخصص للتشخيص الطبي، أو الحكم القانوني، أو القرارات المالية عالية المخاطر. كما أنه غير مناسب للأنظمة الحساسة للسلامة، أو المعالجة في الوقت الفعلي، أو المدخلات غير المستندية مثل الصوت أو الفيديو الخام.

يأتي OCR 4 خلف نقطة نهاية API واحدة. كل طلب يعمل بنفس النموذج. يقوم دائمًا بإرجاع المحتوى المستخرج والمربعات المحيطة وأنواع الكتل ودرجات الثقة وتخفيض السعر. ما يختلف هو مقدار الطبقة التي تعلوها.

القدرة وضع الاستخراج النقي وضع AI للمستند (نفس نقطة النهاية)
الإخراج تخفيض السعر، صناديق bbox، أنواع الكتل، الثقة JSON منظم في المخطط الذي تحدده
كيف يعمل استجابة التعرف الضوئي على الحروف الخام تم تغذية مخرجات التعرف الضوئي على الحروف إلى mistral-small-2603
شرح الصورة لم يتم تطبيقه استدعاء لغة الرؤية لكل صورة على المخطط
موجه مخصص لا نعم أدلة التفسير أو التلخيص
الأفضل ل خطوط الأنابيب، الوكلاء، ابتلاع الدفعة مستخدمو الأعمال، الطيارون، لا يوجد منطق تحليل
سعر 4 دولارات / 1000 صفحة (دفعة 2 دولار) 5 دولارات / 1000 صفحة
استضافة ذاتية متاح للمؤسسات متاح للمؤسسات

قاعدة القرار بسيطة. هل تحتاج إلى محتوى خام مستخرج؟ استخدم OCR 4 كما هو. هل تحتاج إلى إعادة تشكيل الإخراج في مخطط أو إضافة تعليقات توضيحية إليه باستخدام حقول المجال؟ أضف معلمات Document AI إلى نفس المكالمة.

العمل مع API

يأخذ الاستخراج الأساسي عنوان URL للمستند ويعيد الصفحات المنظمة. تعيين include_blocks=True للحصول على الكتل المكتوبة والمربعات المحيطة.

import os
from mistralai.client import Mistral

client = Mistral(api_key=os.environ["MISTRAL_API_KEY"])

ocr_response = client.ocr.process(
    model="mistral-ocr-latest",
    document={
        "type": "document_url",
        "document_url": "https://arxiv.org/pdf/2201.04234"
    },
    include_blocks=True,                  # typed blocks + bounding boxes
    table_format="html",                  # None (inline), "markdown", or "html"
    include_image_base64=True
)

الاستجابة هي كائن JSON مع pages صفيف. تحمل كل صفحة markdown, images, tables, hyperlinks, dimensions، و confidence_scores. لبوابة مسار المراجعة البشرية، اطلب الثقة لكل كلمة.

ocr_response = client.ocr.process(
    model="mistral-ocr-latest",
    document={"type": "document_url",
              "document_url": "https://arxiv.org/pdf/2201.04234"},
    confidence_scores_granularity="word"   # or "page" for aggregates
)

ال "word" يضيف الإعداد أ word_confidence_scores صفيف لكل صفحة ولكل إدخال الجدول. بالنسبة للمهام ذات الحجم الكبير، توصي ميسترال بخدمة Batch Inference، التي تخفض تكلفة الصفحة إلى النصف.


جربه: مستكشف الإخراج التفاعلي

يصور التضمين أدناه المخرجات المنظمة لـ OCR 4. قم بالتبديل بين نماذج المستندات، وقم بتبديل المربعات المحيطة وأنواع الكتل، وقم بتشغيل خريطة التمثيل اللوني للثقة. تعرض علامتا التبويب Markdown وJSON شكلي الإخراج جنبًا إلى جنب. تعتبر بيانات العينة توضيحية وليست استدعاء مباشر لواجهة برمجة التطبيقات.



تحقق من إعلان ميسترال OCR 4، بطاقة نموذج OCR 4، و مستندات معالج التعرف الضوئي على الحروف. أيضا، لا تتردد في متابعتنا على تغريد ولا تنسى الانضمام إلينا 150 ألف + مل والاشتراك في النشرة الإخبارية لدينا. انتظر! هل أنت على برقية؟ الآن يمكنك الانضمام إلينا على التليجرام أيضًا.

هل تحتاج إلى الشراكة معنا للترويج لصفحة GitHub Repo أو صفحة الوجه المعانقة أو إصدار المنتج أو الندوة عبر الويب وما إلى ذلك؟ تواصل معنا



اكتشاف المزيد من كحيل | أخبار التقنية

اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.

شاركها.
اترك تعليقاً

اكتشاف المزيد من كحيل | أخبار التقنية

اشترك الآن للاستمرار في القراءة والحصول على حق الوصول إلى الأرشيف الكامل.

Continue reading