WebBrain هو وكيل متصفح مجاني مفتوح المصدر لمتصفح Chrome وFirefox. فهو يقرأ الصفحات ويستخرج البيانات ويقوم بأتمتة المهام متعددة الخطوات. على عكس معظم المكونات الإضافية للذكاء الاصطناعي في المتصفح، يمكن أيضًا تشغيلها بالكامل على نموذج محلي.
تم بناؤه بواسطة إمري سوكولو ومرخص من قبل معهد ماساتشوستس للتكنولوجيا. المصدر الكامل يعيش على جيثب.
قم بتشغيل الوكيل مقابل نموذج محلي، ولن تترك أي بيانات صفحة جهازك. قم بتوصيل واجهة برمجة التطبيقات السحابية عندما تريد المزيد من الإمكانات.
ما هو ويب براين؟
يوجد WebBrain في اللوحة الجانبية للمتصفح الخاص بك. في Chrome يستخدم Manifest V3 وsidePanel API. في Firefox يستخدم Manifest V2 وsidebar_action. تحتفظ كل علامة تبويب بسجل المحادثات الخاص بها.
يعمل الامتداد داخل جلسة المصادقة الحالية الخاصة بك. فهو يرى حساباتك المسجلة تمامًا كما تفعل أنت. لا يقوم بتخزين أي بيانات خارجيًا ولا يضيف أي قياس عن بعد أو حسابات.
يأتي البرنامج المساعد باللغات الإنجليزية والإسبانية والفرنسية والتركية و中文. يقوم بالكشف التلقائي عن لغة المتصفح الخاص بك عند التشغيل لأول مرة.
وضع السؤال ووضع الفعل وكيفية تفعيل الإجراءات فعليًا
يحتوي WebBrain على وضعين: وضع السؤال للقراءة فقط ولا يمكن تغيير الصفحة. وضع الفعل يمكنه النقر والكتابة والتمرير والتنقل وتشغيل مهام سير العمل.
يقوم وضع السؤال بقراءة الصفحات من خلال البرامج النصية للمحتوى العادي. وضع الفعل مختلف. فهو يقود الصفحة عبر بروتوكول Chrome DevTools عبر واجهة برمجة التطبيقات chrome.debugger. وهذا ينتج أحداث الإدخال الموثوقة التي تحترمها المواقع الحديثة بالفعل. كما أنه يصل أيضًا إلى إطارات iframe وshadow DOM التي لا تستطيع البرامج النصية للمحتوى رؤيتها.
يتم تحديد نطاق هذه القوة عمدا. يقوم WebBrain بإرفاق مصحح الأخطاء فقط عندما يحتاج الإجراء إليه، لكل علامة تبويب. يعرض Chrome شعاره القياسي “بدأ WebBrain في تصحيح أخطاء هذا المتصفح” أثناء إرفاقه. لا يوجد لدى Firefox ما يعادل CDP، لذا فإن وضع Act الخاص به أضعف بشكل ملحوظ.
يتم تثبيت درجات الحرارة من أجل القدرة على التنبؤ. يستخدم وضع الفعل درجة الحرارة 0.15. يستخدم وضع السؤال 0.3. تستخدم أوصاف لقطة شاشة الرؤية المخصصة 0.
النموذج الأمني
يعمل وكلاء المتصفح على سطح عدائي. يمكن لصفحات الويب إخفاء عمليات الحقن السريعة التي تخطف سلوك الوكيل. يعالج تصميم WebBrain هذا الأمر مباشرةً.
يبدأ الوكيل في وضع السؤال للقراءة فقط. يسأل قبل الإجراءات التبعية. يمكنك تعطيل هذه المطالبات في إعدادات الأذونات. وهي قيد التشغيل بشكل افتراضي.
هناك أيضا واجهة المستخدم أولاً قاعدة للطفرات. بالنسبة لأي شيء يقوم بإنشاء أو إرسال أو إرسال أو شراء، يستخدم WebBrain واجهة المستخدم المرئية. يرفض استدعاء نقاط نهاية REST أو GraphQL مباشرة للطفرات. يوجد تجاوز لكل محادثة /allow-api عندما تفشل واجهة المستخدم بشكل حقيقي.
يتم التعامل مع القراءة بشكل منفصل. جلب ملف README أو مقارنة الأسعار يستخدم HTTP في الخلفية من خلال أدوات fetch_url وresearch_url. القراءة لا تغير شيئًا عن بعد، لذلك لا تنطبق القواعد الصارمة.
حالات الاستخدام، مع أمثلة ملموسة
- استخراج البيانات هو الأمر الواضح: افتح الكتالوج واسأل: “استخرج جميع أسماء المنتجات وأسعارها من هذه الصفحة”. يقرأ الوكيل البنية ويعيد الصفوف. كما أنه يعمل مع ملفات PDF.
- تعتبر ملخصات الأبحاث أمرًا آخر: اسأل “تلخيص هذه المقالة”، ثم تابع بسؤال محدد. يكتشف WebBrain نظام حظر الاشتراك غير المدفوع بأمانة ولا يحاول تجاوزه. كما أنه يرفض أيضًا لافتات الموافقة على ملفات تعريف الارتباط الشائعة قبل القراءة.
- يناسب ملء النموذج عمليات الاشتراك المتكررة: تقوم ميزة الملء التلقائي للملف الشخصي الاختيارية بتخزين سيرة ذاتية قصيرة في نص عادي محلي. يتم إرسال هذا النص إلى LLM الذي تم تكوينه لإكمال النماذج منخفضة المخاطر. احتفظ بكلمات المرور المهمة بعيدًا عنها.
- تمتد الأتمتة عبر عدة خطوات: حاول “الانتقال إلى github.com والعثور على المستودعات الشائعة”. في وضع التصرف، يقوم الوكيل بتسلسل التنقل والقراءة والنقر.
الحفاظ على انخفاض تكاليف الرمز المميز
تتراكم الرموز السحابية في الجلسات الطويلة. يقوم WebBrain بتحديد التكلفة بثلاث طرق.
- يتم تغيير حجم لقطات الشاشة وضغطها بشكل متكرر بصيغة JPEG قبل أن تغادر جهازك. وهذا يبقي الرموز المميزة للصورة صغيرة.
- يتم قطع سجل المحادثة ومخرجات الأداة من الأقدم أولاً عند ملء نافذة السياق.
- يمكنك أيضًا إقران نموذج نصي رخيص للتخطيط بنموذج رؤية منفصل للقطات الشاشة.
كيف يقارن
يقع WebBrain بين المكونات الإضافية للذكاء الاصطناعي للمتصفح وأطر عمل الوكيل الكاملة. فيما يلي مقارنة المكونات الإضافية، المستمدة من وثائق المشروع الخاصة.
| ميزة | WebBrain | كلود في كروم |
|---|---|---|
| مفتوح المصدر | رخصة معهد ماساتشوستس للتكنولوجيا | الملكية |
| سعر | مجانا إلى الأبد | يتطلب Claude Pro (20 دولارًا شهريًا) |
| دعم LLM المحلي | llama.cpp، أولاما | لا – كلود فقط |
| متعدد الموفر | جميع نقاط النهاية المتوافقة مع OpenAI | كلود فقط |
| الكروم | نعم (MV3) | نعم |
| فايرفوكس | نعم (MV2) | لا |
| واجهة المستخدم للوحة الجانبية | نعم | نعم |
| أوضاع السؤال/التصرف | نعم | مشابه |
| غير متصل بالإنترنت بالكامل | نعم (مع LLM محلي) | لا — السحابة مطلوبة |
| استضافة ذاتية | نعم | لا |
تعتبر أطر العمل مثل OpenClaw أو Browser-Use فئة مختلفة. هذه هي حزم تطوير البرامج (SDK) للمطورين لخطوط الأنابيب مقطوعة الرأس. WebBrain هو امتداد للمستخدم النهائي يمكنك قيادته من لوحة الدردشة. يمكنك استخدام كليهما.
تشغيله: الموفرون والإعداد
يدعم WebBrain النماذج المحلية والسحابية من خلال واجهة واحدة. تتضمن الخيارات المحلية llama.cpp وOllama وLM Studio وJan وvLLM وSGLang. تشمل خيارات السحابة OpenAI وAnthropic Claude وGemini وMistral وDeepSeek وxAI Grok. كما أنه يدعم Groq وMiniMax وAlibaba Cloud (Qwen) وNvidia NIM وOpenRouter.
لا يحتاج الخيار المُدار المدمج، WebBrain Cloud، إلى إعداد محلي. يكلف 5 دولارات شهريًا لكل ملف تعريف للجهاز بموجب سياسة الاستخدام العادل. للاستخدام المحلي، لا يحتاج llama.cpp إلى مفتاح API.
يتطلب بدء تشغيل خادم محلي أمرًا واحدًا:
# llama.cpp — load at least a 16k-token context window
llama-server -m your-model.gguf -c 16384 --port 8080
# Ollama (OpenAI-compatible) — set the extension-origin env var
OLLAMA_ORIGINS="*" ollama serve
# then set the base URL to http://localhost:11434/v1 in settings
قم بتوجيه WebBrain إلى نقطة النهاية في الإعدادات. بالنسبة لخادم vLLM عبر الأجهزة، قم بتمكين CORS باستخدام –allowed-origins ‘[“*”]’.
النموذج الموصى به هو Qwen 3.6 35B (Qwen3.6-35B-A3B). لقد تغلب على Gemma 4 في معيار لقطة الشاشة للمشروع. يعتبر RTX 5090 مثاليًا؛ يعمل RTX 4090 مع تكميم INT4 AutoRound.
كل موفر عبارة عن فئة تمتد إلى BaseLLMProvider. يتم تطبيعه إلى شكل استجابة واحد:
{ content: string, toolCalls: Array|null, usage: Object|null }
الوجبات السريعة الرئيسية
- WebBrain هو وكيل متصفح مجاني مرخص من معهد ماساتشوستس للتكنولوجيا (MIT) لمتصفح Chrome وFirefox، تم إنشاؤه بواسطة Emre Sokulu.
- يتم تشغيله على النماذج المحلية (llama.cpp، Ollama؛ Qwen 3.6 35B موصى به) أو أي واجهة برمجة تطبيقات سحابية – لا تترك أي بيانات صفحة جهازك عندما يكون محليًا.
- وضع السؤال يقرأ الصفحات للقراءة فقط؛ ينقر وضع التصرف ويكتب عبر بروتوكول Chrome DevTools لأحداث الإدخال الموثوقة.
- الأمان أولاً حسب التصميم: يبدأ للقراءة فقط، ويوافق على الإجراءات اللاحقة، ويستخدم واجهة المستخدم بدلاً من استدعاءات واجهة برمجة التطبيقات المباشرة للطفرات.
- استضافة ذاتية مجانية إلى الأبد، أو 5 دولارات شهريًا لكل ملف تعريف جهاز لسحابة WebBrain المُدارة بموجب الاستخدام العادل.
الشرح التفاعلي مع العرض التوضيحي
التجريبي-1
تجريبي-2
ملاحظة: شكرًا لفريق Webbrain على القيادة الفكرية/الموارد الخاصة بهذه المقالة. لقد دعم فريق Webbrain هذا المحتوى/المقالة للترويج لها.
اكتشاف المزيد من كحيل | أخبار التقنية
اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.
