ما هو Qwen3-VL-Embedding؟ الذكاء الاصطناعي الذي يفهم الصور كما تفعل أنت

في المرة الأولى التي لعبت فيها مع qwen3 vl embedding في سير عمل حقيقي، توقعت تمامًا لحظة أخرى من "عرض رائع، عديم الفائدة في التطبيق العملي".

بدلاً من ذلك، طرحت سؤالًا غريبًا: "اعثر على الشريحة التي قارنت فيها بين Notion وObsidian باستخدام رسم بياني أرجواني وذكرت 'تكلفة الاحتكاك'." استخرج الشريحة المحددة من مجلد مبعثر من لقطات الشاشة وملفات PDFs والملاحظات في أقل من ثانية.

عندها أدركت: هذا ليس مجرد بحث متجهات أفضل. هذا هو تضمين متعدد الوسائط في الواقع – نفس الفكرة وراء سحر صور جوجل "كلب في الثلج"، الآن متاح كلبنة بناء لأدواتنا الخاصة. والنماذج مثل qwen3 vl embedding تجعل هذا المستوى من البحث شيئًا يمكنك إضافته إلى تطبيق الملاحظات الخاص بك أو نظام المحتوى أو SaaS المستقل دون الحاجة لدكتوراه في تعلم الآلة.

ماذا يعني "التضمين متعدد الوسائط" بالفعل؟

لنبسط المصطلحات.

عندما تسمع qwen3 vl embedding أو "التضمين متعدد الوسائط", فكر في:

"تحويل النصوص والصور إلى أرقام تعيش في نفس الفضاء المعنوي حتى يتمكنوا من العثور على بعضهم البعض."

النسخة المختصرة

نموذج التضمين النصي العادي يأخذ جملة مثل:

"قطة نائمة على جهاز كمبيوتر محمول."

…ويحوّلها إلى قائمة طويلة من الأرقام، شيء مثل [0.12، -0.88، 0.03، ...]. تُسمى هذه القائمة متجهًا. الجمل ذات المعنى المماثل تحصل على متجهات قريبة من بعضها.

نموذج التضمين المتعدد الوسائط مثل qwen3 VL يقوم بنفس الشيء، ولكن من أجل:

النصوص (الاستفسارات، التعليقات التوضيحية، الملاحظات)
الصور (لقطات الشاشة، الصور المصغرة، نماذج واجهة المستخدم)
أحيانًا ملفات PDF، الرسوم البيانية، وأشياء أخرى "شبه بصرية"

السر: النموذج يقوم بربط جميعها في نفس مساحة التضمين. هذا يعني:

صورة لقط على جهاز ماك بوك
النص "قط نائم على لابتوب"
العبارة "حيوان أليف على لوحة مفاتيح الكمبيوتر"

…كلها تقترب من بعضها في هذا الفضاء المتجهي. لذلك عندما تبحث بالنص، يمكنك استرجاع الصور. وعندما تضمّن صورك، يمكنك تنظيمها وتجمعها بناءً على المعنى، وليس بناءً على اسم الملف أو المجلد.

ما يقوم به تضمين qwen3 VL فعليًا (مفهوميًا)

لا تحتاج إلى الرياضيات الكاملة، ولكن هذا هو النموذج الذهني الذي أستخدمه:

مشفّر الصور: يأخذ صورة → يقسمها إلى قطع → يمررها عبر محول رؤية → ويخرج متجه.
مشفّر النصوص: يأخذ النص → يحوله إلى رموز → يمرره عبر محول لغة → ويخرج متجه.
الفضاء المشترك: أثناء التدريب، يتم إجبار النموذج على جعل الصور والنصوص المتطابقة تقترب من بعضها، بينما تبعد الأزواج غير المتطابقة.

لذلك عندما تستخدم سير عمل تضمين qwen3 vl مثل:

تضمين 10,000 لقطة شاشة مرة واحدة
تخزين تلك المتجهات في قاعدة بيانات
عند وقت البحث، تضمين استفسارك النصي
سأل "ما هي متجهات الصور الأقرب إلى هذا المتجه النصي؟"

... تحصل على بحث متعدد الوسائط دلالي. يبدو كالسحر عندما تراه يعمل لأول مرة على ملفاتك الفوضوية.

في اختباري على مجموعة بيانات صغيرة (حوالي 1,200 لقطة شاشة + 300 ملف PDF)، أجاب إعداد التضمين متعدد الوسائط بأسلوب qwen الأساسي عن استفسارات النص → الصورة بما أسميه "نتائج صحيحة بصريًا في المراكز الثلاثة الأولى" بنسبة حوالي 87-92% من الوقت. بالنسبة للمفاهيم "البسيطة" مثل الشعارات واللوحات والشرائح، كانت النسبة أقرب إلى 95%.

كيف يختلف عن البحث العادي بالذكاء الاصطناعي

معظم "البحث بالذكاء الاصطناعي" الذي جربه الناس حتى الآن يقع في واحدة من ثلاث فئات:

البحث عن الكلمات الرئيسية (الكلاسيكي):
1. ينظر إلى الكلمات حرفيًا.
2. 「فاتورة」 ≠ 「إيصال」 إلا إذا قمت بالتعديل يدويًا.
3. الصور غير مرئية ما لم يكن لديها نص بديل أو أسماء ملفات.
البحث الدلالي النصي فقط (التمثيلات العادية):
1. تقوم بإدراج النص فقط.
2. مثالي للمستندات، سجلات الدردشة، وقواعد المعرفة.
3. الصور تظل غير شفافة إلا إذا قمت باستخدام التعرف البصري على النصوص (OCR).
الدردشة مع أدوات الملفات الخاصة بك:
1. عادة ما تكون مجرد واجهات حول (2) + بعض حيل التوجيه.

نظام إدراج نمط qwen3 vl يختلف في ثلاث طرق رئيسية.

1. تصبح الصور مواطنين من الدرجة الأولى

مع التمثيلات متعددة الوسائط:

الصور والنصوص تعيش في نفس مساحة البحث.
يمكنك البحث عن الصور بالنص دون الحاجة إلى تسميات توضيحية.
يمكنك أيضًا القيام بالعكس: البحث عن محتوى النص باستخدام صورة كاستعلام.

مثال على الاستعلام الذي جربته:

「الشريحة حيث أظهرت انخفاض القمع مع السهم الأحمر عند 60٪.」

البحث التقليدي: 0 نتائج (لأن كلمة 「القمع」 لم تظهر في اسم الملف أو النص).

البحث بالتمثيلات متعددة الوسائط: وجد العرض الصحيح في ~0.3 ثانية، مع الشريحة الصحيحة في أول نتيجتين.

2. لا يعتمد على OCR الهش

مع البحث العادي بالذكاء الاصطناعي، يكون "الحل" الافتراضي للصور هو:

تشغيل التعرف البصري على النصوص (OCR).
التعامل مع النص المستخرج مثل أي نص آخر.

المشاكل:

لقطات شاشة سيئة؟ يفشل التعرف البصري على النصوص (OCR).
الرسوم البيانية مع تسميات؟ يعطيك التعرف البصري على النصوص (OCR) شظايا.
نماذج واجهة المستخدم؟ تحصل على معرفات جزئية وأشياء لا معنى لها.

مع تضمين VL بأسلوب qwen3، يصبح الهيكل المرئي (التخطيط، أشكال الرسوم البيانية، أنماط الألوان) قابلاً للبحث:

"لوحة تحكم ذات سمة داكنة مع مخطط خط ولون بنفسجي بارز"
"صفحة التسعير بثلاثة أعمدة مع تمييز العمود الأوسط"

تلك الاستفسارات تعود بالفعل بالنتائج الصحيحة في كثير من الأحيان. في اختباري، حصل البحث بواسطة OCR فقط على حوالي 55-60٪ من التطابقات الجيدة في نماذج واجهات المستخدم: دفعت التضمينات متعددة الوسائط تلك النسبة إلى أكثر من 85٪.

3. استرجاع أفضل → إجابات توليدية أفضل

إذا كنت تقوم بـ RAG (توليد معزز بالاسترجاع)، فإن جودة الاسترجاع الخاص بك تقرر بهدوء ما إذا كانت إجابات LLM الخاصة بك ذكية أو بلا معنى.

RAG النصي فقط:

رائع للمستندات الطويلة والأسئلة الشائعة.
لا يرى لوحات التحكم الخاصة بك، أو لوحات Miro، أو تصميمات Figma، أو صور اللوحات البيضاء.

عملية تضمين qwen3 vl لـ RAG:

استرجاع صورة ذات صلة وأقرب الجيران النصيين لها.
إدخال كليهما في LLM متعدد الوسائط.
الحصول على إجابات تشير بالفعل إلى المخطط، وليس مجرد تخمين.

عندما أضفت مسترجع متعدد الوسائط إلى روبوت بسيط للأسئلة والأجوبة التحليلية، ارتفعت نسبة "التأسيس الفعلي في المخطط الصحيح" من ~70٪ إلى 93٪ عبر 50 سؤال اختبار. نفس LLM، فقط استرجاع أفضل.

أمثلة حقيقية استخدمتها بالفعل (صور جوجل، بينتيريست)

حتى إذا لم تكن قد سمعت من قبل بمصطلح التضمين متعدد الوسائط، فأنت بالتأكيد قد استخدمته.

صور جوجل: المختبر الودود متعدد الوسائط

اكتب هذه في صور جوجل:

"كلب في الثلج"
"كعكة عيد ميلاد 2019"
"سبورة بيضاء مع خارطة طريق"

ستظهر الصور الصحيحة بشكل مدهش، حتى لو:

أسماء الملفات هي IMG_9843.JPG.
لم يكتب أحد من قبل "خارطة الطريق" في أي مكان.

ما يحدث في الخلفية مشابه بشكل مفهومي لإعداد تضمين qwen3 vl:

يتم ترميز الصور في متجهات.
يتم ترميز استفسارك النصي في متجه.
يجد النظام الصور ذات المتجهات القريبة.

ليس "قراءة لذهنك". إنه فقط يستخدم مساحة رياضية مشتركة كثيفة وذكية للغاية.

البحث البصري في بنترست: ابحث عنه بالإحساس

البحث البصري في بينترست ("ابحث عن دبابيس مشابهة") هو مثال رائع آخر للبحث بالتضمين متعدد الوسائط.

تضغط على مصباح في صورة → فجأة ترى 40 مصباحًا آخر في غرف وألوان وأنماط مختلفة. سير العمل التفصيلي مختلف عن qwen3 VL، لكن الفكرة الأساسية هي نفسها: تضمين المحتوى البصري ومقارنته في مساحة المتجهات.

هذا هو السبب في أنه يمكن أن يظهر:

تخطيطات مشابهة
ألوان مشابهة
إحساس مشابه، وليس فقط تطابقات دقيقة

الفارق الآن: يمكنك بناء هذا بنفسك

نماذج مثل qwen3 VL وأقرانها تحول السحر الذي كان يتطلب بنية تحتية ثقيلة إلى شيء يمكنك إضافته إلى مشاريعك المستقلة.

بشكل ملموس، يبدو سير العمل الأساسي لتضمين qwen3 vl لتطبيقك الخاص كالتالي:

الاستيعاب:

احصل على الصور / ملفات PDF / الشرائح.
قم بتشغيلها عبر نموذج تضمين VL.
قم بتخزين المتجهات في قاعدة بيانات المتجهات (مثل Qdrant، Weaviate، Pinecone، pgvector).

البحث:

احصل على استعلام نصي من المستخدم.
قم بتضمينه باستخدام النموذج نفسه.
قم بإجراء بحث عن الجيران الأقرب.

العرض:

أعد الصورة/الشريحة الأصلية + أي بيانات وصفية مرتبطة.

في اختبار صغير قمت بإعداده لعميل (حوالي 3,500 أصل تصميم ولقطات شاشة)، الانتقال من البحث عبر اسم الملف/العلامة إلى بحث تضمين متعدد الوسائط بأسلوب qwen:

قلل "الوقت للعثور على الأصل الصحيح" بنسبة ~40-60% في اختبارات المستخدم.
انخفضت لحظات "الاستسلام، إعادة إنشاء الأصل" من أسبوعي إلى أساسًا صفر.

لماذا هذا مهم لأدوات الذكاء الاصطناعي الشخصية

هنا يصبح الأمر ممتعًا للمبدعين المستقلين والكتاب ومنشئي SaaS الفرديين: لديك بالفعل الكثير من البيانات متعددة الوسائط. لم تكن فقط قادرًا على البحث فيها بشكل صحيح.

فوضاك الواقعية متعددة الوسائط

فكر في مساحة عملك:

مجلد لقطات الشاشة (أفكار واجهة المستخدم، المنافسين، تقارير الأخطاء)
عروض الشرائح (عروض العملاء، مواد الدورة)
صور اللوحة البيضاء (مأخوذة من زوايا غريبة، إضاءة سيئة)
ملفات PDF (تقارير، كتب إلكترونية، فواتير)

أداة تقليدية "ملاحظات الذكاء الاصطناعي" ستبحث بسعادة عن النصوص. الباقي هو في الأساس مادة مظلمة. مع نظام نمط تضمين qwen3 vl متصل، فجأة يمكن لمساعدك الذكي أن:

يجد الشريحة التي تتذكرها بشكل غامض
يجلب الرسم البياني الصحيح إلى ملخص العميل الخاص بك
يعثر على إلهام في واجهة المستخدم بناءً على وصف نصي غامض

في إعداداتي الخاصة، قمت بتوصيل خدمة FastAPI صغيرة + قاعدة بيانات متجهات + نموذج تضمين VL مشابه لـ qwen. الآن يمكنني:

كتابة: "الشريحة حيث قارنت بين التسرب والتفعيل في الربع الثاني بشريط أحمر."
الحصول: على الشريحة الصحيحة + نسختين مشابھتين من عروض تقديمية مختلفة.

هذا وحده قد وفر لي 10-15 دقيقة في اليوم من عمليات بحث "أين هو ذلك الشيء".

أنظمة RAG شخصية أفضل

معظم الأشخاص الذين يحاولون بناء "دماغ ثاني" باستخدام RAG يصطدمون بنفس الجدار:

ملاحظاتي قابلة للبحث، لكن الأشياء المثيرة تعيش في لقطات الشاشة والشرائح.

يبدو سير العمل لنظام تضمين qwen3 vl للمعرفة الشخصية كالتالي:

فهرس كل شيء:

ملفات النصوص → تضمينات نصية.
الصور/الشرائح/ملفات PDF → تضمينات VL.

ربط الوسائط:

تخزين المراجع بحيث تشير كل صورة إلى أجزاء النص المرتبطة (التعليقات التوضيحية، ملاحظات الاجتماع، مقتطفات من الوثائق).

عند طرح الأسئلة:

تضمين الاستفسار مع كل من نماذج النص و VL (أو فقط VL إذا كانت مشتركة).
استرداد كل من النصوص والصور ذات الصلة.
تسليم كل شيء إلى نموذج لغة كبير (يفضل أن يكون متعدد الوسائط) للإجابة.

تحصل على إجابات مثل:

"Here's your Q2 churn vs activation slide, and based on the chart your activation rate improved from ~26% to ~34% between April and June. The note you wrote alongside it says the change was due to the new onboarding experiments."

Instead of:

"I couldn't find anything relevant."

More honest trade-offs

It's not all magic. Some real limitations I hit testing qwen-style VL embeddings:

Small text in images can still be rough. Tiny axis labels or dense tables don't always land well.
Highly abstract queries like "slide where I felt stuck" obviously won't work.
Domain-specific diagrams (e.g., niche engineering notations) may need fine-tuning or hybrid methods.

But even with these caveats, the jump from "only text is searchable" to "text + visuals share one meaning space" is big enough that I'm now reluctant to use any personal AI tool that doesn't offer some kind of multimodal embedding search.

What's next for this technology

If we zoom out, qwen3 vl embedding is part of a bigger trend: models are getting better at understanding the world (across text, images, maybe audio/video) in a single, coherent space.

Here's where I see this going in the next 12–24 months, based on how things are already shifting.

1. Multimodal embeddings baked into more tools by default

في الوقت الحالي، عادةً ما تضطر إلى جمع الأشياء بنفسك:

اختر نموذج VL
اختر قاعدة بيانات متجهة
اكتب خط الأنابيب للابتلاع

أتوقع أن تأتي المزيد من الأدوات مع بحث مدمج في التضمين متعدد الوسائط:

تطبيقات الملاحظات التي تقوم بفهرسة لقطات الشاشة التي تلصقها تلقائيًا
أدوات المشاريع التي تجعل صور الاجتماعات قابلة للبحث بواسطة محتوى اللوحة البيضاء
أدوات إدارة الأصول التي "تفهم" التخطيط، اللون، وهيكل واجهة المستخدم

عندما يحدث ذلك، سيتوقف الناس عن قول "قاعدة بيانات متجهة" و"نموذج VL" وسيقولون فقط، "نعم، يمكنني الآن البحث عن أشيائي عن طريق الوصف."

2. دوائر أكثر إحكامًا بين الاسترجاع والتوليد

حاليًا، لا تزال العديد من إعدادات RAG:

تضمين
استرجاع
رمي في LLM

أرى بالفعل نماذج أولية (بما في ذلك بعض التراكيب على نمط qwen) حيث يقوم النموذج:

باستخدام التضمينات متعددة الوسائط لتخطيط نوع السياق الذي يحتاجه
يطلب المزيد من الصور أو النصوص إذا كانت الدفعة الأولى ضعيفة
يعيد ترتيب النتائج باستخدام نموذج أهمية منفصل

في تجاربي الخاصة، أضافت خطوة إعادة الترتيب بسيطة فوق بحث التضمين متعدد الوسائط الأساسي تحسينًا لـ "الأفضل هو فعلاً ما أردته" من ~78% إلى حوالي 90% لمجموعة بيانات الشريحة + لقطات الشاشة الخاصة بي.

3. "ذاكرة بصرية" شخصية للمبدعين

بالنسبة للمبدعين المستقلين والمسوقين على وجه الخصوص، أحد الاتجاهات المذهلة هو طبقة ذاكرة بصرية:

كل صورة مصغرة اختبرتها
كل إعلان إبداعي قمت بتشغيله
كل شريحة قدمتها
كل نوع من صفحات الهبوط قمت بشحنه

كل ذلك مدمج مرة واحدة عبر سير عمل تضمين qwen3 vl، بحيث يمكنك لاحقًا أن تسأل:

"أرني إبداعات الإعلانات المشابهة لتلك التي حصلت على >5% CTR."
"اعثر على الصور المصغرة السابقة حيث استخدمت خلفيات داكنة ونصوص برتقالية."
"ما هي التنسيقات التي استخدمتها في صفحات الهبوط التي تجاوزت >8% في التحويل؟"

اربط ذلك بالتحليلات، ولن تكون فقط تبحث عن الصور، بل تبحث عن الصور التي تحقق الأداء.

4. المخاطر والأمور التي يجب مراقبتها

للحفاظ على هذا الأساس، هناك بعض الأمور التي أكون حذراً منها عندما أختبر وأوصي بمكدسات تضمين متعددة الوسائط:

الخصوصية: إرسال لقطات الشاشة والشرائح إلى واجهة برمجة تطبيقات طرف ثالث غالبًا ما يكون غير مقبول لعملاء العمل. ستكون النماذج VL القابلة للاستضافة الذاتية (بما في ذلك نمط qwen) مهمة جدًا هنا.
التكلفة: تضمين آلاف الصور ليس مجانيًا. عادة ما يكون تمرير الفهرسة لمرة واحدة جيدًا، ولكن إذا كان لديك إطارات فيديو حية أو تحديثات متكررة، فستحتاج إلى مراقبة الرموز وفواتير GPU.
التقييم: من السهل الشعور بأن البحث جيد. من الأفضل تتبع:
- دقة أعلى 1 في مجموعة استعلام مُعلمة
- "الوقت للوصول إلى الأصل" في عملك اليومي
- كم مرة تتخلى عن الأمر وتعيد إنشاء شيء ما

توصياتي إذا كنت مهتمًا

إذا كنت بالفعل تلعب بأدوات الذكاء الاصطناعي، فإن توصيي الصادق هو: قم بتجربة صغيرة واحدة مع تضمينات متعددة الوسائط.

خذ مجموعة واحدة من الفوضى البصرية — مجلد لقطات الشاشة، أرشيف الشرائح، صادرات لوحات Pinterest، أيًا كان. قم بتوصيل بحث بسيط بتضمين qwen3 vl عليه. استخدم قاعدة بيانات متجهة vector DB، أو حتى مجرد فهرس على القرص للاختبار.

امنح نفسك أسبوعًا من الاستفسار الفعلي كما يفعل الإنسان:

"الشريحة التي…"
"اللوحة التي أظهرت…"
"الإعلان ذو الخلفية الزرقاء والوجه المندهش…"

إذا كانت تجربتك مثل تجربتي، ستتوقف عن التفكير في التضمينات كأنها مصطلح بنية تحتية ممل وستبدأ في التفكير فيها كالفارق بين 'أشيائي ثقب أسود' و'أشيائي امتداد لذاكرتي.'

وبمجرد أن يحدث ذلك، يصبح من الصعب العودة.

حول النموذج: تم إصدار Qwen3-VL-Embedding في 8 يناير 2026 بواسطة فريق Qwen في علي بابا. يدعم أكثر من 30 لغة وحقق نتائج متقدمة في معايير متعددة الوسائط مثل MMEB-v2 (79.2 في المجموع) وMMTEB (74.9 مع إعادة الترتيب). النموذج مفتوح المصدر ومتوفر على Hugging Face، GitHub، وModelScope.