في المرة الأولى التي لعبت فيها مع qwen3 vl embedding في سير عمل حقيقي، توقعت تمامًا لحظة أخرى من "عرض رائع، عديم الفائدة في التطبيق العملي".
بدلاً من ذلك، طرحت سؤالًا غريبًا: "اعثر على الشريحة التي قارنت فيها بين Notion وObsidian باستخدام رسم بياني أرجواني وذكرت 'تكلفة الاحتكاك'." استخرج الشريحة المحددة من مجلد مبعثر من لقطات الشاشة وملفات PDFs والملاحظات في أقل من ثانية.
عندها أدركت: هذا ليس مجرد بحث متجهات أفضل. هذا هو تضمين متعدد الوسائط في الواقع – نفس الفكرة وراء سحر صور جوجل "كلب في الثلج"، الآن متاح كلبنة بناء لأدواتنا الخاصة. والنماذج مثل qwen3 vl embedding تجعل هذا المستوى من البحث شيئًا يمكنك إضافته إلى تطبيق الملاحظات الخاص بك أو نظام المحتوى أو SaaS المستقل دون الحاجة لدكتوراه في تعلم الآلة.
لنبسط المصطلحات.
عندما تسمع qwen3 vl embedding أو "التضمين متعدد الوسائط", فكر في:
"تحويل النصوص والصور إلى أرقام تعيش في نفس الفضاء المعنوي حتى يتمكنوا من العثور على بعضهم البعض."

نموذج التضمين النصي العادي يأخذ جملة مثل:
"قطة نائمة على جهاز كمبيوتر محمول."
…ويحوّلها إلى قائمة طويلة من الأرقام، شيء مثل [0.12، -0.88، 0.03، ...]. تُسمى هذه القائمة متجهًا. الجمل ذات المعنى المماثل تحصل على متجهات قريبة من بعضها.
نموذج التضمين المتعدد الوسائط مثل qwen3 VL يقوم بنفس الشيء، ولكن من أجل:
السر: النموذج يقوم بربط جميعها في نفس مساحة التضمين. هذا يعني:
…كلها تقترب من بعضها في هذا الفضاء المتجهي. لذلك عندما تبحث بالنص، يمكنك استرجاع الصور. وعندما تضمّن صورك، يمكنك تنظيمها وتجمعها بناءً على المعنى، وليس بناءً على اسم الملف أو المجلد.

لا تحتاج إلى الرياضيات الكاملة، ولكن هذا هو النموذج الذهني الذي أستخدمه:
لذلك عندما تستخدم سير عمل تضمين qwen3 vl مثل:
... تحصل على بحث متعدد الوسائط دلالي. يبدو كالسحر عندما تراه يعمل لأول مرة على ملفاتك الفوضوية.
في اختباري على مجموعة بيانات صغيرة (حوالي 1,200 لقطة شاشة + 300 ملف PDF)، أجاب إعداد التضمين متعدد الوسائط بأسلوب qwen الأساسي عن استفسارات النص → الصورة بما أسميه "نتائج صحيحة بصريًا في المراكز الثلاثة الأولى" بنسبة حوالي 87-92% من الوقت. بالنسبة للمفاهيم "البسيطة" مثل الشعارات واللوحات والشرائح، كانت النسبة أقرب إلى 95%.
معظم "البحث بالذكاء الاصطناعي" الذي جربه الناس حتى الآن يقع في واحدة من ثلاث فئات:
نظام إدراج نمط qwen3 vl يختلف في ثلاث طرق رئيسية.
مع التمثيلات متعددة الوسائط:
مثال على الاستعلام الذي جربته:
「الشريحة حيث أظهرت انخفاض القمع مع السهم الأحمر عند 60٪.」
البحث التقليدي: 0 نتائج (لأن كلمة 「القمع」 لم تظهر في اسم الملف أو النص).
البحث بالتمثيلات متعددة الوسائط: وجد العرض الصحيح في ~0.3 ثانية، مع الشريحة الصحيحة في أول نتيجتين.
مع البحث العادي بالذكاء الاصطناعي، يكون "الحل" الافتراضي للصور هو:
المشاكل:
مع تضمين VL بأسلوب qwen3، يصبح الهيكل المرئي (التخطيط، أشكال الرسوم البيانية، أنماط الألوان) قابلاً للبحث:
تلك الاستفسارات تعود بالفعل بالنتائج الصحيحة في كثير من الأحيان. في اختباري، حصل البحث بواسطة OCR فقط على حوالي 55-60٪ من التطابقات الجيدة في نماذج واجهات المستخدم: دفعت التضمينات متعددة الوسائط تلك النسبة إلى أكثر من 85٪.
إذا كنت تقوم بـ RAG (توليد معزز بالاسترجاع)، فإن جودة الاسترجاع الخاص بك تقرر بهدوء ما إذا كانت إجابات LLM الخاصة بك ذكية أو بلا معنى.
RAG النصي فقط:
عملية تضمين qwen3 vl لـ RAG:
عندما أضفت مسترجع متعدد الوسائط إلى روبوت بسيط للأسئلة والأجوبة التحليلية، ارتفعت نسبة "التأسيس الفعلي في المخطط الصحيح" من ~70٪ إلى 93٪ عبر 50 سؤال اختبار. نفس LLM، فقط استرجاع أفضل.

حتى إذا لم تكن قد سمعت من قبل بمصطلح التضمين متعدد الوسائط، فأنت بالتأكيد قد استخدمته.
اكتب هذه في صور جوجل:
ستظهر الصور الصحيحة بشكل مدهش، حتى لو:
ما يحدث في الخلفية مشابه بشكل مفهومي لإعداد تضمين qwen3 vl:
ليس "قراءة لذهنك". إنه فقط يستخدم مساحة رياضية مشتركة كثيفة وذكية للغاية.
البحث البصري في بينترست ("ابحث عن دبابيس مشابهة") هو مثال رائع آخر للبحث بالتضمين متعدد الوسائط.
تضغط على مصباح في صورة → فجأة ترى 40 مصباحًا آخر في غرف وألوان وأنماط مختلفة. سير العمل التفصيلي مختلف عن qwen3 VL، لكن الفكرة الأساسية هي نفسها: تضمين المحتوى البصري ومقارنته في مساحة المتجهات.
هذا هو السبب في أنه يمكن أن يظهر:
نماذج مثل qwen3 VL وأقرانها تحول السحر الذي كان يتطلب بنية تحتية ثقيلة إلى شيء يمكنك إضافته إلى مشاريعك المستقلة.
بشكل ملموس، يبدو سير العمل الأساسي لتضمين qwen3 vl لتطبيقك الخاص كالتالي:
الاستيعاب:
البحث:
العرض:
في اختبار صغير قمت بإعداده لعميل (حوالي 3,500 أصل تصميم ولقطات شاشة)، الانتقال من البحث عبر اسم الملف/العلامة إلى بحث تضمين متعدد الوسائط بأسلوب qwen:
هنا يصبح الأمر ممتعًا للمبدعين المستقلين والكتاب ومنشئي SaaS الفرديين: لديك بالفعل الكثير من البيانات متعددة الوسائط. لم تكن فقط قادرًا على البحث فيها بشكل صحيح.
فكر في مساحة عملك:
أداة تقليدية "ملاحظات الذكاء الاصطناعي" ستبحث بسعادة عن النصوص. الباقي هو في الأساس مادة مظلمة. مع نظام نمط تضمين qwen3 vl متصل، فجأة يمكن لمساعدك الذكي أن:
في إعداداتي الخاصة، قمت بتوصيل خدمة FastAPI صغيرة + قاعدة بيانات متجهات + نموذج تضمين VL مشابه لـ qwen. الآن يمكنني:
هذا وحده قد وفر لي 10-15 دقيقة في اليوم من عمليات بحث "أين هو ذلك الشيء".
معظم الأشخاص الذين يحاولون بناء "دماغ ثاني" باستخدام RAG يصطدمون بنفس الجدار:
ملاحظاتي قابلة للبحث، لكن الأشياء المثيرة تعيش في لقطات الشاشة والشرائح.
يبدو سير العمل لنظام تضمين qwen3 vl للمعرفة الشخصية كالتالي:
فهرس كل شيء:
ربط الوسائط:
عند طرح الأسئلة:
تحصل على إجابات مثل:
"Here's your Q2 churn vs activation slide, and based on the chart your activation rate improved from ~26% to ~34% between April and June. The note you wrote alongside it says the change was due to the new onboarding experiments."
Instead of:
"I couldn't find anything relevant."
It's not all magic. Some real limitations I hit testing qwen-style VL embeddings:
But even with these caveats, the jump from "only text is searchable" to "text + visuals share one meaning space" is big enough that I'm now reluctant to use any personal AI tool that doesn't offer some kind of multimodal embedding search.

If we zoom out, qwen3 vl embedding is part of a bigger trend: models are getting better at understanding the world (across text, images, maybe audio/video) in a single, coherent space.
Here's where I see this going in the next 12–24 months, based on how things are already shifting.
في الوقت الحالي، عادةً ما تضطر إلى جمع الأشياء بنفسك:
أتوقع أن تأتي المزيد من الأدوات مع بحث مدمج في التضمين متعدد الوسائط:
عندما يحدث ذلك، سيتوقف الناس عن قول "قاعدة بيانات متجهة" و"نموذج VL" وسيقولون فقط، "نعم، يمكنني الآن البحث عن أشيائي عن طريق الوصف."
حاليًا، لا تزال العديد من إعدادات RAG:
أرى بالفعل نماذج أولية (بما في ذلك بعض التراكيب على نمط qwen) حيث يقوم النموذج:
في تجاربي الخاصة، أضافت خطوة إعادة الترتيب بسيطة فوق بحث التضمين متعدد الوسائط الأساسي تحسينًا لـ "الأفضل هو فعلاً ما أردته" من ~78% إلى حوالي 90% لمجموعة بيانات الشريحة + لقطات الشاشة الخاصة بي.
بالنسبة للمبدعين المستقلين والمسوقين على وجه الخصوص، أحد الاتجاهات المذهلة هو طبقة ذاكرة بصرية:
كل ذلك مدمج مرة واحدة عبر سير عمل تضمين qwen3 vl، بحيث يمكنك لاحقًا أن تسأل:
اربط ذلك بالتحليلات، ولن تكون فقط تبحث عن الصور، بل تبحث عن الصور التي تحقق الأداء.
للحفاظ على هذا الأساس، هناك بعض الأمور التي أكون حذراً منها عندما أختبر وأوصي بمكدسات تضمين متعددة الوسائط:

إذا كنت بالفعل تلعب بأدوات الذكاء الاصطناعي، فإن توصيي الصادق هو: قم بتجربة صغيرة واحدة مع تضمينات متعددة الوسائط.
خذ مجموعة واحدة من الفوضى البصرية — مجلد لقطات الشاشة، أرشيف الشرائح، صادرات لوحات Pinterest، أيًا كان. قم بتوصيل بحث بسيط بتضمين qwen3 vl عليه. استخدم قاعدة بيانات متجهة vector DB، أو حتى مجرد فهرس على القرص للاختبار.
امنح نفسك أسبوعًا من الاستفسار الفعلي كما يفعل الإنسان:
إذا كانت تجربتك مثل تجربتي، ستتوقف عن التفكير في التضمينات كأنها مصطلح بنية تحتية ممل وستبدأ في التفكير فيها كالفارق بين 'أشيائي ثقب أسود' و'أشيائي امتداد لذاكرتي.'
وبمجرد أن يحدث ذلك، يصبح من الصعب العودة.
حول النموذج: تم إصدار Qwen3-VL-Embedding في 8 يناير 2026 بواسطة فريق Qwen في علي بابا. يدعم أكثر من 30 لغة وحقق نتائج متقدمة في معايير متعددة الوسائط مثل MMEB-v2 (79.2 في المجموع) وMMTEB (74.9 مع إعادة الترتيب). النموذج مفتوح المصدر ومتوفر على Hugging Face، GitHub، وModelScope.