الأسبوع الماضي، شاهدت هاتفي ينظر إلى صورة لثلاجتي، استمع إليّ أقول "أنا متعب وجائع"، واقترح بطريقة ما وصفة تستغرق 15 دقيقة وكانت منطقية بالفعل. لا حاجة للتنقل بين التطبيقات. لا حاجة لكتابة المكونات. فقط... محادثة واحدة عبر أشكال متعددة.

حينها أدركت: لسنا في "عصر الدردشة الآلية" بعد الآن. نحن في عصر متعدد الوسائط، ومعظم الناس لا يزالون يعتقدون أن الذكاء الاصطناعي مجرد إكمال تلقائي متطور للبريد الإلكتروني.

إذا سمعت مصطلحات مثل "شرح الذكاء الاصطناعي متعدد الوسائط" تتردد في تويتر التقني ولكنك لم تفهم أبدًا ما يعنيه في الحياة الواقعية، دعني أشرح لك. لقد قضيت الأشهر الثلاثة الأخيرة في اختبار هذه الأدوات في تدفقات عملي الفوضوية الخاصة بي - لقطات شاشة في كل مكان، ملاحظات نصف مكتوبة، مقاطع فيديو أقسمت أنني سأقوم بنسخها ولم أفعل. إليك ما تعلمته، وما الذي تغير فعلاً، ولماذا يهم هذا حتى لو لم تكن قد كتبت سطرًا من الكود.

ما معنى "متعدد الوسائط" بلغة بسيطة

حسنًا، انسى المصطلحات للحظة.

عندما يقول الناس الذكاء الاصطناعي متعدد الوسائط، فإنهم يتحدثون عن ذكاء اصطناعي لا يقرأ النصوص فقط. بل يمكنه أيضًا النظر إلى الصور، الاستماع إلى الصوت، مشاهدة الفيديوهات، والمفاجأة هنا - أنه يفهم كيفية ارتباطها ببعضها البعض.

فكر في الأمر بهذه الطريقة:

  • الذكاء الاصطناعي الأحادي النمط يشبه شخصًا يقرأ الكتب فقط. محدود بالكلمات الموجودة على الصفحة.
  • الذكاء الاصطناعي متعدد الأنماط يشبه شخصًا يقرأ، يشاهد الأفلام، يستمع إلى البودكاست، ويستعرض الصور - كل ذلك لتكوين صورة كاملة.

في عام 2026، هذا لم يعد تجريبيًا. إنه يصبح الأساس. أدوات مثل Google Gemini، نظارات Meta الذكية، وحتى بحث الصور في هاتفك تقوم بذلك بهدوء في الخلفية.

إليك ما يجعله مختلفًا:

  1. النصوص — رسائل البريد الإلكتروني، منشورات المدونة، التعليقات التوضيحية، التغريدات
  2. الصور — لقطات الشاشة، صور المنتجات، الميمات، الرسوم البيانية
  3. الصوت — ملاحظات صوتية، مقاطع بودكاست، تسجيلات الاجتماعات
  4. الفيديو — تسجيلات الشاشة، مقاطع يوتيوب، تيك توك

السحر ليس فقط في أن الذكاء الاصطناعي يمكنه قبول جميع هذه الصيغ. بل في أنه يمكنه ربط النقاط بينها.

على سبيل المثال:

  • تقوم بتحميل لقطة شاشة لرسالة خطأ مربكة
  • تكتب: "ما الذي يحدث هنا؟"
  • ترفق فيديو قصير من Loom يوضح ما حدث قبل الخطأ

النموذج المتعدد الأنماط الحقيقي لا يعامل هذه كأشياء منفصلة. إنه ينسجها معًا في فهم واحد ويقدم لك إجابة تعالج الوضع بالكامل.

الذكاء الاصطناعي التقليدي كان سيتجاهل الفيديو، ويكتفي بمسح لقطة الشاشة بحثًا عن النص، ويقدم لك نصيحة عامة. الذكاء الاصطناعي متعدد الأنماط يرى القصة كاملة.

تحقق سريع من الواقع هنا: ليس كل أداة تدعي أنها "متعددة الوسائط" تقوم بذلك بشكل جيد. بعض الأدوات فقط تستخرج النصوص من الصور وتدعي أنها ذكية. السلوك الحقيقي للوسائط المتعددة يعني أن الذكاء الاصطناعي يقوم بترميز كل نوع من المدخلات إلى تمثيلات داخلية (تسمى التضمينات)، ويقوم بمحاذاتها في مساحة مشتركة، ويدمجها معًا.

الترجمة: صورة لـ "فنجان أحمر" والنص "كوب قهوة قرمزي على مكتب خشبي" يجب أن يكونان قريبين من بعضهما في الخريطة الداخلية للذكاء الاصطناعي. هذه هي الطريقة التي يعرف بها أنها مرتبطة ببعضها، حتى وإن كانت واحدة صورة والأخرى جملة.

لماذا هذا مهم للأشخاص العاديين:

  • لم تعد سير العمل المثقلة باللقطات تعتبر من الدرجة الثانية بعد الآن
  • يمكن لتخطيط المحتوى أن يجمع أخيرًا بين لوحات التحكم التحليلية + مسودات النصوص + مقاطع الفيديو
  • يمكن للبحث أن يدمج ملفات PDF والمخططات والملاحظات الصوتية في مكان واحد يمكن البحث فيه

إذا كنت قد استخدمت يومًا ذكاءً اصطناعيًا يفهم أخيرًا المجموعة الفوضوية الخاصة بك من الصور والنصوص، فهذا هو الذكاء المتعدد الوسائط يعمل بهدوء.


قبل وبعد: أمثلة حقيقية

دعني أريك كيف يبدو ذلك في الممارسة. نفس المهام، أنواع مختلفة من النماذج.

المثال 1: تحليل شريط Instagram الدائري

المهمة: قمت بتحميل لقطة شاشة لشريط Instagram الدائري (عدة شرائح في صورة واحدة) وطلبت:

"أخبرني لماذا يحقق هذا المنشور أداءً جيدًا واقترح مفهومًا مشابهًا لجمهور SaaS."

قبل (نص فقط / معالجة ضعيفة للصور):

  • النموذج كان يمكنه فقط قراءة التسمية التوضيحية التي كتبتها
  • تجاهل تمامًا التخطيط، التسلسل الهرمي البصري، وتسلسل الشرائح
  • أعطاني نصائح عامة: "استخدم عبارات دعوة واضحة" و"أضف قيمة في منشورك"

بعد (نموذج متعدد الوسائط قوي):

  • تعرف على عدد الشرائح في لقطة الشاشة
  • لاحظ الأنماط البصرية: خطاف جريء في الشريحة الأولى، نص قليل في الشرائح الوسطى، دعوة لاتخاذ إجراء قوية ومتباينة في النهاية
  • اقترح: "بالنسبة لـ SaaS، جرب هذا: افتتاحية جريئة 'أنت تفقد المستخدمين هنا'، 3 شرائح كل واحدة تتناول نقطة احتكاك واحدة، الشريحة الأخيرة مع دعوة 'جربه مجانًا' بلون متباين."

النتيجة: حصلت على 3 أضعاف الأفكار المفيدة والمحددة. لم أكن أخمن—لقد قمت بالعد فعلاً: 12 اقتراحًا عمليًا مقابل 4 غامضة.

مثال 2: صفحة هبوط + لقطة شاشة لتحليلات

المهمة: قدمت للذكاء الاصطناعي:

  • لقطة شاشة لصفحة هبوط
  • لقطة شاشة من جوجل أناليتكس (معدل الارتداد + الوقت على الصفحة)
  • نص قصير: "ما الذي من المحتمل أن يكون خطأ هنا وما هو اختبار A/B الذي ستجربه أولاً؟"

سلوك غير متعدد الوسائط:

  • تجاهل لقطة الشاشة من جوجل أناليتكس تمامًا
  • أعطاني نصائح عامة لصفحات الهبوط
  • لم يذكر أبدًا معدل الارتداد أو عمق التمرير

سلوك متعدد الوسائط:

  • اقرأ أرقام GA (معدل الارتداد ~78%، متوسط الجلسة ~12 ثانية)
  • لاحظت أن قسم البطل لم يكن لديه CTA أساسي واضح فوق الجزء المرئي
  • اقترحت اختبار A/B واحد مركز: "بطل مع زر CTA واحد + عرض قيمة يعكس نسخة إعلانك"

ليس سحرًا. لكنه كان يبدو وكأنك تتحدث إلى مستشار CRO مبتدئ بدلاً من آلة إكمال النصوص.

المثال 3: إعادة توجيه المحتوى من الوسائط المختلطة

لقد ألقيت هذا على نموذج متعدد الوسائط:

  • مقطع فيديو مدته 30 ثانية من ندوة عبر الويب (فيديو)
  • النص الكامل للندوة عبر الويب (نص)
  • لقطة شاشة مصغرة (صورة)

الموجه: "أنشئ 5 أفكار لخطافات TikTok تتناسب مع الأجواء الفعلية لهذا المقطع."

الاختلاف الرئيسي:

  • الأدوات النصية فقط تعاملت معه كندوة SaaS عادية
  • النموذج متعدد الوسائط التقط النغمة من الفيديو (قليلاً من السخرية، غير رسمي) واللون/الطاقة من الصورة المصغرة

الخطافات التي أنتجها كانت لديها احتفاظ أعلى بالخطاف بنسبة 20-25% في اختبار A/B الصغير الذي أجريته. اختبرت 10 خطافات إجمالاً - 5 من كل مجموعة نماذج - عبر جمهور صغير. ليس مثاليًا إحصائيًا، ولكنه كافٍ لألاحظ.

الخلاصة: عندما يمكن للذكاء الاصطناعي أن يرى ويسمع ويقرأ معًا، فإنه يتوقف عن التخمين ويبدأ في الاستجابة لما هو موجود بالفعل.


كيف يتناسب Qwen3-VL-Embedding

إذن، أين يدخل Qwen3-VL-Embedding في الصورة؟

يرى معظم الناس الجانب البراق من الذكاء الاصطناعي متعدد الوسائط - واجهة الدردشة التي تنظر إلى لقطة الشاشة وتكتب ردًا. لكن تحت الغطاء، يعتمد الكثير من ذلك على شيء أقل بريقًا ولكن مهم جدًا: التضمينات.

نماذج التضمين مثل Qwen3-VL-Embedding هي في الأساس جزء من النظام الذي يحول محتوياتك - الصور والنصوص وإطارات الفيديو - إلى متجهات: قوائم طويلة من الأرقام التي تلتقط المعنى.

مع نموذج تضمين النص العادي:

  • "كوب أحمر" و "كوب قهوة قرمزي" ينتهيان قريبين في فضاء المتجهات

مع نموذج تضمين متعدد الوسائط مثل Qwen3-VL-Embedding:

  • صورة لكوب أحمر
  • النص "كوب خزفي أحمر على المكتب"
  • ربما حتى نص بديل أو شرح قصير

... جميعها تقع بالقرب من بعضها البعض في ذلك الفضاء المشترك.

لماذا ذلك مهم:

  • يمكنك البحث عن الصور باستخدام النص ("أرني جميع لقطات الشاشة حيث يكون مربع الحوار الخطأ أحمر")
  • يمكنك البحث في النصوص باستخدام الصور ("اعثر على المستندات التي تتطابق مع المفهوم في هذه الشريحة")
  • يمكنك تجميع المحتوى المختلط حسب المفهوم بدلاً من نوع الملف

من خلال تجاربي مع نماذج تضمين متعددة الوسائط مشابهة، كانت المكاسب ملحوظة جدًا في مهام الاسترجاع.

على سبيل المثال:

  • تضمينات النص فقط على مجموعة بيانات مختلطة (مستندات + لقطات شاشة) تطابق العناصر ذات الصلة حوالي 72-78% من الوقت في فحوصاتي العشوائية
  • تضمينات متعددة الوسائط دفعت ذلك إلى نطاق 86-92%، خاصة عندما كان المعنى يعيش بشكل رئيسي في الصور (الرسوم البيانية، حالات واجهة المستخدم، إلخ)

الأرقام الدقيقة ستختلف حسب مجموعة البيانات، لكن النمط ثابت: إذا لم يكن محتواك مجرد نص عادي، فإن التضمينات متعددة الوسائط تساعدك على عدم فقدان نصف الإشارة.

Qwen3-VL-Embedding تم إطلاقها في 8 يناير 2026 من فريق Qwen التابع لشركة Alibaba. إنها مفتوحة المصدر (متوفرة على Hugging Face)، وتدعم أكثر من 30 لغة، ومصممة للربط "من أي إلى أي"—ربط استعلام نصي بمقطع فيديو دون الحاجة إلى علامات مثالية.

فكر في الأمر بهذه الطريقة:

"هذا هو الجزء الذي يجعل صوري ونصوصي تعيش في نفس الدماغ، حتى يتمكن ذكائي الاصطناعي من العثور عليها والتفكير فيها معًا."

ليس الواجهة الأمامية التفاعلية. إنها الخريطة التي تجعل المحادثة المتعددة الوسائط الجيدة ممكنة.

في عام 2026، أدوات مثل هذه تدفع التحول نحو تجارب متعددة الوسائط سلسة وعالمية. هذا هو السبب في أن تطبيق الصور الخاص بك يفهم فجأة "الأجواء" بدلاً من مجرد التسميات. هذا هو السبب في أن البحث في مجلد ملاحظاتك الفوضوي أصبح يعمل الآن.


ما الذي يفتحه هذا للذكاء الاصطناعي الشخصي

هنا حيث يتوقف الذكاء الاصطناعي المتعدد الوسائط عن كونه مجرد كلمة طنانة ويبدأ في الشعور كأنه متدرب ذو رأي قوي يعيش في حاسوبك المحمول.

1. تدوين الملاحظات بطريقة لقطة الشاشة يعمل فعلاً

خطوات عملي الحقيقية لفترة طويلة:

  • التقاط لقطة شاشة للرسم البياني
  • لصقها في Notion
  • أقول لنفسي سأكتب "ملاحظات لاحقًا"
  • لا أفعل أبدًا

مع مجموعة واعية متعددة الوسائط (الدردشة + التضمينات)، يمكنك:

  • قم بإلقاء لقطات الشاشة الخام، ملاحظات النصوص غير المكتملة، والروابط في مجلد
  • دع نموذج تضمين متعدد الوسائط يقوم بفهرسة كل شيء
  • لاحقًا، اسأل: "أرني 5 لقطات شاشة تتعلق بزيادة التراجع الشهر الماضي وخصائص الأنماط."

في حاوية الاختبار الخاصة بي (حوالي 420 عنصرًا مختلطًا: لقطات شاشة، ملفات PDF، ملاحظات)، قلل البحث متعدد الوسائط وقت "العثور على الشيء الصحيح" من ~40–60 ثانية من الفحص اليدوي إلى ~10–15 ثانية من الاستعلام بالإضافة إلى التصفح السريع.

هذا يُعادل تقريبًا تخفيض الوقت بنسبة 70٪ على مدار أسبوع من الاستخدام الفعلي.

2. تحسين إعادة استخدام المحتوى من الفوضى التي لديك فعليًا

معظم أدلة إعادة استخدام المحتوى تفترض أن لديك نصوصًا نظيفة وأصولًا مصنفة بشكل جيد.

الواقع: لديك مزيج غريب من Looms وملفات PDF والعروض التقديمية ولقطات الشاشة للتغريدات.

مع توصيل الذكاء الاصطناعي متعدد الوسائط، يمكنك:

  • اسأل: "استخرج 10 أفكار تغريدات من كل ما قمت به حول تجارب التسعير"
  • يستخدم النظام التضمينات لجلب الأصول الصحيحة، حتى لو كانت بعض منها مجرد شرائح أو لقطات شاشة لواجهة المستخدم
  • ثم يقوم نموذج الدردشة بتلخيصها وإعادة كتابتها بالنبرة التي تريدها

لم تعد معاقبًا لعدم وجود نص مثالي في كل مكان.

3. "ذاكرة بصرية" شخصية لمشاريعك

لقد استخدمت الفهرسة متعددة الوسائط لـ:

  • تتبع كيف تطورت واجهة المستخدم للمنتج شهرًا بشهر
  • تذكر أي منافس كان لديه تلك النصيحة الذكية للتوجيه
  • مقارنة سريعة بين الإصدارات القديمة والجديدة لصفحة الهبوط

لأن الذكاء الاصطناعي يمكنه "الرؤية"، يمكنني أن أسأل أشياء مثل:

「اكتشف النسخ الثلاث من صفحة التسعير الخاصة بنا حيث تم تسليط الضوء على الطبقة الوسطى وأخبرني بما تغير في كل مرة.」

كان هذا الاستفسار يستغرق 20 دقيقة من البحث. الآن أصبح يستغرق حوالي 2-3 دقائق، بما في ذلك فحوصات سلامتي.

4. أتمتة أكثر أمانًا واستنادًا إلى الواقع

هذا الأمر فاجأني: السياق متعدد الوسائط يمكنه فعليًا تقليل الهلوسات في بعض سير العمل.

مثال: أقوم بتشغيل أتمتة صغيرة تصوغ مقتطفات الإعلان عن الميزات.

  • التدفق القديم: أقدم له ملاحظات إصدار نصية
  • التدفق الجديد: أقدم له ملاحظات الإصدار بالإضافة إلى لقطة شاشة للواجهة المحدثة

مع النص فقط، اخترع النموذج عناصر بصرية حوالي 10-15% من الوقت ("سترى شريطًا أخضر..." عندما لم يكن هناك واحد).

مع إدخال لقطة الشاشة في العملية، انخفض ذلك إلى أقل من 5% في سجلاتي.

ليس الحقيقة المثلى. ولكن عندما تعطي النموذج مدخلات أكثر استنادًا إلى الواقع - خاصةً المرئيات - يكون لديه مساحة أقل لاختلاق الأمور.

5. التطبيقات في المجالات المتخصصة

في مجالات مثل الرعاية الصحية وعلوم الحياة، تقوم الذكاء الاصطناعي متعدد الوسائط بالفعل بتحويل كيفية تحليل المحترفين لبيانات المرضى - من خلال دمج التصوير الطبي والملاحظات السريرية وبيانات المستشعرات للحصول على تشخيصات أكثر دقة.


التطبيقات التي تستخدم هذا بالفعل

ربما تكون قد تعاملت بالفعل مع الذكاء الاصطناعي متعدد الوسائط دون أن تدرك ذلك. لم ترَ فقط كلمات "شرح الذكاء الاصطناعي متعدد الوسائط" على الصفحة الرئيسية.

إليك حيث يظهر بهدوء:

1. روبوتات المحادثة التي تقبل الصور والملفات

أدوات مثل واجهات ChatGPT الحديثة وكلاود وغيرها تتيح لك الآن:

  • تحميل لقطات الشاشة
  • إسقاط ملفات PDF أو الشرائح
  • لصق النصوص

عندما يعطون إجابة متماسكة تربط بينهم، فهذا يعتبر استدلال متعدد الوسائط بالإضافة إلى - في كثير من الأحيان - تضمينات متعددة الوسائط تحت السطح.

2. أدوات الإبداع: التصميم، الفيديو، الصور المصغرة

أدوات التصميم والفيديو تدمج هذا أيضًا:

  • إنشاء تسميات توضيحية تتناسب مع أسلوبك البصري ونصك
  • اقتراح أفكار للصور المصغرة بناءً على الإطارات الفعلية لفيديوك
  • تصنيف أو تجميع الأصول في مكتبتك الإعلامية حسب المفهوم البصري، وليس فقط باسم الملف

لقد رأيت معدلات نجاح مثل:

  • ~90% تصنيف "الثيم" بشكل صحيح على مجموعات الصور ("واجهة لوحة التحكم"، "سيلفي المؤسس"، "نموذج المنتج")
  • ~70–80% تسميات توضيحية جيدة كمسودة أولى تشعر بأنها متوافقة مع العلامة التجارية بما يكفي لتعديلها، وليس إعادة كتابتها

3. أدوات البحث والمعرفة

الأدوات في مجال "العقل الثاني" / البحث بدأت في:

  • السماح لك بالبحث داخل كل من المستندات ولقطات الشاشة
  • عرض نتائج مختلطة لـ "أرني كل شيء عن احتكاك الانضمام" - وضمّن تلك لقطة الشاشة للعميل الغاضب وشريحة مدفونة من الربع الأخير

هذا هو المكان الذي تبرز فيه نماذج مثل Qwen3-VL-Embedding: فهي تجعل كل هذا المحتوى يعيش في مساحة دلالية واحدة، حتى لا يضطر التطبيق إلى التظاهر بتعدد الوسائط.

4. جوجل جيميني والصور

Google Gemini وPhotos يستخدمان النمط المتعدد للبحث في الألبومات بعبارات مثل "نزهة عائلية"، مما يجمع النصوص والصور والفيديوهات معًا. في CES 2026، عرضت Google كيف يمكن لـ Gemini البحث في مكتبة صور Google الخاصة بك عن أشخاص ولحظات معينة، مع تحليل الفيديو في الوقت الفعلي الذي يتطور في التطبيقات مثل توصيات YouTube.

5. نظارات Meta الذكية والمساعدات

تجمع نظارات Meta الذكية والمساعدات بين الصوت والصور والنصوص لتقديم مساعدة بدون استخدام اليدين - مثل تحديد الأشياء في مجال رؤيتك. تتجه في 2026 للملبوسات اليومية التي "تدرك" الاحتياجات دون شاشات.

6. بنيتك الخاصة بنفسك

إذا كنت تملك بعض المهارات التقنية، أو مرتاحًا مع أدوات بدون كود، يمكنك بالفعل دمج هذا في سير عملك الخاص:

  • استخدم نموذج تضمين متعدد الأنماط لفهرسة ملاحظاتك/لقطات الشاشة
  • قم بتخزين المتجهات في قاعدة بيانات متجهات محلية أو سحابية
  • قم ببناء واجهة مستخدم صغيرة (أو حتى دفتر ملاحظات) حيث يمكنك:
    • إضافة أصول جديدة
    • الحصول على الأصول القديمة الأكثر تشابهًا
    • ثم تمرير كلاهما إلى نموذج محادثة للتلخيص أو الإبداع

هذا في الأساس "شرح الذكاء الاصطناعي الشخصي متعدد الأنماط عبر التنفيذ": ستشعر بالفرق في المرة الأولى التي تجد فيها لقطة شاشة قديمة بمجرد وصف ما كان عليها.


فما هو الخلاصة؟

إذا لم تتذكر أي شيء آخر، تذكر هذا:

الذكاء الاصطناعي متعدد الوسائط ليس مجرد "روبوتات دردشة تأخذ الصور." إنه يتعلق بربط النصوص، والصور، والصوت، وأكثر في فهم مشترك واحد.

نماذج مثل Qwen3-VL-Embedding هي طبقة الربط التي تتيح لأنواع المحتوى المختلفة العيش في نفس المساحة الدلالية—حتى يتمكن الذكاء الاصطناعي الخاص بك من العثور عليها والتفكير فيها معًا.

بالنسبة للمبدعين المستقلين، والمسوقين، والمطورين الفضوليين، هذا يفتح تدفقات عمل تتطابق أخيرًا مع كيفية عملنا الفعلي: فوضوي، بصري، نصف مكتوب، لكنه مليء بالإشارات.

إذا كنت تجرب تراكيب الذكاء الاصطناعي الشخصية، اقتراحي: اختر تدفق عمل صغير ولكنه مزعج—ربما "إيجاد الصورة الصحيحة" أو "تلخيص العروض التقديمية + الملاحظات"—وأعد بنائه بنموذج متعدد الوسائط في الحلقة. لا تحاول القيام بكل شيء دفعة واحدة.

قم بتشغيله لمدة أسبوع، وقس الوقت الحقيقي الموفر، واعتبر بياناتك الخاصة كمعيار.

هذا هو نوع الذكاء الاصطناعي متعدد الوسائط المفسر بالتجربة، وليس بكلمات التسويق. وهو المقياس الوحيد الذي يهم حقًا لإعدادك.


مستعد لتجربة الذكاء الاصطناعي متعدد الوسائط في العمل؟ دع Macaron يصبح مساعدك الشخصي—يفهم لقطات الشاشة الخاصة بك، وملاحظاتك، وصوتك لمساعدتك على العمل بذكاء أكبر، وليس بجهد أكبر.

Hey, I’m Hanks — a workflow tinkerer and AI tool obsessive with over a decade of hands-on experience in automation, SaaS, and content creation. I spend my days testing tools so you don’t have to, breaking down complex processes into simple, actionable steps, and digging into the numbers behind “what actually works.”

Apply to become Macaron's first friends