
المؤلف: بوكسي لي
OpenAI Realtime هو منصة تم تقديمها مؤخرًا تمكن من التفاعلات الحية والمتعددة الوسائط بالذكاء الاصطناعي - لا سيما المحادثات الصوتية الدخول والخروج في الوقت الحقيقي. تجمع بين فهم اللغة المتقدم مع التعرف الفوري على الكلام وتوليده، كلها مدمجة في نظام واحد. يمثل هذا قفزة كبيرة في مجال الذكاء الاصطناعي الفوري، مقدمة مستوى جديد من السلاسة والاستجابة لوكلاء الصوت. في هذا المنشور، نتعمق في الأسس التقنية لـ OpenAI Realtime، نستكشف ما يميزها، ندرس حالات الاستخدام الواقعية للمطورين والشركات والمستخدمين الملمين بالتكنولوجيا، ونقارنها بأنظمة الذكاء الاصطناعي المتدفقة الأخرى مثل Bard/Gemini من جوجل وClaude من Anthropic. سنتحدث أيضًا عن تأثيراتها على الإنتاجية وتجربة العملاء وسير عمل المطورين وتصميم الإنسان في الحلقة.
نظرة عامة: تتكون OpenAI Realtime من واجهة برمجة تطبيقات Realtime ونموذج جديد لتحويل الصوت إلى صوت يسمى GPT‑Realtime[1]. معاً، يوفران ذكاءً اصطناعياً محادثياً للبث المباشر بزمن انتقال منخفض مع دعم للإدخال والإخراج الصوتي بالإضافة إلى النصوص والصور. على عكس خطوط أنابيب المساعد الصوتي التقليدية التي تجمع بين وحدات تحويل الكلام إلى نص والنص إلى كلام بشكل منفصل، يقوم GPT-Realtime بمعالجة الصوت المدخل وإنتاج الصوت المخرج بنموذج موحد واحد[2]. عملياً، يعني ذلك تقليل التأخير بشكل كبير وتجربة محادثة طبيعية ومفصلة أكثر. تم بناء OpenAI Realtime للتواصل الديناميكي ثنائي الاتجاه - يمكنك التحدث إليه بشكل طبيعي وحتى مقاطعته أثناء الرد، وسيقوم بتعامل مع تبادل الأدوار بسلاسة[3]. المنصة متاحة بشكل عام للمطورين (بعد نسخة بيتا منذ أواخر 2024) مع ميزات جاهزة للإنتاج لبناء وكلاء صوت[4].
نموذج موحد لتحويل الكلام إلى كلام: في قلب OpenAI Realtime يوجد نموذج GPT-Realtime، الذي يتعامل مع المدخلات والمخرجات الصوتية في شبكة عصبية واحدة من طرف إلى طرف. هذا التصميم يمثل خروجًا عن هندسة مساعد الصوت التقليدي. من خلال دمج التعرف على الكلام، وفهم اللغة، وتوليف الكلام، يتجنب التأخيرات والأخطاء التي يمكن أن تتراكم عند ربط نماذج متعددة. نتيجة لذلك، يحقق النظام انخفاضًا ملحوظًا في زمن الاستجابة واستجابات أكثر تماسكًا تحافظ على دقة مدخلات المستخدم الصوتية[2][5]. في الواقع، يشير متبنو الصناعة مثل PwC إلى أن هذا النهج الموحد، على عكس روبوتات IVR التقليدية (الاستجابة الصوتية التفاعلية)، يوفر “محادثات أكثر شبهًا بالبشر وواعية للسياق في الوقت الفعلي” ويكون أسهل في النشر والإدارة نظرًا لعدم الحاجة إلى الحفاظ على مكونات ASR/TTS منفصلة[6]. تتم الاتصالات مع Realtime API عبر قنوات مستمرة (باستخدام WebSockets أو WebRTC) لبث البيانات، مما يتيح تفاعلًا سلسًا ذهابًا وإيابًا مع أقل تكلفة[7][8]. يدعم تصميم النظام منخفض زمن الاستجابة أيضًا تبادل الأدوار الطبيعي – يمكن للمستخدمين التدخل أو التوضيح بينما يتحدث الذكاء الاصطناعي، وسوف يتكيف النظام بشكل سلس، مثل محادثة بشرية[9][3].
السياق متعدد الوسائط والمستمر: لا يقتصر OpenAI Realtime على الصوت فقط – بل يدعم النصوص وحتى الصور كجزء من الجلسة الحية. يمكن للمطورين إرسال الصور (كالصور الفوتوغرافية، لقطات الشاشة، إلخ) إلى المحادثة بجانب الصوت، مما يتيح للنموذج “رؤية” ما يراه المستخدم وتأسيس ردوده على السياق البصري. على سبيل المثال، يمكن للمستخدم أن يسأل، “ماذا ترى في هذه الصورة؟” أو “اقرأ النص في لقطة الشاشة هذه”، وسيقوم الوكيل بتحليل الصورة والرد وفقًا لذلك. تشبه هذه القدرة متعددة الوسائط نسخة في الوقت الفعلي من فهم الصورة الذي تم تقديمه في ChatGPT. ومن الجدير بالذكر أن الصور تُعامل كمدخلات منفصلة (مثل مرفق في المحادثة) بدلاً من أن تكون تدفق فيديو مستمر، لذا يظل المطورون مسيطرين على متى وما الذي يراه النموذج. وبالتالي، يمكن أن يتضمن سياق الجلسة حوارًا منطوقًا، وصورًا محملة، ونصوصًا – مما يوفر سياقًا غنيًا ومستمرًا يمكن للذكاء الاصطناعي الرجوع إليه. كما قامت OpenAI بتوفير دعم للاتصال الهاتفي: حيث يمكن للواجهة البرمجية الاتصال عبر SIP (بروتوكول بدء الجلسة) بشبكات الهاتف. هذا يعني أن وكيل Realtime يمكن أن يعمل بفعالية كروبوت صوتي في المكالمات الهاتفية، متكاملًا مع مراكز الاتصال أو تطبيقات الهاتف مباشرة.
توليف الصوت الطبيعي والتخصيص: إحدى السمات البارزة لـ GPT-Realtime هي مخرجات الصوت عالية الجودة والمعبرة. قامت OpenAI بتحسين توليد الصوت بشكل كبير لجعل صوت الذكاء الاصطناعي يبدو أكثر حيوية وجاذبية. يمكن للنموذج التحدث بإيقاع ونبرة بشرية، مع العاطفة والوتيرة – وهو أمر مهم للحفاظ على راحة المستخدمين في المحادثات الطويلة. حتى أنه يتبع التعليمات الدقيقة للأسلوب؛ يمكن للمطورين توجيهه لتعديل أسلوب الحديث (مثل “التحدث بسرعة وباحترافية” أو “الرد بتعاطف في نبرة هادئة”) وسيقوم بتعديل تسليمه وفقًا لذلك. لعرض هذه التحسينات، أطلقت OpenAI واجهة برمجة التطبيقات في الوقت الحقيقي بصوتين جديدين، “Cedar” و “Marin”، يوصفان بأن لديهما تحسنًا كبيرًا في الطبيعية. في الواقع، تم ترقية جميع الأصوات المركبة الحالية لـ OpenAI لزيادة الواقعية. يمكن للمستخدمين والمطورين اختيار من مجموعة من الأصوات لتناسب حالتهم الخاصة أو شخصية العلامة التجارية. هذا الدعم المتعدد الأصوات مشابه لما تقدمه المنصات الأخرى (مثل Claude من Anthropic، الذي يوفر مجموعة من الخيارات الصوتية المتميزة في تطبيقه)، لكن تركيز OpenAI على التعبير الدقيق – حتى القدرة على التعبير عن الضحك أو تغيير النبرة في منتصف الجملة – هو ما يميزها.
الذكاء والفهم: تحت الغطاء، يعتمد GPT-Realtime على أحدث تحسينات عائلة GPT-4 من OpenAI للصوت. تشير تقارير OpenAI إلى أنها قد حسنت بشكل كبير من فهم واستدلال النموذج على المدخلات المنطوقة. يمكنه فهم التعليمات المعقدة والمتعددة الخطوات المقدمة شفهيًا والاحتفاظ بالسياق عبر المحادثة. تظهر المعايير الداخلية أن النموذج الجديد يتفوق على إصدار ديسمبر 2024 السابق في مهام الاستدلال المقدمة في شكل صوتي (على سبيل المثال، تحقيق 82.8% في اختبار استدلال صوتي صعب مقارنة بـ 65.6% سابقًا)[18]. كما أنه بارع في التعامل مع العناصر الصوتية المعقدة – يتعرف على الأصوات غير اللفظية مثل الضحك ويمكنه نسخ التسلسلات الأبجدية الرقمية بدقة (مثل الرموز، الأرقام التسلسلية، أرقام الهواتف) حتى عند نطقها بلغات مختلفة[18]. يدعم النموذج أيضًا التحول بين اللغات بسلاسة في نفس الجملة، وهو ما يكون مفيدًا في البيئات متعددة اللغات. كل هذه التحسينات تعني أن الذكاء الاصطناعي يمكنه إجراء حوار أكثر ذكاءً وتكيفًا عالميًا دون التعثر في فجوات التعرف على الكلام الشائعة.
استخدام الأدوات الديناميكي عبر استدعاء الوظائف: يرث OpenAI Realtime ميزة استدعاء الوظائف من GPT-4، مما يسمح للذكاء الاصطناعي باستدعاء الأدوات أو واجهات برمجة التطبيقات الخارجية أثناء المحادثة (على سبيل المثال، للبحث عن معلومات، إجراء حسابات، أو تنفيذ معاملات). تم ضبط النموذج الجديد GPT-Realtime لاستدعاء الوظيفة الصحيحة في الوقت المناسب بدقة عالية، مع تمرير الحجج المكونة جيدًا حسب الحاجة[19]. على سبيل المثال، إذا طلب المستخدم من الوكيل، "احجز لي اجتماعاً مع الدكتور سميث الأسبوع القادم،" يمكن للذكاء الاصطناعي استدعاء وظيفة واجهة برمجة تطبيقات التقويم لجدولة الحدث. تُظهر بيانات OpenAI تحسينات كبيرة في مهام استخدام الأدوات متعددة الخطوات المعقدة (تحسن معدل نجاح استدعاء الوظيفة من ~50% إلى ~66% بعد الضبط)[20]. الأهم من ذلك، أن استدعاءات الوظائف يمكن أن تكون غير متزامنة، مما يعني أنه إذا استغرق إجراء خارجي وقتًا (مثلاً، البحث في قاعدة بيانات)، فإن النموذج لا يجمد المحادثة – بل يمكنه متابعة المحادثة ثم دمج النتائج بمجرد عودتها[21]. يؤدي ذلك إلى حوارات أكثر سلاسة وأقرب للطبيعة البشرية حيث يمكن للذكاء الاصطناعي أن يقول "دعني أتحقق من ذلك لك..." ويبقي المستخدم مشغولاً بينما يكتمل العمل الطويل. لجعل دمج الأدوات المخصصة أسهل، يدعم الآن Realtime API بروتوكول سياق النموذج (MCP) – وهو واجهة مفتوحة لتوصيل خوادم الأدوات الخارجية. يمكن للمطورين ببساطة توجيه جلسة Realtime إلى خادم MCP (على سبيل المثال، واحد يوفر الوصول إلى واجهات برمجة التطبيقات الداخلية للشركة أو قاعدة معرفة) وسيكتشف النموذج تلقائيًا تلك الأدوات ويستخدمها عندما تكون ذات صلة[22]. تبديل مجموعات الأدوات الجديدة سهل مثل تغيير عنوان خادم في التكوين، دون الحاجة إلى توصيلات إضافية[23]. يفتح هذا التصميم الباب لوكلاء الصوت القابلين للتوسعة الذين يمكنهم اكتساب مهارات جديدة (مثل جلب بيانات CRM، التحكم في أجهزة إنترنت الأشياء، معالجة المدفوعات، إلخ.) فقط عن طريق الاتصال بنقاط نهاية MCP مختلفة[22].
السلامة، الخصوصية، والحكم: نظرًا لأن وكلاء الذكاء الاصطناعي في الوقت الفعلي يمكنهم التفاعل مباشرة مع المستخدمين النهائيين، فقد قامت OpenAI ببناء عدة طبقات أمان في نظام Realtime. تدير جلسات API مرشحات محتوى نشطة تراقب المحادثة ويمكنها إيقاف الاستجابات في الوقت الفعلي إذا بدأ الذكاء الاصطناعي في إنتاج محتوى غير مسموح به. يساعد هذا في منع المخرجات الضارة أو التي تنتهك السياسات في الحوار المستمر. كما تمنح OpenAI المطورين أدوات لتنفيذ حواجز حماية خاصة بهم أو إشراف بشري. على سبيل المثال، باستخدام SDK للوكلاء، يمكن للمرء طلب موافقات بشرية في الحلقة لاستدعاءات الأدوات أو القرارات ذات المخاطر العالية قبل أن يتابع الذكاء الاصطناعي. بالإضافة إلى ذلك، يستخدم Realtime API شخصيات صوتية معرفية مسبقًا للذكاء الاصطناعي (بدلاً من استنساخ أصوات عشوائية) لتقليل مخاطر الاحتيال بالتنكر. على صعيد الخصوصية، تقدم OpenAI خيارات إقامة البيانات – يمكن للعملاء المقيمين في الاتحاد الأوروبي الاحتفاظ بالبيانات داخل خوادم الاتحاد الأوروبي، وتنطبق التزامات الخصوصية على مستوى المؤسسة على الخدمة. تمنح هذه الميزات صانعي القرار في الشركات الثقة في أن نشر وكلاء Realtime يمكن أن يلتزم بمعايير الامتثال والسلامة.
تترجم قدرات OpenAI Realtime إلى مجموعة واسعة من التطبيقات الواقعية. دعونا نوضح تأثيرها على ثلاثة جمهور رئيسي: المطورين الذين يبنون باستخدام التكنولوجيا، وصناع القرار في المؤسسات الذين ينشرونها على نطاق واسع، والمستخدمين النهائيين المتقنين للتكنولوجيا الذين سيتفاعلون مع هؤلاء الوكلاء الذكيين.
بالنسبة لمطوري البرمجيات ومُنشئي الذكاء الاصطناعي، يُعتبر OpenAI Realtime مجموعة أدوات قوية جديدة تقلل بشكل كبير من الحواجز أمام إنشاء التطبيقات المُمكَّنة بالصوت. لم يعد المطورون بحاجة إلى دمج محركات التعرف على الكلام، والنماذج اللغوية، والمُركبات الصوتية بشكل منفصل – بل يمكنهم استدعاء واجهة برمجة تطبيقات واحدة تتعامل مع الدورة بأكملها. هذه البساطة تعني دورات تطوير أسرع ومشاكل تكامل أقل. وفقًا لـ OpenAI، قام آلاف المطورين باختبار Realtime API في النسخة التجريبية وساعدوا في تحسينها لتكون موثوقة في الإنتاج وذات زمن استجابة منخفض[27]. يستخدم API بروتوكول WebSocket/WebRTC للبث، لذا فإن التعامل مع إدخال/إخراج الصوت يكون بسيطًا مثل التعامل مع دردشة بث مباشر. على سبيل المثال، يمكن للمطور توصيل API بإدخال ميكروفون وإخراج مكبر صوت في تطبيق جوال أو تطبيق ويب، والحصول على نصوص مؤقتة واستجابات صوتية في الوقت الفعلي. يتيح الاتصال الدائم أيضًا الكشف عن نقاط الأحداث (مثل session_created، transcript_received، response_started) التي يمكن للمطورين الاستماع إليها لتحديث واجهة المستخدم الخاصة بهم أو تسجيل المحادثات[28]. يجعل هذا التصميم المعتمد على الأحداث، مع أدوات مثل Realtime Console، من السهل تصحيح الأخطاء وضبط تفاعلات الصوت أثناء التطوير[29].
تُفتح إمكانيات جديدة للتطبيقات بفضل طبيعة Realtime المتعددة الوسائط واستخدام الأدوات. يمكن للمطورين إنشاء وكلاء صوت تفاعليين ينفذون مهام معقدة ويحافظون على السياق على مدى جلسات طويلة. على سبيل المثال، يمكن بناء مساعد شخصي صوتي لا يقتصر فقط على الدردشة بل يقوم أيضًا باتخاذ إجراءات - كفحص جدول مواعيدك، والتحكم في أجهزة المنزل الذكية، أو استرجاع البيانات من قاعدة بيانات - وكل ذلك عبر استدعاءات الوظائف. تتيح واجهة استدعاء الوظائف من OpenAI التكامل مع الخدمات الخارجية بسلاسة، مما "يوسع بشكل كبير أنواع التطبيقات التي يمكن بناؤها" من خلال منح المطورين الكثير من الحرية الإبداعية في تشكيل مجموعة مهارات الوكيل. بعض الأمثلة المحددة التي استكشفها المطورون بالفعل تشمل: مساعدات صوتية ذكية للمنازل (قام أحد المطورين بربط واجهة برمجة التطبيقات Realtime بنظام أتمتة المنزل للتحكم في الأضواء والأجهزة عبر الكلام الطبيعي)، روبوتات دعم العملاء المدعومة بالذكاء الاصطناعي (مُدمجة مع أنظمة التذاكر وقواعد المعرفة للتعامل مع استفسارات العملاء الشائعة عبر الهاتف)، وتطبيقات تعليمية تعتمد على الصوت (التدريس أو ممارسة اللغة مع AI يتحدث ويستمع كمدرب بشري).
جانب آخر للمطورين هو القدرة على تقديم تجارب تفاعلية بحق في منتجاتهم. يمكن للألعاب وتطبيقات الترفيه، على سبيل المثال، استخدام تقنية Realtime للسماح للاعبين بالتحدث مع الشخصيات غير القابلة للعب (NPCs) عبر الصوت، مما يجعل اللعبة أكثر اندماجًا. يمكن لبرامج التعاون والإنتاجية إضافة مساعدين شخصيين يعملون بالصوت – فكر في إمكانية قول، "صغ رسالة بريد إلكتروني للفريق حول المشروع X" في تطبيق إدارة المشاريع وجعل الوكيل يقوم بصياغتها، أو طلب ملخص شفهي لتحليلات البيانات مثل "ملخص اتجاهات المبيعات لهذا الربع" والاستماع إلى الإجابة بصوت مع رسم بياني تم إنشاؤه. لأن واجهة برمجة التطبيقات Realtime تدعم الصور والنص، يمكن للمطورين أيضًا مزج الوسائط – مثل مساعد صوتي يعرض الرسوم البيانية أو نتائج الويب بصريًا أثناء سرد تفسير. المهم، أن الكمون المنخفض يضمن أن هذه التفاعلات تبدو سريعة. قدرة النموذج على التعامل مع المقاطعات وتبادل الأدوار بسرعة تعني أن المطورين يمكنهم تصميم تدفقات محادثة طبيعية أكثر، حيث لا يتعين على المستخدمين الاستماع إلى مونولوجات طويلة أو مطالبات جامدة. كما يشير أحد المقارنات، فإن تقنية Realtime من OpenAI مصممة لـ التبادل الطبيعي للأدوار، حيث تتعامل مع مقاطعات المستخدم "بشكل طبيعي" عن طريق التوقف أو تعديل استجابتها حسب الحاجة. كل هذا يفتح مجال تصميم تجربة مستخدم أغنى لتطبيقات الصوت مما كان ممكنًا سابقًا.
من منظور سير العمل العملي، يحتاج المطورون الذين يستخدمون OpenAI Realtime إلى مراعاة بعض العوامل الجديدة. اختبار وتوجيه النماذج الصوتية يختلف قليلاً عن النصوص - ستحتاج إلى تقديم أمثلة للمحادثات والتأكد من أن النموذج يستجيب بنبرة مناسبة. يسمح OpenAI للمطورين بتحديد قوالب توجيه قابلة لإعادة الاستخدام تتضمن تعليمات النظام، وحوارات نموذجية، وتعريفات الأدوات لضبط السلوك المطلوب. يمكن حفظ هذه القوالب وتطبيقها عبر الجلسات، مثلما يتم تحديد شخصية أو دور لـ ChatGPT. كما يجب على المطورين إدارة تدفقات الصوت – توفر الـ API نصوص مؤقتة لخطاب المستخدم وحدث النص النهائي، والتي يمكنك استخدامها لعرض التسميات التوضيحية أو السجلات. من ناحية المخرجات، يمكن للمطورين اختيار تشغيل الصوت المباشر للمستخدمين أو عرض النص إذا لزم الأمر (لأغراض الوصول أو الواجهات متعددة الوسائط). يعني تقديم هذه الـ API القوية أيضًا أن المطورين يجب أن يكونوا على دراية بالحدود والسعر: تسعير OpenAI لـ GPT-Realtime يعتمد على الاستخدام (حوالي 32 دولار لكل مليون رمز صوتي مدخل و64 دولار لكل مليون رمز مخرج كما في إطلاق GA). في الممارسة، يكون هذا أرخص بكثير من توظيف وكلاء حقيقيين، ولكن يجب على المطورين تحسين طول الردود وموعد استخدام الصوت للتحكم في التكاليف. بشكل عام، يوفر OpenAI Realtime "لبنة ليجو" جديدة ومثيرة للمطورين - يمكن إدراجها في التطبيقات لتقديم قدرات كانت صعبة التنفيذ سابقًا، مما يسمح لمكالمة API واحدة بإعطاء تطبيقك القدرة على الاستماع والتفكير والتحدث في الوقت الحقيقي.
بالنسبة للمؤسسات، يمثل OpenAI Realtime تغييرًا محتملاً في قواعد اللعبة في تجربة العملاء وكفاءة العمليات. يمكن للشركات التي تتعامل مع كميات كبيرة من التفاعلات مع العملاء (مثل مراكز الاتصال، خطوط المساعدة، دعم المبيعات، وغيرها) الاستفادة من هذه التقنية لإنشاء وكلاء ذكاء اصطناعي يتحدثون بشكل طبيعي مع العملاء ويقومون بأتمتة العديد من التفاعلات التي كانت تتطلب ممثلاً بشريًا. بخلاف قوائم الهاتف الروبوتية أو روبوتات الدردشة في السابق، يمكن لهؤلاء الوكلاء التعامل مع الطلبات المعقدة والمتعددة الخطوات والاستجابة بطريقة ودية تشبه البشر - مما يمكن أن يحسن بشكل كبير من رضا العملاء. الشركات التي تبنت هذه التقنية مبكرًا بالفعل ترى الوعد. على سبيل المثال، شركة العقارات Zillow التي جربت Realtime للمساعدة في البحث عن المنازل عبر الصوت، لاحظت أن نموذج GPT-Realtime يمكنه التعامل مع طلبات المستخدم المعقدة والمتعددة الخطوات مثل تقليص قوائم المنازل وفقًا لاحتياجات نمط حياة محددة جدًا، أو توجيه المستخدم من خلال حسابات القدرة على تحمل الرهن العقاري عن طريق استدعاء أدوات خارجية. يمكن أن تجعل هذه التجربة "البحث عن منزل يبدو طبيعيًا مثل محادثة مع صديق"، مما يبسط القرارات للمشترين والمستأجرين. هذا النوع من المساعدة الحوارية يمكن أن يعمق مشاركة العملاء من خلال جعل التفاعلات تبدو شخصية وبديهية.
أتمتة مركز الاتصال: ربما يكون أوضح استخدام للمؤسسات هو نشر وكلاء صوت AI في الوقت الفعلي في مراكز الاتصال. قامت PwC، بالتعاون مع OpenAI، ببناء وكيل صوت لمراكز الاتصال باستخدام Realtime API وأفادت بأنه يوحد أدوار أنظمة قديمة متعددة (التعرف على الكلام، قوائم IVR، إدارة الحوار) في عقل AI واحد. والنتيجة هي وكيل يمكنه فهم أسئلة أو مشاكل المتصلين الحرة بشكل حقيقي، والتحدث بشكل طبيعي لتوضيح المشكلة، ثم تنفيذ الحلول عبر الأدوات الخلفية - كل ذلك في حوار مستمر. يمكن لهذا أن يقلل بشكل كبير من الحاجة إلى إحالة المستخدمين إلى وكلاء بشريين. في الواقع، أظهرت التوقعات الأولية انخفاضًا يصل إلى 20% في التصعيد إلى وكلاء بشريين بفضل تحسين حل المكالمات الأولى عند استخدام وكيل AI. تقليل تحويل المكالمات لا يقلل فقط من التكاليف بل يزيل أيضًا الإحباط الذي يشعر به العملاء عند التحويل بين الأقسام. وعند الحديث عن التكاليف، فإن الكفاءات على نطاق واسع هائلة: تقدر PwC توفيرًا في التكاليف يصل إلى 70% لمركز اتصال يتعامل مع 100 ألف مكالمة شهريًا باستخدام وكلاء الصوت AI، وذلك بفضل الأتمتة وتقليل وقت المعالجة. حتى إذا اختلفت هذه الأرقام حسب الصناعة، فإن الاتجاه واضح - يمكن لـ AI الصوتي في الوقت الفعلي التعامل مع جزء كبير من الاستفسارات والمهام الروتينية، مما يحرر الموظفين البشريين للتركيز على الحالات الأكثر تعقيدًا أو حساسية.
فائدة أخرى للمؤسسات هي الدعم متعدد اللغات والاتساق. يمكن لوكيل AI واحد التحدث بطلاقة في العديد من اللغات وحتى تبديل اللغات بشكل فوري. هذا يعني أن الشركة العالمية يمكنها نشر نموذج واحد لخدمة العملاء باللغة الإنجليزية، الإسبانية، الفرنسية، الصينية، إلخ، دون الحاجة إلى روبوتات محلية منفصلة. يحتفظ الذكاء الاصطناعي بنفس قاعدة المعرفة والشخصية عبر اللغات، مما يضمن جودة خدمة متسقة. قامت OpenAI بتدريب GPT-Realtime بشكل خاص للتعامل مع الإدخال/الإخراج متعدد اللغات وحتى مزج اللغات في نفس الجملة دون فقدان السياق. هذا ذو قيمة كبيرة للصناعات مثل السياحة، وشركات الطيران، أو الاتصالات التي تخدم قاعدة عملاء متنوعة. علاوة على ذلك، يتحدث الذكاء الاصطناعي بصوت واضح وممتع يمكن اختياره أو تعديله ليتناسب مع نغمة العلامة التجارية للشركة (مثل صوت ودود ومبهج للبيع بالتجزئة مقابل صوت هادئ ومهني للبنوك). الاتساق في كيفية استجابة الوكيل - اتباع إرشادات الشركة في كل مرة - يمكن أن يحسن الامتثال والعلامة التجارية في تواصل العملاء، وهو مجال يتفاوت فيه الوكلاء البشر غالبًا في الجودة.
ما وراء دعم العملاء: تستكشف الشركات أيضًا الذكاء الاصطناعي الفوري لتطبيقات مواجهة الموظفين والإنتاجية. على سبيل المثال، يمكن أتمتة مكاتب مساعدة تكنولوجيا المعلومات الداخلية أو خطوط دعم الموارد البشرية باستخدام وكيل محادثة يتعامل مع الاستفسارات الشائعة (مثل “لا أستطيع الوصول إلى VPN” أو “ما هي سياسة الإجازات لدينا؟”). يمكن للوكيل استخدام استدعاءات الوظائف لجلب المعلومات من قواعد البيانات الداخلية أو إعادة تعيين كلمات المرور، مما يوفر المساعدة الفورية للموظفين على مدار الساعة. سيناريو آخر هو تحليلات الأعمال المدفوعة بالصوت: قد يسأل التنفيذيون مساعدًا ذكياً عن أرقام المبيعات الأخيرة أو مستويات المخزون خلال اجتماع، ويحصلون على إجابة شفهية فورية مجمعة من بيانات حية. يمكن لوكيل الاستعلام الفوري من هذا النوع الاندماج مع قواعد بيانات المؤسسات من خلال واجهة أداة MCP، ليعمل كطبقة صوتية فوق البيانات المؤسسية. دعم API الفوري للصور وحتى الفيديو (عبر لقطات) يعني أن الوكيل يمكنه أيضًا المساعدة في مجالات مثل التصنيع أو الرعاية الصحية - على سبيل المثال، يمكن لفني مشاركة صورة لجزء من الجهاز وطلب تعليمات الإصلاح أو التشخيصات من المساعد الصوتي. قدمت جوجل مفهومًا مشابهًا مع API Gemini Live، حيث يمكن لمشغل توجيه الكاميرا نحو المعدات وطلب التحليل من الذكاء الاصطناعي.[38][39]. OpenAI Realtime قادر على إنجازات مشابهة (مثلاً، يمكن للطبيب وصف الأعراض وعرض صورة رسم طبي للحصول على دعم القرار من الذكاء الاصطناعي في الوقت الفعلي).
الاعتبارات الخاصة بالتكامل والنشر: سيسعد قادة تكنولوجيا المعلومات في المؤسسات بمعرفة أن OpenAI Realtime مصمم للتكامل مع البنية التحتية الحالية للاتصالات وخدمة العملاء. دعم بروتوكول SIP يعني أنه يمكن توصيله بأنظمة PBX وخدمات مثل Twilio أو Bandwidth للتعامل مع المكالمات الهاتفية [13]. في الواقع، هناك بالفعل دروس وعروض توضح كيفية توصيل واجهة برمجة التطبيقات Realtime برقم هاتف Twilio وإنشاء نظام IVR مدعوم بالذكاء الاصطناعي يستبدل قوائم "اضغط 1 لـ X" القديمة بمحادثة طبيعية [40][41]. وبالمثل، يمكن إدخاله في منصات مراكز الاتصال الشهيرة التي تدعم بث الصوت. تشير شراكات OpenAI مع المؤسسات (مثل التعاون مع فريق مركز الاتصال الرقمي لشركة PwC [42]) إلى أن موفري تكامل الأنظمة مستعدون لمساعدة الشركات على تنفيذ هذه الحلول بطريقة متوافقة وآمنة. الخصوصية والأمان للبيانات هما مصدر قلق كبير للمؤسسات، وكما ذكر، توفر OpenAI خيارات إقامة البيانات ولا تستخدم بيانات العملاء للتدريب بشكل افتراضي في عرضها للمؤسسات [26]. هذا، إلى جانب قدرات الإشراف البشري، يعني أن المؤسسات يمكنها الحفاظ على السيطرة على تفاعلات الذكاء الاصطناعي.
ومع ذلك، يجب على صانعي القرار أيضًا أن يزنوا جوانب القيود والحكم. في حين أن الوكلاء الفوريين يمكنهم التعامل مع العديد من السيناريوهات، ستحتاج الشركات إلى تحديد استراتيجيات احتياطية عندما يكون الذكاء الاصطناعي غير متأكد أو يطلب المستخدم شيئًا خارج النطاق. من الممارسات الجيدة أن يكون هناك استراتيجية احتياطية عملية – على سبيل المثال، يعرض الذكاء الاصطناعي بأدب تحويل الاتصال إلى وكيل بشري أو أخذ رسالة إذا لم يتمكن من المساعدة بثقة. تبرز PwC بناء "السلوك الاحتياطي والتعافي العملي مع المراقبة الفورية" في حلهم لضمان انتقال سلس أو استعادة الأخطاء عند الحاجة. بالإضافة إلى ذلك، فإن إدارة التكاليف على نطاق المؤسسة ليست بسيطة: استهلاك الذكاء الاصطناعي الصوتي يتطلب حوسبة كبيرة، لذا يجب على الشركات مراقبة الاستخدام. قامت OpenAI بتخفيض سعر GPT-Realtime بنسبة 20% عند الإطلاق العام وأضافت ميزات لتقليص السياق بذكاء لإدارة المحادثات الطويلة بشكل فعال من حيث التكلفة. حتى مع ذلك، سترغب المؤسسات في تحليل العائد على الاستثمار بعناية – موازنة تكلفة استخدام واجهة برمجة تطبيقات الذكاء الاصطناعي مقابل التوفير من الأتمتة. في العديد من الحالات (مثل توقع توفير 70% في التكلفة)، تبدو الحسابات مواتية، ولكنها ستعتمد على حجم المكالمات وتعقيدها.
باختصار، تقدم OpenAI Realtime للشركات طريقًا لتحديث تفاعلات العملاء والموظفين: مما يجعلها أكثر طبيعية وكفاءة وقابلية للتوسع. يمكنها تحسين تجربة العملاء من خلال تقديم خدمة فورية ومحادثاتية وتمكين العمليات من خلال أتمتة المهام مع وكيل ذكي متاح على مدار الساعة. التكنولوجيا لا تزال تتطور، لكنها جاهزة للإنتاج بما يكفي لدرجة أن الشركات من البنوك إلى الرعاية الصحية إلى التجارة الإلكترونية تقوم بتجربتها بنشاط. الضغط التنافسي لاعتماد الذكاء الاصطناعي في تفاعل العملاء في تزايد - شركات مثل Google تقوم بنشر ذكاء اصطناعي صوتي في الوقت الحقيقي في عروضها، وحتى Claude من Anthropic يستخدم في سياقات التدريس الصوتي الحي. الشركات التي تستفيد من OpenAI Realtime بشكل فعال قد تكتسب ميزة في الاستجابة والتخصيص، بينما تحقق أيضًا فوائد كبيرة في التكلفة والإنتاجية.
المستهلكون والمستخدمون النهائيون المتقدمون في التكنولوجيا على استعداد لتجربة الذكاء الاصطناعي بطريقة أكثر تفاعلية وإنسانية بفضل OpenAI Realtime. إذا كنت من المستخدمين المتقدمين الذين تعاملوا مع مساعدي الصوت على مر السنوات (سيري، أليكسا، مساعد جوجل، إلخ)، فستقدر كثيرًا مدى قدرة وطبيعية هؤلاء الوكلاء الجدد للذكاء الاصطناعي. يجلب OpenAI Realtime بشكل أساسي القوة الكاملة لـ ChatGPT (وما يزيد عن ذلك) إلى واجهة صوتية يمكنها الاستماع إليك والتحدث معك في الوقت الفعلي. هذا يعني أنه كمستخدم يمكنك إجراء محادثة سلسة مع مساعد الذكاء الاصطناعي حول أي موضوع أو مهمة تقريبًا، دون الحاجة إلى استخدام لوحة المفاتيح أو التقيد بعبارات معدة مسبقًا.
أحد التأثيرات الفورية هو زيادة الإنتاجية الشخصية والحياة الرقمية اليومية. تخيل وجود ذكاء اصطناعي يمكنك التحدث إليه كـ مساعد شخصي عالمي: قد تطلب منه التحقق من بريدك الإلكتروني وقراءة أي رسائل عاجلة، أو تسأله "ماذا يوجد على جدول أعمالي اليوم؟" لتسمع ملخصًا سريعًا. وقد عرضت شركة أنثروبيك مؤخرًا مثل هذا السيناريو في تطبيقهم المحمول كلود - حيث يمكن للمستخدمين الاستفسار شفهيًا من كلود لفحص تقويم جوجل وجيميل والمستندات، وسيقوم الذكاء الاصطناعي بجلب المعلومات وتلخيصها بصوت عالٍ. على سبيل المثال، يمكنك أن تسأل، "كلود، هل لدي اجتماعات مع أليس هذا الأسبوع؟" وسيفحص تقويمك ويرد بالتفاصيل صوتيًا. تمكّن خدمة OpenAI Realtime من هذا النوع من التكامل أيضًا: من خلال استدعاء الوظائف، يمكن لمساعد قائم على OpenAI أن يتعامل مع تقويم جوجل أو أوتلوك الخاص بك، أو أي مصدر بيانات شخصي تسمح به، ويعطيك الإجابات بطريقة محادثة. الفرق هو أنه مع توفر واجهة برمجة التطبيقات Realtime، قد نرى قريبًا هذه القدرات مدمجة في تطبيقات وأجهزة المستهلك المختلفة - من سماعات الأذن الذكية التي تهمس بجدولك، إلى المساعدين في السيارات الذين يمكنك مناقشة قائمة مهامك معهم أثناء القيادة.
تعد التفاعلات متعددة الوسائل الأكثر ثراءً فائدة أخرى للمستخدمين المهتمين بالتكنولوجيا. مع الوكلاء الفوريين الذين يمكنهم التعامل مع الصور في السياق، يمكنك التحدث بفعالية إلى الذكاء الاصطناعي حول ما تنظر إليه. على سبيل المثال، قد تستخدم سماعة الواقع المعزز أو كاميرا هاتفك، وتنظر إلى منتج أو معلم، وتطلب من الذكاء الاصطناعي أن يخبرك عنه. يمكن للذكاء الاصطناعي تحديد الكائن/الصورة وسرد المعلومات ذات الصلة. أو فكر في استكشاف الأخطاء وإصلاحها: يمكنك توجيه هاتفك نحو جهاز مكسور وسؤال "كيف أصلح هذا؟" - يمكن للذكاء الاصطناعي تحليل الصورة وإرشادك. عرضت شركة Google في عرضها التوضيحي الحي لـ Gemini مستخدمًا يطلب من الذكاء الاصطناعي تفقد آلة عبر بث فيديو مباشر وشرح الذكاء الاصطناعي العيب المحدد [47]. بينما يعامل التنفيذ الحالي لـ OpenAI الصور كمدخلات ثابتة بدلاً من فيديو مستمر [12]، يمكن للمستخدم مع ذلك مشاركة الصور (أو الإطارات) بشكل متتابع مع مساعد يعتمد على OpenAI في محادثة. قد يتذكر عشاق التكنولوجيا أن تطبيق ChatGPT للهاتف المحمول الخاص بـ OpenAI قدم فهم الصوت والصورة (مما يسمح لك بسؤال ChatGPT عن صورة، على سبيل المثال). يجلب التفاعل الفوري هذه التجربة إلى التطبيقات الخارجية وربما الأجهزة. قد نرى قريبًا نظارات ذكية تستفيد من التفاعل الفوري لـ OpenAI حتى تتمكن من سؤال نظاراتك عن ما تنظر إليه أو الحصول على ترجمات فورية للنصوص في الصور، كل ذلك عبر الصوت.
من المتوقع أن يصبح الترفيه والتعلم أكثر جاذبية أيضًا. سيستمتع المستخدمون المتمرسون بالتكنولوجيا بالذكاء الاصطناعي الذي يمكنه تبني شخصيات والتفاعل بطرق إبداعية. مع الأصوات الطبيعية للغاية والتعبير العاطفي، يمكن لشخصية الذكاء الاصطناعي أن تروي القصص أو تلعب أدوارًا في سيناريوهات جذابة. يمكنك أن تمتلك تطبيقات سرد قصص تفاعلية حيث تتحدث مع شخصية خيالية (مدعومة من GPT-Realtime) وتؤثر على السرد بإدخالات صوتية منك. يمكن لتطبيقات تعلم اللغة أن تتيح لك ممارسة المحادثة مع متحدث ذكاء اصطناعي بطلاقة يصحح لك بلطف ويتكيف مع مستوى مهاراتك – مما يجعله شريك لغة لا يكل متاحًا في أي وقت. قدرة GPT-Realtime على التعامل مع اتباع التعليمات وتبديل اللغات تعني أنه يمكنه، مثلاً، التحدث بالفرنسية بلكنة معينة إذا كنت تتدرب على الفرنسية، ثم التبديل إلى الإنجليزية لشرح القواعد عندما تسأل بالإنجليزية – كل ذلك بسلاسة. تشير تعليقات المستخدمين الأوائل على هذه الأوضاع الصوتية إلى أنها تجعل التعلم أو استكشاف المعلومات أكثر حدسية ومتعة من خلال التحدث بدلاً من الكتابة، حيث تستفيد من غرائز التواصل الطبيعية لدينا.
من الجدير بالذكر أن المستخدمين العاديين سيستفيدون أيضًا من تحسين إمكانية الوصول التي تقدمها تقنية الذكاء الاصطناعي الصوتي. بالنسبة للمستخدمين الذين يواجهون صعوبة في التعامل مع الواجهات التقليدية (بسبب مشاكل بصرية أو حركية أو بسبب قلة الإلمام بالقراءة والكتابة)، يمكن أن يكون التفاعل مع الذكاء الاصطناعي تجربة تمكينية. قدرة OpenAI Realtime على فهم وتوليد الكلام بدقة عالية تعني أنها يمكن أن تحوّل الكلمات المنطوقة للمستخدم إلى نص وترد بطريقة أسهل للاستهلاك. على سبيل المثال، يمكن لشخص ذو رؤية محدودة استخدام الذكاء الاصطناعي الصوتي لقراءة وتلخيص المقالات أو التنقل بين التطبيقات. الفهم القوي للنموذج حتى في البيئات المزعجة أو مع اللهجات المتنوعة يساعد في توسيع إمكانية الوصول للمستخدمين غير التقليديين والجماهير العالمية. علاوة على ذلك، الذاكرة المتعددة الدور للنموذج تسمح للمستخدمين بطرح الأسئلة المتتابعة بشكل طبيعي، وهو ما كان يمثل تحديًا للمساعدين الصوتيين القدامى. حيث كنت قد تضطر إلى تكرار السياق (مثل "تشغيل أضواء غرفة المعيشة" ثم "ضبط ثرموستات غرفة المعيشة على 70" - مع ذكر السياق صراحة في كل مرة) مع المساعدين القدامى، يمكن للمساعد المعتمد على OpenAI تذكر ما يشير إليه "هذه الغرفة" في السياق، مما يجعل التفاعل أقل إحباطًا.
أخيرًا، يمكن للمستخدمين المتقدمين في التكنولوجيا أن يتوقعوا تكرار وتحسينات أسرع في هذه الخدمات الذكاء الاصطناعي لأن OpenAI Realtime والمنصات المشابهة تسمح للمطورين بتحديث وإضافة القدرات بسرعة. إذا كان هناك أداة جديدة أو تكامل مع خدمة ويب، يمكن للمطورين توصيلها عبر MCP وفورًا يحصل الذكاء الاصطناعي على مهارة جديدة. هذا يعني أن خدمات الذكاء الاصطناعي التي تستخدمها في حياتك اليومية قد تكتسب ميزات جديدة دون الحاجة لشراء جهاز جديد – كلها تحديثات برمجية في الخلفية. من ناحية أخرى، سيحتاج المستخدمون إلى تطوير مستوى معين من الثقة الرقمية وفهم هؤلاء الوكلاء. فهم أقوياء وعامون جدًا، مما يعني أن بإمكانهم أحيانًا القيام بأشياء غير متوقعة أو ارتكاب أخطاء (مثل إجابة واثقة لكنها غير صحيحة). يجب على المستخدمين المتقدمين أن يستمروا في التعامل مع مخرجات الذكاء الاصطناعي بعين ناقدة. الخبر الجيد هو أنه مع الصوت، يكون من الأسرع غالبًا طرح سؤال متابعة أو القول "هل أنت متأكد من ذلك؟ تحقق من هذا مرة أخرى"، والذي يمكن للذكاء الاصطناعي القيام به من خلال استخدام الأدوات أو التوضيح. هذا الديناميك التعاوني والمحاوري بين البشر والذكاء الاصطناعي هو بالضبط ما يسعى OpenAI Realtime لتعزيزه.
OpenAI Realtime يدخل مجالاً متزايد التنافسية من منصات التفاعل الفوري مع الذكاء الاصطناعي. كيف يقارن مع اللاعبين الرئيسيين الآخرين مثل Bard من Google (وواجهة Gemini Live API) أو Claude من Anthropic، بالإضافة إلى خدمات الذكاء الاصطناعي الفورية المتخصصة؟ دعونا نقارن بين نهجهم وميزاتهم:
تعمل Google بنشاط على تطوير قدرات الذكاء الاصطناعي للمحادثات في الوقت الفعلي من خلال مجموعة نماذج Gemini (الخليفة لـ PaLM) ودمجها في منتجات مثل Bard وGoogle Assistant. في الواقع، تقدم Vertex AI من Google واجهة Gemini Live API التي توازي بشكل كبير واجهة OpenAI Realtime API في الغرض. كلا النظامين، OpenAI Realtime وواجهة Google Live API، هما أنظمة متعددة الوسائط منخفضة الكمون مصممة للتفاعلات الصوتية أولاً. كل منهما يسمح بمحادثات صوتية ثنائية الاتجاه حيث يمكن للمستخدم مقاطعة الذكاء الاصطناعي ويمكنه التعامل مع الإدخال والإخراج الصوتي/المرئي في الوقت الفعلي [9]. على سبيل المثال، يمكن لواجهة Google’s Gemini 2.0 Live API استقبال النصوص والصوت وحتى الفيديو المستمر من الكاميرا، وإنتاج نتائج صوتية ونصية [9]. عرضت Google حالة استخدام صناعية: مساعد ذكاء اصطناعي يعالج الفيديو المباشر من كاميرا الهاتف الذكي وأوامر الصوت في نفس الوقت لتحديد مشاكل الآلات والإجابة على الأسئلة حولها، مما يعرض التحليل البصري والسمعي في الوقت الفعلي لـ Gemini [38][39]. هذا يتجاوز قليلاً في الإدخال البصري المستمر عن نهج OpenAI الحالي للصورة بالصورة، مما يشير إلى تركيز Google على تعدد الوسائط المتدفقة.
فيما يتعلق بـ القدرات، يدعم كلا النظامين الاتصال بالوظائف/الأدوات والسلوك "الوكيل" (حيث يمكن للذكاء الاصطناعي اتخاذ المبادرة لأداء المهام). تركز Google على "استدعاء الوظائف الوكيلة" في واجهة برمجة التطبيقات الخاصة بها، المدمجة مع خدمات Google Cloud الأخرى [49][50]. يستخدم OpenAI's Realtime إطار عمل الاستدعاء الوظيفي + MCP لنفس الهدف: تمكين الذكاء الاصطناعي من تحفيز الإجراءات الخارجية. أحد الفروق المعمارية هو كيفية تعامل كل منهما مع هذه المهام متعددة الوسائط. يستخدم حل OpenAI نموذجًا موحدًا (GPT-Realtime) للتعامل مباشرة مع الصوت الداخل/الخارج وحتى مستوى معين من فهم الصور داخل ذلك النموذج. تصميم Google، كما هو موضح في هيكلها الفني، يوجه أوضاع مختلفة من خلال مكونات متخصصة: مدير واجهة برمجة التطبيقات الحية يدير التفاعل ويستدعي نواة Gemini لاستنتاج اللغة، ولكنه يعتمد على استخراج الميزات المنفصلة للصور والصوت [51]. في عرضهم التوضيحي، على سبيل المثال، عندما يأتي أمر صوتي لتحليل الصوت، يسجل النظام الصوت، ثم يستدعي وظيفة مخصصة مع Gemini لتحليل الصوت، وهكذا [52]. باختصار، نظام Google هو أكثر من خط أنابيب معياري خلف الكواليس، في حين أن نظام OpenAI أكثر تماسكًا (من البداية إلى النهاية). تأثير ذلك هو أن نهج OpenAI قد يكون له مزايا في الكمون والبساطة، لأن نموذجًا واحدًا يقوم بمعظم العمل، ويحافظ على الفروق الدقيقة عبر الأوضاع [2]. قد تستفيد طريقة Google من الأنظمة الفرعية المحسّنة للغاية لكل مهمة (الرؤية، الكلام) والتي يمكن أن تقدم أداءً من الدرجة الأولى في كل منها ولكن بتنسيق إضافي.
نقطة مقارنة أخرى هي الزمن المستغرق وتبادل الأدوار. تدعي كل من OpenAI وGoogle أن لديهما تدفقًا بزمن استجابة منخفض جدًا. تشير Google بشكل صريح إلى أن نظامها يقدم "محادثات صوتية طبيعية تشبه الإنسان" مع القدرة على مقاطعة استجابات النموذج باستخدام الأوامر الصوتية [9]. يدعم OpenAI Realtime أيضًا المقاطعة والاستجابة السريعة. لا يوجد مقياس عام واضح لمعرفة أيهما أسرع، لكن تقارير غير رسمية من المطورين تشير إلى أن كلاهما يمكن أن يحقق تأخيرات استجابة أقل من ثانية واحدة في ظل ظروف شبكة جيدة. استخدام Google لـ WebRTC في سيناريوهات العميل [53] يعكس نهج OpenAI لتحسين مسار تدفق الصوت. لذلك، في الممارسة العملية، كلاهما متشابهان جدًا من حيث السرعة والتفاعل.
عندما يتعلق الأمر باللغة وجودة الصوت، تقدم كلتا الشركتين أصواتًا متعددة. تقدم Google، مستفيدةً من تجربتها العميقة في WaveNet وSpeech Synthesis، أصوات TTS طبيعية جدًا ومن المحتمل أن تستخدم Gemini تلك أو ما شابهها. كما أن الأصوات الجديدة لـ OpenAI (Cedar، Marin، إلخ) عالية الجودة ويمكنها التعبير عن مجموعة متنوعة من المشاعر. كلا النظامين يسمحان بتعديلات في نمط الصوت. قد لا يلاحظ المستخدم النهائي فرقًا كبيرًا - كلاهما يمكن أن يبدو إنسانيًا جدًا. ومع ذلك، أشارت OpenAI إلى أن تدريب GPT-Realtime تضمن تحكمًا دقيقًا في الإيقاع (مثل التحدث بلكنة فرنسية أو التحدث بتعاطف). أدوات Google لديها أيضًا تحكم في نمط SSML، لكن من غير الواضح ما إذا كان لدى المطورين تحكم مباشر في نمط التوجيه في Gemini Live.
في الدعم متعدد اللغات، أثبتت OpenAI بشكل واضح قدرات في العديد من اللغات (تم تقييم النموذج على فهم وتحدث الإسبانية، الصينية، اليابانية، الفرنسية وغيرها بطلاقة)[18]. من المحتمل أن تدعم Gemini من Google أيضًا لغات متعددة، لكن عروض Google التوضيحية ركزت حتى الآن على اللغة الإنجليزية (مع كون العرض الصناعي محوريًا حول الإنجليزية). بالنظر إلى تكنولوجيا الترجمة والكلام من Google، فمن الآمن افتراض وجود دعم قوي متعدد اللغات من جانبهم أيضًا.
يمكن أن يكون الفارق الرئيسي هو النظام البيئي والأدوات حول هذه الـ APIs. يتم دمج Realtime من OpenAI بشكل وثيق في نظام OpenAI البيئي - حيث يستخدم نفس بوابة المطور، ومفهوم استدعاء الوظائف الذي يعرفه العديد من المطورين من ملحقات ChatGPT، وSDK للوكلاء لتبسيط بناء منطق الوكلاء. نظام Google’s Vertex AI البيئي موجه أكثر نحو الشركات السحابية؛ حيث يوفر أشياء مثل بيئة تنسيق الوكلاء ويرتبط بأنظمة بيانات Google Cloud والمصادقة. قد تفضل الشركات الموجودة بالفعل على Google Cloud ذلك لسهولة التكامل مع خطوط بياناتها، بينما قد يجد أولئك الذين كانوا يجربون في مجتمع مطوري OpenAI أن Realtime أكثر ملاءمة. ملاحظة مثيرة للاهتمام: تقدم خدمة Microsoft’s Azure OpenAI أيضًا نموذج GPT-Realtime كجزء من مجموعتها[54][55]، مما يعني أن الشركات على Azure يمكنها الوصول إلى OpenAI Realtime من خلال خدمة مُدارة بواسطة Microsoft. هذا بشكل أساسي يوسع نطاق OpenAI من خلال الاستفادة من التوافق والبنية التحتية لـ Azure (ويضيف حتى خيارات مثل دعم WebRTC المباشر لتقليل التأخير على جانب العميل)[56]. لذا فإن OpenAI عبر Azure يتنافس على الجبهة السحابية أيضًا.
باختصار، أوبن إيه آي في الوقت الفعلي مقابل بارد/جيميني من جوجل: كلاهما منصات محادثة بالذكاء الاصطناعي في الوقت الفعلي ذات تقنية عالية. تتمثل نقاط قوة أوبن إيه آي في التكامل النموذجي من البداية إلى النهاية والتحسين الذي يأتي من النشر التكراري (لم يعد وضع الصوت في ChatGPT درسًا كبيرًا بلا شك). تتمثل نقاط قوة جوجل في نهجها الشامل - حيث لديها وحدات رؤية وصوت ومنصة سحابية كاملة للتكامل. من منظور المستخدم، يقدمون تجارب متشابهة: التحدث بشكل طبيعي إلى ذكاء اصطناعي يمكنه أداء المهام. سيكون من المثير مشاهدة كيف تتطور هاتان المنصتان مع المنافسة التي تحفز مزيدًا من التحسينات في الجودة والسرعة والعمق متعدد الوسائط.
دخل نموذج اللغة الكبير الآخر المميز لـ Anthropic، المدعو Claude، أيضًا في الساحة الوقتية الحقيقية، وإن كان بطريقة أكثر محدودية حتى الآن. في منتصف عام 2025، قدمت Anthropic وضع المحادثة الصوتية لـ Claude في تطبيقاتهم المحمولة، مما أتاح للمستخدمين التحدث إلى Claude وسماع الردود منطوقة، مما جعل Claude أقرب إلى التكافؤ مع ميزة الصوت في ChatGPT. يمكن للمستخدمين اختيار عدة شخصيات صوتية لـ Claude (مثل "Buttery" أو "Mellow") وإجراء محادثات كاملة منطوقة معه على الجوال. يدعم وضع الصوت لـ Claude أيضًا مناقشة الصور والمستندات عن طريق الصوت، ويمكنه الانتقال بسلاسة بين الإدخال الصوتي والنصي دون فقدان السياق - وهو مشابه لدعم المحادثات متعددة الوسائط الذي تقدمه OpenAI وGoogle. ومع ذلك، فإن عرض Anthropic يركز حاليًا على المستهلك وليس واجهة برمجة تطبيقات مفتوحة للمطورين. كما أشار TechCrunch، فإن ميزة الصوت في Claude محدودة باللغة الإنجليزية ومقتصرة على تطبيقهم الخاص (لا يوجد حاليًا واجهة برمجة تطبيقات أو واجهة ويب). هذا يعني أن المطورين أو الشركات لا يمكنهم بناء تطبيقات صوتية مخصصة مباشرة على نموذج Claude في الوقت الحالي (خارج أي حلول غير رسمية). في المقابل، يتوفر OpenAI Realtime كواجهة برمجة تطبيقات لأي مطور لدمجها في منتجه، وهو فرق عملي كبير.
في الأساس، يبدو أن نهج شركة Anthropic في الصوت يعتمد على خطوط أنابيب تقليدية أكثر - حيث لاحظ المراقبون أن وضع الصوت لـ Claude يستخدم على الأرجح مكونات تحويل الكلام إلى نص وتحويل النص إلى كلام التقليدية فوق نموذج Claude، بدلاً من نموذج صوتي موحد واحد.[61]. بشكل أساسي، يقوم تطبيق Claude على الهواتف الذكية بالتعرف على الصوت لتحويل صوتك إلى نص، ثم يقدمه لـ Claude كإشارة، ثم يأخذ استجابة النص من Claude ويحولها إلى كلام. هذا هو بالضبط نوع الخطوط التي سعت OpenAI إلى تحسينها من خلال دمجها في نموذج واحد لكلا الخطوتين. النتيجة هي أن نظام OpenAI قد يمتلك تفوقًا في الاستجابة وكيفية التعامل مع تفرعات الكلام الحواري (لأنه مدرب على الصوت مباشرة). قوة Claude، من جهة أخرى، تكمن في تركيزه على السياق الكبير والذكاء الاصطناعي الدستوري – على سبيل المثال، يمكن لـ Claude 2 (وتحديثات Claude الأحدث) التعامل مع إشارات كبيرة للغاية (100 ألف رمز أو أكثر من النص)، مما يعني أنه يمكن أن يستوعب وثائق طويلة أو حتى وثائق متعددة في محادثة. إذا تخيلنا مستقبلاً يتم فيه جمع ذلك مع الصوت، يمكن لـ Claude نظريًا الاستماع إلى ساعات من الصوت أو قراءة ملفات PDF طويلة بصوت عالٍ ومناقشتها. يحتوي GPT-4 من OpenAI على نافذة سياق كبيرة ولكنها أصغر بشكل افتراضي (على الرغم من وجود GPT-4 32K للنص). بالنسبة لحالات الاستخدام النموذجية للوكيل في الوقت الفعلي (التي تكون تفاعلية وليست مجرد مونولوجات)، نادرًا ما يكون حجم السياق هو العامل المحدود، ولكنه مجال يجب مراقبته إذا بدأت الأذكياء الصوتية في استخدام المحتوى الطويل (مثل قراءة وتلخيص الكتب بالكامل بصوت عالٍ).
هناك أيضًا لاعبون مفتوحون المصدر ومتخصصون في مجال الذكاء الاصطناعي في الوقت الحقيقي. المشاريع مثل Massively Multilingual Speech (MMS) من Meta وغيرها قد أظهرت نماذج يمكن أن تقوم بتحويل الكلام إلى كلام أو الكلام إلى نص للعديد من اللغات، ولكنها تركز أكثر على البحث وليست معبأة للاستخدام التفاعلي السهل. هناك مكتبات مثل Coqui STT/TTS أو جهود Mozilla التي يمكن للمطورين دمجها مع LLM مفتوح المصدر (مثل Llama 2) لإنشاء مساعد صوتي في الوقت الحقيقي DIY. ومع ذلك، فإن تحقيق مستوى التفاعل السلس والجودة في GPT-Realtime باستخدام المكونات المفتوحة يمثل تحديًا كبيرًا اعتبارًا من عام 2025 - حيث أن التأخير والدقة تميل إلى التأخر، وربط النماذج المفتوحة يتطلب خبرة كبيرة. ومع ذلك، قد نرى نظامًا بيئيًا ينمو حول الذكاء الاصطناعي في الوقت الحقيقي للمتحمسين الذين يفضلون الحلول المحلية أو الخاصة. في الوقت الحالي، تتصدر OpenAI Realtime ونظرائها القريبون (مثل Google’s Live) في القدرة الشاملة.
من الجدير بالذكر أيضًا منصات المساعد الصوتي التقليدية (مثل Amazon Alexa وApple Siri وغيرها). هذه ليست "أنظمة ذكاء اصطناعي" بمعنى النماذج اللغوية الكبيرة، لكنها الرواد في التفاعل الصوتي. إن تقديم تقنية صوت مدعومة بـ GPT-4 يغير اللعبة جذريًا – حيث تعمل هذه الأنظمة القديمة في الغالب على أوامر ثابتة وحوارات محدودة، بينما يتيح شيء مثل OpenAI Realtime محادثة مفتوحة وسياقية. على سبيل المثال، تضيف Microsoft الآن الصوت إلى مساعدها Copilot عبر Windows وOffice، مما يخلق فعليًا مساعد ذكاء اصطناعي جديد يمكن أن يحل محل أو يكمل وظائف Cortana/Siri [62][63]. في الواقع، يمكن اعتبار OpenAI Realtime جزءًا من هذه الموجة التي تطمس الخط بين ما نعتبره روبوت محادثة وما نعتبره مساعد صوتي. ستتغير توقعات المستخدمين نحو مزيد من الذكاء والمرونة (لماذا أستخدم Siri لضبط مؤقت عندما يمكنني إجراء محادثة كاملة مع ذكاء اصطناعي يساعد في تخطيط يومي؟). من المحتمل أن تضطر شركات مثل Apple وAmazon إلى دمج تقنية الذكاء الاصطناعي في الوقت الحقيقي المستندة إلى النماذج اللغوية الكبيرة لتظل ذات صلة. يُقال إن Google نفسها تقوم بدمج Bard/Gemini في نظام Android والمساعد. لذا، بينما ليس هناك مقارنة مباشرة، فإن بروز OpenAI Realtime يؤثر على المشهد التنافسي الأوسع لواجهات الصوت.
في الختام، تتميز OpenAI Realtime عن العروض الأخرى للذكاء الاصطناعي في الوقت الحقيقي بفضل نهج النموذج الموحد وواجهة برمجة التطبيقات الصديقة للمطورين والاختبارات الواقعية المبكرة. منصة جوجل تعد منافسًا قويًا، خاصةً للمؤسسات في نظام جوجل البيئي، حيث تدفع بتعدد الوسائط إلى الأمام. يعرض كلود من Anthropic أن العديد من مزودي الذكاء الاصطناعي يعترفون بالصوت كوسيلة مهمة، لكنه ليس متاحًا بشكل كبير للبناء عليه بعد. سيكون من الرائع مشاهدة تطور هذه الأنظمة - من المحتمل أن تستعير الابتكارات من بعضها البعض - مما سيفيد في النهاية المستخدمين والمطورين من خلال تحسينات أسرع.
من المتوقع أن يؤثر الذكاء الاصطناعي في الوقت الحقيقي مثل OpenAI Realtime بشكل كبير على كيفية عملنا، سواء في برامج الإنتاجية الشخصية أو في عمليات تطوير البرمجيات.
في أدوات الإنتاجية اليومية، يمكننا توقع أن تصبح تكاملات الذكاء الاصطناعي الصوتي ميزة قياسية. مجموعات برامج المكتب، أدوات إدارة المشاريع، منصات التواصل - جميعها تقدم مساعدات ذكاء اصطناعي، ومع Realtime يمكن لتلك المساعدات أن تصبح حوارية واستباقية. على سبيل المثال، تضيف Microsoft 365's Copilot قدرات صوتية ليتمكن المستخدمون من إملاء الطلبات وسماع الردود، مما يجعل التفاعلات 'خالية من اليدين' وأكثر طبيعية. مع توفر OpenAI Realtime، يمكن لتطبيقات الإنتاجية الخارجية (من تطبيقات تدوين الملاحظات إلى أنظمة إدارة علاقات العملاء) أن تدمج بشكل مشابه مساعدًا ذكاءً اصطناعيًا قائمًا على الصوت. تخيل سيناريو في تطبيق دردشة الفريق مثل Slack أو Microsoft Teams، حيث يمكنك الاتصال بوكيل ذكاء اصطناعي أثناء الاجتماع بالصوت: 'يا ذكاء، لخص ما قررناه حتى الآن.' يمكن للوكيل أن ينسخ النقاش الأخير فورًا (إذا تم منحه الوصول) ويقدم ملخصًا للمجموعة. أو في عميل البريد الإلكتروني، قد تقول 'اقرأ لي آخر بريد من رئيسي' أثناء القيادة، ثم تقوم بإملاء رد - كل ذلك عبر ذكاء اصطناعي يفهم السياق (يعرف من هو رئيسك، المشروع الذي يتم مناقشته، إلخ). هذه الأنواع من التفاعلات تنقل بعض عبء العمل عن المستخدم (لا كتابة، لا بحث في القوائم) إلى الذكاء الاصطناعي. يمكن أن يكون الزيادة في الإنتاجية كبيرة - قضاء وقت أقل في التفاعلات الروتينية مع الكمبيوتر والمزيد من الوقت للتركيز على المهام ذات المستويات العليا. إنه تحقيق للوعد بأن الكمبيوترات يمكن أن تعززنا من خلال التعامل مع العمل الشاق بطريقة حوارية.
بالنسبة لتدفقات العمل للمطورين، يمكن لـ OpenAI Realtime تبسيط إنشاء التطبيقات التفاعلية. كما نوقش، لا يحتاج المطورون أن يكونوا خبراء في معالجة الإشارات أو الاتصالات الهاتفية لإضافة واجهة صوتية؛ تقوم API بتجريد العمل الثقيل. هذا يُمكّن من تجربة واجهات الصوت بسهولة. كما يعني ذلك تسريع النماذج الأولية: يمكن للمطور أن يتحدث حرفيًا إلى تطبيقه أثناء التطوير لاختبار سلوك الذكاء الاصطناعي، بدلاً من كتابة مطالبات طويلة. تتيح وثائق OpenAI وأدوات مثل Realtime Playground للمطورين تكرار المطالبات والتفاعلات الصوتية بسرعة وبشكل مرئي [64][65]. قد نرى حتى أدوات تطوير جديدة حيث يمكنك بناء تطبيقك من خلال المحادثة - على سبيل المثال، وصف للذكاء الاصطناعي بلغة طبيعية ما تريد أن يفعله (ظهرت بعض النماذج الأولية المبكرة لـ "البناء مع الذكاء الاصطناعي من خلال التحدث" في المجتمع). بالإضافة إلى ذلك، فإن إدخال MCP (بروتوكول نموذج السياق) كمواصفة مفتوحة يعني أن المطورين يمكنهم إعادة استخدام التكاملات؛ على سبيل المثال، يمكن لخادم MCP لمطور واحد لمدفوعات Stripe أو معلومات الطقس أن يُستخدم من قبل الآخرين، مما يعزز مكتبة من الأدوات القابلة للتوصيل للوكلاء. يمكن أن تسرع هذه القابلية للتجزئة وإعادة الاستخدام من تطوير سلوكيات الذكاء الاصطناعي المعقدة التي كانت تتطلب تاريخيًا ترميزًا مخصصًا لكل مشروع.
جانب آخر هو كيف يمكن أن يساعد Realtime في تطوير البرمجيات نفسها. يمكن للمطورين استخدام الذكاء الاصطناعي الصوتي كمساعد في البرمجة - تخيل سيناريو برمجة مزدوجة حيث تشرح ما تريد من الكود، ويقوم الذكاء الاصطناعي بقراءة الاقتراحات أو الوثائق. حاليًا، أدوات مثل GitHub Copilot وأدوات مماثلة تعتمد على النصوص، ولكن مع Realtime، يمكن دمج ذكاء اصطناعي يستمع بينما تتحدث عن مشكلة في البرمجة ثم يقدم إرشادات أو يكتب الكود في الوقت الفعلي. يمكن أن يجعل هذا جلسات تصحيح الأخطاء أكثر تفاعلية (مثل: "الذكاء الاصطناعي، شغل هذه الدالة وأخبرني ما هي النتيجة" - يقوم الذكاء الاصطناعي بتشغيلها في بيئة آمنة عبر أداة ويروي النتيجة). يجلب هذا وجودًا يشبه "Jarvis" إلى التطوير، وهو ما قد يجده بعض المطورين أكثر بديهية أو على الأقل تغيير منعش بدلاً من التحديق في الشاشة.
يمكن أن تستفيد التعاون والعمل عن بعد أيضًا. في الاجتماعات الافتراضية، وجود ذكاء اصطناعي يقوم بتدوين وتلخيص المحادثات في الوقت الحقيقي يحدث بالفعل (مثل توفر الترجمة الحية في Zoom، وبعض الشركات تستخدم الذكاء الاصطناعي لتوليد ملاحظات الاجتماعات بعد انتهائها). مع الذكاء الاصطناعي المتقدم في الوقت الحقيقي، يمكن للوكيل أن يشارك بشكل أكثر فعالية - على سبيل المثال، يمكنه تقديم معلومات ذات صلة عندما يُذكر موضوع معين (“عذرًا، وجدت وثيقة في قاعدة معرفتنا تتعلق بهذه المشكلة، هل تود ملخصًا؟”). ويمكن أن يعمل أيضًا كوسيط، حيث يتابع العناصر التنفيذية أو حتى يذكّر المجموعة بلطف إذا خرجوا عن الموضوع (إذا أُعطي هذا الدور). بينما يقترب هذا من نماذج التفاعل الحي وتجربة العملاء، فإنه أيضًا يعزز الإنتاجية للفرق.
أحد التحديات المحتملة في كل هذا هو التأكد من أن دمج الذكاء الاصطناعي الصوتي يكون مفيدا بالفعل وليس متطفلا. تحتاج أدوات الإنتاجية إلى تنفيذ هذه الميزات بطريقة تكمل تدفقات عمل المستخدمين. إذا تم القيام بذلك بشكل صحيح، يمكن للذكاء الاصطناعي الذي يمكن استدعاؤه بأمر صوتي سريع، أو الذي يتولى المهام البسيطة بشكل استباقي، أن يوفر الوقت. إذا تم القيام به بشكل سيء، فقد يكون مشتتًا أو كثير الكلام. يمنح OpenAI Realtime المطورين تحكمًا دقيقًا في سلوك الذكاء الاصطناعي (النبرة، متى يتحدث أو لا يتحدث، إلخ)، لذلك نأمل أن نشهد تصميمًا مدروسًا حيث يتحدث الذكاء الاصطناعي عندما يكون ذلك مفيدًا ويبقى صامتًا عندما لا يكون كذلك. نظرًا لأن الذكاء الاصطناعي يمكنه اكتشاف الصمت أو الانقطاعات، يمكن للمطورين التأكد من أنه يترك المجال عندما يبدأ الإنسان في التحدث - وهو سلوك أساسي يحدث فرقًا كبيرًا في تجربة المستخدم.
OpenAI Realtime هو محفز لنماذج التفاعل المباشر الجديدة - بشكل أساسي، كيف ينخرط البشر في تبادلات ديناميكية مع أنظمة الذكاء الاصطناعي. تتراوح هذه التفاعلات المباشرة من محادثات فردية (مثل تحدث المستخدم إلى مساعد صوتي) إلى إعدادات متعددة الأطراف (مثل ذكاء اصطناعي يتوسط أو يشارك في دردشة جماعية أو جلسة دعم عملاء مباشرة). تمحو هذه التكنولوجيا الحدود بين التفاعلات البشرية-البشرية والتفاعلات البشرية-الذكاء الاصطناعي في سياقات الوقت الحقيقي.
إحدى التأثيرات الواضحة هي على أنظمة تجربة العملاء، مثل التفاعلات في المتاجر أو الخدمات. فكر في الدردشة الحية على موقع الويب: اليوم، العديد من المواقع تحتوي على روبوت دردشة يمكنه الإجابة عن الأسئلة الشائعة. مع الوقت الحقيقي والصوت، يمكن لهذا الروبوت أن يتحول إلى ويدجت دردشة صوتية حيث يمكن للعميل التحدث بسؤاله وسماع الإجابة، مما يخلق لمسة أكثر شخصية. على سبيل المثال، يمكن لموقع التجارة الإلكترونية أن يحتوي على مساعد صوتي: "مرحبًا، أنا مساعد الذكاء الاصطناعي. كيف يمكنني مساعدتك اليوم؟" ويمكن للعميل أن يقول "أبحث عن هدية لابنة أختي البالغة من العمر 5 سنوات" والدخول في محادثة تفاعلية مع توصيات، تمامًا مثل التحدث إلى موظف متجر. لأن الوقت الحقيقي يمكنه التعامل مع السياق والتفاصيل، يمكن للذكاء الاصطناعي طرح أسئلة توضيحية ("بالتأكيد! هل تعرفين أنواع الألعاب أو المواضيع التي تفضلها؟") بدلاً من الاكتفاء بمطابقة الكلمات الرئيسية. هذه التجربة الاستشارية الحية يمكن أن تزيد من تفاعل المستخدمين والتحويلات، لأنها تشعر بأنها خدمة عملاء حقيقية.
في نماذج التفاعل المباشر، سنرى الذكاء الاصطناعي يتولى أدوارًا في سيناريوهات كانت تتطلب تقليديًا وجود إنسان. إحدى الاحتمالات اللافتة هي المشاركة مع الذكاء الاصطناعي في الفعاليات المباشرة أو البث المباشر. تخيل ندوة عبر الإنترنت أو بث على تويتش حيث يجيب مساعد الذكاء الاصطناعي على أسئلة الجمهور صوتيًا في الوقت الفعلي، مما يسمح للمقدم البشري بالتركيز على المحتوى الرئيسي. يمكن للذكاء الاصطناعي حتى أن يدير النقاش، أو يجيب على الأسئلة الشائعة (“لقد غطى المتحدث هذا الموضوع في وقت سابق، دعوني ألخص...”)، أو يقدم ترجمات فورية للمشاهدين الدوليين، كل ذلك عبر مخرجات صوتية. هذا النوع من المساعدة الفورية والتفاعلية يمكن أن يجعل البث المباشر أكثر جاذبية وشمولية.
نموذج آخر هو الذكاء الاصطناعي في السيناريوهات المدعومة بالمكالمات، مثل اتصال عميل بخط المساعدة والتحدث في البداية مع وكيل ذكاء اصطناعي يتولى معظم التفاعل، لكنه يجلب وكيلًا بشريًا على الخط إذا لزم الأمر بكل سلاسة. يمكن لهذا النهج الهجين تحسين أعباء العمل – المكالمات الروتينية (استفسارات الرصيد، استكشاف الأعطال البسيط) لا تحتاج أبدًا إلى تدخل بشري، ولكن إذا اكتشف الذكاء الاصطناعي وجود إحباط أو مشكلة معقدة، يمكنه أن يقول "سأوصلك الآن بأحد المتخصصين" وينقل المكالمة مع ملخص للسياق إلى الممثل البشري. بفضل وظيفة الاتصال والوصول إلى البيانات في الوقت الفعلي، عندما ينضم الإنسان، يمكنه رؤية ملخص للمحادثة وأي بيانات استخرجها الذكاء الاصطناعي (معلومات الحساب، الطلبات السابقة، إلخ) فورًا، مما يخلق انتقالًا سلسًا. يرفع هذا من تجربة العميل بشكل عام لأن المستخدم لا يضطر لتكرار نفسه ويحصل على خدمة سريعة، بينما يتم استخدام البشر فقط في الحالات التي يضيفون فيها أكبر قيمة. تضمن آليات المراقبة الحية والعودة المذكورة سابقًا أنه عندما يكون الذكاء الاصطناعي غير متأكد، يعرف كيفية طلب المساعدة أو التوضيح بدلاً من التلعثم – وهو جانب مهم في الحفاظ على تجربة عملاء جيدة.
نماذج التعاون بين البشر والذكاء الاصطناعي تتطور أيضًا. نتحدث كثيرًا عن استبدال الذكاء الاصطناعي لبعض التفاعلات، ولكن هناك زاوية أخرى هي تعزيز الذكاء الاصطناعي للتفاعلات الحية بين البشر. على سبيل المثال، في الطب عن بعد، يتحدث الطبيب والمريض عبر موعد افتراضي - يمكن للذكاء الاصطناعي الاستماع (بإذن) وتزويد الطبيب بالاقتراحات الفورية أو قوائم التحقق (مثل “اسأل عن الدواء X” أو تسليط الضوء على حالة محتملة استنادًا إلى الأعراض). يظل الطبيب مسيطرًا، لكن الذكاء الاصطناعي يعمل كمساعد حي لتحسين جودة التفاعل. يضمن هذا السيناريو الإنساني في الدائرة أن القرارات الحرجة لا تزال تشمل شخصاً، لكن الذكاء الاصطناعي يعزز التفاعل بمعرفته الواسعة وقدرته على معالجة المعلومات بسرعة.
علينا أيضًا أن نذكر كيف تؤثر هذه النماذج الحية على توقعات العملاء. مع اعتياد العملاء على الفورية والتخصيص في التفاعلات المدفوعة بالذكاء الاصطناعي، من المحتمل أن يرتفع سقف "الخدمة الجيدة". مثال سريع: اليوم، الانتظار على الخط لمدة 5 دقائق مزعج ولكنه مقبول؛ إذا كان بإمكان الذكاء الاصطناعي التعامل مع مكالمتك فورًا، سيصبح الناس أقل تسامحًا مع الانتظار لرد بشري. وبالمثل، إذا أصبحت وكلاء الذكاء الاصطناعي جيدة في التعامل مع الأمور، قد يبدأ العملاء في تفضيلهم لبعض المهام (بعض الأشخاص يقولون بالفعل إنهم يفضلون استخدام كشك آلي جيد أو روبوت بدلاً من التعامل مع إنسان للمعاملات البسيطة). لكن التوقعات حول التعاطف والفهم ستزداد أيضًا - إذا أساء الذكاء الاصطناعي نطق اسمك أو قدم اعتذارًا عامًا، يلاحظ المستخدمون الطابع الاصطناعي. لهذا السبب بذلت شركة OpenAI جهدًا لجعل الأصوات أكثر تعبيرًا والفهم أكثر دقة. تحقيق تفاعل بمستوى بشري حقيقي بشكل مستمر لا يزال في تقدم، ولكن الفجوة تتقلص. ستحتاج الشركات التي تنشر هذه الأنظمة إلى تحسين أسلوب المحادثة للذكاء الاصطناعي باستمرار ودمج ملاحظات المستخدمين للحصول على التجربة الصحيحة.
حتى مع تزايد استقلالية وكفاءة وكلاء الذكاء الاصطناعي في التفاعلات في الوقت الحقيقي، يبقى دور الإنسان "في الحلقة" حيوياً للإشراف والرقابة الأخلاقية، وأحياناً للتعاون. تم تصميم OpenAI Realtime مع الفهم بأن أنظمة الذكاء الاصطناعي يجب أن تتمتع بإشراف بشري قابل للتكوين، خاصة في البيئات المعقدة أو ذات المخاطر العالية.
أحد جوانب الإنسان في الحلقة هو عمليات الموافقة. كما ذكر سابقًا، يسمح SDK لوكلاء الوقت الحقيقي للمطورين بتحديد أن بعض الإجراءات التي يريد الذكاء الاصطناعي اتخاذها (مثل تنفيذ معاملة مالية عبر أداة) تتطلب موافقة بشرية. في الممارسة العملية، قد يعني ذلك أن الذكاء الاصطناعي يتوقف ويطلب تأكيدًا من مشرف أو المستخدم النهائي. على سبيل المثال، قد يقول وكيل خدمة العملاء الذكاء الاصطناعي، "يمكنني رد 500 دولار لك لهذه المشكلة. هل يجب أن أتابع؟" – هذا الطلب من المستخدم يسعى بفعالية للحصول على تأكيد بشري لاتخاذ إجراء. أو في بيئة مؤسسية، يمكن للذكاء الاصطناعي تصعيد طلب غير عادي إلى مدير بشري: قد يوجه النظام إشارة، "هذه المحادثة تتعلق بحالة طبية طارئة – يتم توجيهها الآن إلى وكيل بشري". هذه التدخلات تضمن أن الحكم البشري يمكن تطبيقه حيث قد يفتقر الذكاء الاصطناعي إلى الفهم الدقيق أو السلطة. يدعم منصة OpenAI ذلك من خلال السماح للمطورين بتكوين قواعد استخدام الأدوات (كما هو موضح مع إعدادات require_approval على خادم MCP)[66]. تعني هذه التكوينات أن الذكاء الاصطناعي سيعرف متى يتوقف وينتظر موافقة بشرية، مما يمنعه من ارتكاب خطأ مكلف أو انتهاك سياسة بشكل مستقل.
مثال آخر على "الإنسان في الدائرة" هو المراقبة والتدخل في الوقت الفعلي. غالبًا ما تقوم الشركات التي تُطلق الذكاء الاصطناعي الصوتي على نطاق واسع بإنشاء مركز قيادة حيث يراقب البشر المحادثات بشكل عام (وأحيانًا بشكل مباشر) لضمان الجودة والسلامة. مع وجود مصنفات نشطة في الوقت الفعلي، إذا تسببت محادثة في توقف أمني (على سبيل المثال، طلب المستخدم من الذكاء الاصطناعي محتوى غير مسموح به)، قد يتدخل المشرف البشري لمراجعة ما حدث وربما التحدث إلى المستخدم أو إلغاء حظر الطلبات غير الضارة التي كانت إيجابيات كاذبة. بالإضافة إلى ذلك، قد يستمع البشر بصمت إلى جزء من المكالمات لأغراض التدريب أو لتحسين الذكاء الاصطناعي. من المهم أن يتم ذلك بشفافية وموافقة المستخدم بسبب الخصوصية، ولكن من الناحية الفنية، يعني طبيعة البث المباشر لواجهة برمجة التطبيقات في الوقت الفعلي أن المشرفين يمكنهم الوصول إلى البث إذا لزم الأمر. على سبيل المثال، ذكرت حلول شركة PwC "المراقبة الاستباقية" كميزة، مما يعني وجود طبقة إشراف بشرية تراقب التفاعلات الحية.
استراتيجيات التسليم هي جزء حيوي من تصميم الإنسان في الحلقة. النظام المصمم بشكل جيد سيعرف حدوده ويمتلك آلية لنقل المحادثة إلى إنسان بسلاسة. بالنسبة للوكلاء الصوتيين، يعني هذا أن الذكاء الاصطناعي قد يقول رسالة رشيقة ثم يدعو وكيلًا بشريًا. يجب أن يتلقى الإنسان السياق - ويفضل أن يكون ملخصًا أو نصًا - حتى لا يُثقل المستخدم بتكرار نفسه. يمكن أن تسهل نصوص وسجل المحادثة من OpenAI Realtime ذلك: قبل التسليم، يمكن للذكاء الاصطناعي حتى أن ينشئ ملخصًا سريعًا للمشكلة باستخدام استدعاء وظيفة لأداة ملخص، والتي تُعرض بعد ذلك على الوكيل البشري. يمكن أن يجعل هذا التعاون الإنسان والذكاء الاصطناعي أكثر فعالية من أي منهما بمفرده. إنه يعكس تحولًا نحو "وكلاء بشريين مدعومين بالذكاء الاصطناعي": بدلاً من استبدال البشر تمامًا، يقوم الذكاء الاصطناعي بما يمكنه ثم يصبح أداة دعم للبشر (تلخيص، استرجاع المعلومات، إلخ، في الخلفية) بمجرد أن يتولى الإنسان. نرى نسخًا مبكرة من هذا في دعم العملاء حيث يقترح الذكاء الاصطناعي ردودًا على وكلاء البشر (لدى Zendesk والمنصات الأخرى مثل هذه الميزات). مع Realtime، يمكن أن تُنطق تلك الاقتراحات في سماعة وكيل في الوقت الحقيقي أو تُعرض على الشاشة، مما يجعل التفاعل المباشر بين الإنسان والعميل أكثر إلمامًا.
من ناحية أخرى، الإشراف البشري في التدريب هو اعتبار آخر. التفاعلات في الوقت الحقيقي تولد الكثير من البيانات (نصوص صوتية، ملاحظات المستخدم، إلخ). سيتعين على البشر مراجعة وتسمية أجزاء من هذه النصوص لتحسين أداء النموذج باستمرار. يمكن للتدريب الموجه على بيانات المحادثات (مع تصحيحات موضوعة من قبل البشر) معالجة العيوب مثل سوء فهم بعض اللهجات أو المصطلحات الصناعية. من المرجح أن شركة OpenAI استخدمت ملاحظات بشرية بكثافة لضبط GPT-Realtime لاتباع التعليمات والنبرة (كما فعلوا مع ChatGPT RLHF). قد تقوم الشركات أيضاً بضبط النموذج أو على الأقل تكوينه ليتناسب مع مجالها - مثل تقديمه حوارات مثالية لخدمة العملاء. تتطلب هذه العملية رؤية بشرية لما يبدو عليه "الجيد". لذا يظل البشر جزءًا أساسيًا خلف الكواليس، يوجهون تطور الذكاء الاصطناعي.
هناك أيضًا زاوية أخلاقية واجتماعية أكبر لمفهوم الإنسان في العملية في مثل هذه النشرات القوية للذكاء الاصطناعي. ستسعى الشركات والمنظمون للحصول على ضمان بأن هناك مسؤولية - أن الوكيل الذكي ليس مجرد صندوق أسود يعمل على نحو غير منضبط، بل شيء يخضع لمراقبة بشرية. غالبًا ما يتم ذكر مفهوم "التحكم البشري الفعّال" في حوكمة الذكاء الاصطناعي. في سياق الذكاء الاصطناعي الفوري، يعني هذا أن المنظمات يجب أن تحدد متى يجب استشارة الإنسان، وأن تضمن أن الذكاء الاصطناعي يمكنه الرجوع إلى البشر. على سبيل المثال، إذا كان الذكاء الاصطناعي يتعامل مع شكوى من عميل وطلب العميل صراحةً "أريد التحدث إلى إنسان"، فيجب على النظام الاستجابة لذلك فورًا (قد تتطلب بعض السلطات القضائية حتى خيارًا بشريًا قانونيًا). ضمان أن يعرف المستخدمون أنهم يتحدثون إلى الذكاء الاصطناعي (سياسة OpenAI تتطلب توضيح ذلك للمستخدمين[68]) وأن لديهم خيار الرجوع إلى شخص هو أمر مهم للثقة.
باختصار، في حين أن OpenAI Realtime يدفع الحدود فيما يمكن للذكاء الاصطناعي القيام به بشكل مستقل في الوقت الفعلي، فإنه يوفر أيضًا الوسائل اللازمة لإشراك البشر في النقاط الحرجة. ستكون التطبيقات الأكثر فعالية هي التي تعالج الذكاء الاصطناعي ليس كبديل للبشر، بل كمتعاون قوي – يقوم بأتمتة ما يمكنه، ويساعد الإنسان عند الحاجة، ويتعلم من ملاحظات الإنسان لتحسين أدائه بمرور الوقت. سيساعد هذا النهج الذي يضع الإنسان في الحلقة على ضمان تحقيق مكاسب الإنتاجية وتحسينات خدمة العملاء من ذكاء Realtime بشكل مسؤول وموثوق.
يبشر OpenAI Realtime بفصل جديد في تفاعل الذكاء الاصطناعي - حيث يمكن أن تحدث المحادثات مع الآلات بتلقائية وغنى كما بين الناس. تميزه قدراته المتطورة (نموذج الكلام الموحد، البث منخفض التأخير، الإدخال/الإخراج المتعدد الوسائط، استخدام الأدوات) في عالم الذكاء الاصطناعي الفوري، مما يمكن التطبيقات التي كانت سابقًا من الخيال العلمي. لقد رأينا كيف يمكنه تمكين المطورين من بناء الجيل القادم من التطبيقات الصوتية والمتعددة الوسائط، وكيف يمكن للشركات تحويل تجارب العملاء والموظفين، وكيف يمكن للمستخدمين المتمرسين في التكنولوجيا الاستفادة من مساعدين أذكياء وأكثر طبيعية وقوة.
المهم أن OpenAI Realtime لا يوجد في فراغ؛ المنافسون مثل Gemini Live من Google يدفعون بحدود مماثلة، وحتى آخرون مثل Claude من Anthropic يتحركون نحو الصوت - منافسة ستدفع الابتكار بشكل أكبر. ومع انتشار هذه الأنظمة بشكل أوسع، يمكننا أن نتوقع تطورًا سريعًا في أنماط الواجهة: الصوت والرؤية سينضمان إلى النص كطرق قياسية نتحدث بها مع شركائنا في الذكاء الاصطناعي. من المرجح أن تدمج أدوات الإنتاجية هذه الأصوات الذكية للتعامل مع المهام الروتينية أو تقديم المساعدة الفورية. ستتزايد معالجة الخدمة العملاء أو إدارتها بالكامل من خلال وكلاء محادثة يشعرون بأنهم مساعدون مفيدون أكثر من IVRs القديمة.
لا تزال هناك تحديات يجب التغلب عليها - ضمان الدقة، معالجة الحالات المتطرفة، الحفاظ على التكاليف ضمن النطاق المقبول، والحفاظ على التوازن الصحيح بين الأتمتة والإشراف البشري. ومع ذلك، فإن الاتجاه واضح. مع OpenAI Realtime ونظرائها، تصبح الذكاء الاصطناعي مشاركًا حيًا في عالمنا: يستمع، يفهم، ويتحدث في الوقت الفعلي. بالنسبة للمطورين والشركات، ستأتي الفروق من كيفية استغلالهم لهذه التقنية - سواء لبناء تجارب مستخدم أكثر تخصيصًا، عمليات أكثر كفاءة، أو خدمات جديدة تمامًا. بالنسبة للمستخدمين، الأمل هو أن تصبح التفاعل مع الذكاء الاصطناعي سهلاً مثل التحدث إلى صديق معرفي دائم التواجد.
كما هو الحال مع أي تقنية تحويلية، فإن النجاح يعتمد على التنفيذ المدروس. يجب على من يتبنى OpenAI Realtime الانتباه إلى ملاحظات المستخدمين، وتطوير تصميم المحادثات، والحفاظ على البشر في حلقة الإشراف لتحسين الذكاء الاصطناعي. إذا تم القيام بذلك بشكل صحيح، يمكن أن يزيد OpenAI Realtime بشكل كبير من الإنتاجية والرضا من خلال التعامل مع الأمور الفورية والتفاعلية - المكالمة الهاتفية التي لا يريد أحد الرد عليها، البحث عن المعلومات المطلوبة في اللحظة الحالية، الفكرة التي تريد مناقشتها في الساعة 2 صباحًا. بمعنى ما، فإنه يقربنا من الحلم الأصلي للحوسبة: مساعدون متواجدون في كل مكان يعززون قدراتنا في الوقت الحقيقي، أينما ومتى احتجنا إليهم.
المصادر: التحليل في هذه المقالة يستند إلى أحدث المعلومات من الإصدار الرسمي لـ OpenAI لـ GPT-Realtime وواجهة Realtime API [69][70]، وتقارير من المستخدمين الأوائل من المؤسسات مثل PwC حول تأثيره في مراكز الاتصال [71][36]، ومقارنات مع المعاصرين مثل Google’s Gemini Live API [9][51] وواجهة الصوت لـ Anthropic’s Claude [46][60]. هذه المصادر المتاحة للجمهور توفر أساسًا واقعيًا لفهم قدرات OpenAI Realtime، حالات الاستخدام، ومكانته في مشهد الذكاء الاصطناعي في الوقت الحقيقي.
إدخال gpt-realtime وتحديثات Realtime API لوكلاء الصوت الإنتاجيين | OpenAI
https://openai.com/index/introducing-gpt-realtime/
كيفية استخدام واجهة برمجة التطبيقات الفورية لـ GPT للكلام والصوت مع Azure OpenAI في نماذج Azure AI Foundry - Azure OpenAI | Microsoft Learn
https://learn.microsoft.com/en-us/azure/ai-foundry/openai/realtime-audio-quickstart
[5] [6] [35] [36] [37] [42] [43] [48] [67] [71] وكيل صوتي في الوقت الحقيقي مدعوم من OpenAI: PwC
https://www.pwc.com/us/en/technology/alliances/library/open-ai-dcs-launch-engine-brief.html
[7] [28] [29] [30] مقدمة في واجهة برمجة تطبيقات OpenAI في الوقت الفعلي - Arize AI
https://arize.com/blog/introduction-to-open-ai-realtime-api/
[9] [38] [39] [47] [49] [50] [51] [52] قم ببناء تطبيقات تعتمد على الصوت باستخدام Live API | مدونة جوجل كلاود
[17] [46] [57] [58] [59] [60] أطلقت Anthropic وضع الصوت التفاعلي لـ Claude على الأجهزة المحمولة الذي يبحث في مستندات Google الخاصة بك وDrive وCalendar | VentureBeat
https://venturebeat.com/ai/anthropic-debuts-conversational-voice-mode-for-claude-mobile-apps
[31] أي مزود LLM يجب اختياره أثناء بناء وكلاء الذكاء الاصطناعي الصوتي | مدونة
https://comparevoiceai.com/blog/which-llm-choose-voice-ai-agents
[40] واجهة API في الوقت الفعلي من OpenAI مع Twilio + RAG == مركز اتصال AI - المجتمع
https://community.openai.com/t/openai-realtime-api-w-twilio-rag-ai-call-center/981632
[41] بناء وكيل هاتف AI باستخدام Twilio وواجهة برمجة التطبيقات في الوقت الفعلي لـ OpenAI ...
[44] [45] يمكن لكلود الآن استخدام الأدوات - أنثروبيك
https://www.anthropic.com/news/tool-use-ga
[61] كيف هي تجربة الناس مع وضع الصوت لدى كلود؟ - ريديت
[62] ما الجديد في Copilot Studio: سبتمبر 2025 - مايكروسوفت
[63] كيفية استخدام Microsoft Copilot: دليل 2025 - Reclaim.ai