NVIDIA Blackwell Ultra وأزمة توفير وحدات معالجة الرسوميات AI

المؤلف: بوكسو لي

أحدثت منصة GPU Blackwell Ultra الجديدة من NVIDIA ضجة كبيرة في عالم الذكاء الاصطناعي - لدرجة أنها تسببت في أزمة توفير حقيقية. يتحدث المحللون في وول ستريت والباحثون في الذكاء الاصطناعي على وسائل التواصل الاجتماعي عن الأداء الذي يحطم الأرقام القياسية، وارتفاع الأسعار، والطلب غير المسبوق على هذه الرقائق. في هذا التحليل العميق، سنستكشف لماذا أصبحت Blackwell Ultra موضوعًا شائعًا، ونفحص اختراقاتها في الأداء لكل واط وعرض النطاق الترددي للذاكرة، ونتحدث عن اقتصاديات التكتلات لنشر هذه الوحدات على نطاق واسع، ونفكر في سبب إثارة هذا الهوس لإعادة التفكير في أطر الذكاء الاصطناعي الخفيفة. طوال المقال، سنعتمد على مصادر موثوقة ونركز على التفاصيل التقنية لجمهور ذكي.

لماذا Blackwell Ultra تشغل العناوين الرئيسية

أداء لا مثيل له: توفر وحدات معالجة الرسومات Blackwell Ultra من NVIDIA قفزة هائلة في قدرة الاستدلال بالذكاء الاصطناعي. تظهر الاختبارات المبكرة زيادة بمقدار 7.5× في الإنتاجية المنخفضة الدقة مقارنة بوحدات معالجة الرسومات من الجيل السابق Hopper H100 [1]. في الواقع، يمكن لـ Blackwell Ultra تنفيذ حسابات دقيقة بكثافة 4 بت (صيغة NVFP4) بسرعة 15 PFLOPS، مقارنة بحوالي 2 PFLOPS على H100 (FP8) – بزيادة 7.5× في الإنتاجية الخام [1]. تُترجم هذه القفزة إلى سرعة استدلال أكبر لنماذج الذكاء الاصطناعي. على سبيل المثال، تُفيد NVIDIA بأن النظام المبني على Blackwell Ultra يحقق زيادة عامة قدرها 50× في إنتاجية “مصنع” الذكاء الاصطناعي (إنتاجية الاستجابات) مقارنة بمنصة تعتمد على Hopper، بفضل زيادة قدرها حوالي 10× في استجابة المستخدم لكل مستخدم و5× في الإنتاجية لكل ميجاوات من الطاقة [2]. بمعنى آخر، لا يضيف Blackwell Ultra القوة الغاشمة فقط – بل يفعل ذلك بكفاءة أكبر بكثير، مما يوفر 5× أداء أكثر لكل واط في النشر على نطاق واسع [2].

قدرات استدلال جديدة: تقدم بلاكويل ألترا تنسيق دقة جديد بحجم 4 بت يسمى NVFP4 الذي يتيح سرعات استدلال قصوى دون التضحية بالكثير من الدقة. يستخدم هذا التنسيق تقنية ذكية للتدرج بمستويين للحفاظ على الدقة، مما يحقق جودة قريبة من مستوى FP8 مع تكلفة أقل بكثير في الذاكرة والحوسبة[3]. والنتيجة هي أن أنوية تينسور في بلاكويل ألترا يمكنها معالجة الحسابات منخفضة الدقة بمستويات كانت مستحيلة من قبل - 1.5× من إنتاجية FP4 لبطاقات بلاكويل القياسية، وأسرع مرات عديدة من البنى السابقة[1]. كما ضاعفت NVIDIA إنتاجية وحدة الوظيفة الخاصة للعمليات الأساسية في الانتباه المحول، بحيث تعمل طبقات الانتباه أسرع بمقدار من رقائق بلاكويل الأساسية[4]. تستهدف هذه التحسينات الاختناقات الأساسية لنماذج اللغة الكبيرة واستدلال الذكاء الاصطناعي التوليدي، مما يتيح أشياء مثل الفيديو التوليدي في الوقت الحقيقي. في الواقع، أظهرت إحدى العروض التوضيحية أن بلاكويل ألترا يولد فيديو ذكاء اصطناعي لمدة 5 ثوانٍ أسرع 30× من بطاقات هوبر، مما يحول مهمة تستغرق 90 ثانية إلى إخراج في الوقت الفعلي[5].

الحماس في وول ستريت وتويتر: لم تمر تلك المكاسب في الأداء دون أن يلاحظها أحد. أسهم NVIDIA ارتفعت على توقعات تحقيق إيرادات قياسية مدفوعة بـ Blackwell. في الربع الثالث من 2025، بلغت عائدات مركز البيانات 51.2 مليار دولار (90% من مبيعات NVIDIA)، بفضل زيادة Blackwell Ultra - التي تقول الشركة إنها الآن "المعماريات الرائدة عبر جميع فئات العملاء"[6][7]. أشار الرئيس التنفيذي جنسن هوانغ إلى أن "مبيعات Blackwell تجاوزت التوقعات، ووحدات المعالجة السحابية نفدت"، مع الطلب الذي يفوق العرض بكثير[8]. مختبرات الذكاء الاصطناعي ومزودو السحابة يتسابقون للحصول على هذه الشرائح، ووسائل التواصل الاجتماعي مليئة بالقصص عن الطلبات الكبيرة والتضخم في السوق الثانوية. هذا الجنون الناتج عن الندرة يرفع الأسعار ويجعل Blackwell Ultra موضوعًا شائعًا في دوائر التكنولوجيا والمال.

بلاكويل ألترا الهندسة المعمارية: الأداء على نطاق واسع

الشكل: زاد ناتج الذكاء الاصطناعي منخفض الدقة بشكل كبير مع بلاكويل ألترا. كل GPU بلاكويل ألترا يقدم 15 PFLOPS من حوسبة الذكاء الاصطناعي الكثيفة بدقة 4 بت، مما يمثل زيادة بنسبة 1.5× مقارنة بشريحة بلاكويل القوية بالفعل، وحوالي 7.5× من ناتج FP8 لجيل NVIDIA السابق هوبر (H100/H200)[1]. هذه القفزة الهائلة في قوة الحوسبة هي محرك رئيسي لازدهار البنية التحتية الحالية للذكاء الاصطناعي.

في قلب Blackwell Ultra يوجد تصميم متقدم مصمم خصيصًا لـ استنتاج الذكاء الاصطناعي على نطاق واسع. كل وحدة معالجة رسومية تتكون في الواقع من شريحتين GPU في حزمة واحدة، مرتبطتين بواجهة عالية السرعة بقدرة 10 تيرابايت/ثانية[9]. هذا النهج متعدد الشرائح (المشابه لهندسة الرقائق الصغيرة) يسمح لـ NVIDIA بجمع كمية هائلة من القدرة المعالجة في وحدة معالجة رسومية واحدة. شريحة Blackwell Ultra الكاملة تحتوي على 160 معالج متعدد التدفق (SMs) موزعة عبر 8 مجموعات GPC، بإجمالي 640 نواة تينسور من الجيل الخامس لكل وحدة معالجة رسومية[10][11]. هذه النوى تينسور هي عماد الذكاء الاصطناعي، وفي Blackwell Ultra تم تحسينها لدعم دقة FP8 وFP6 والدقة الجديدة NVFP4. كل معالج متعدد التدفق يشمل أيضًا 256 كيلوبايت من "ذاكرة تينسور" (TMEM) على الشريحة، وهي مساحة تخزين سريعة تتيح للوحدة المعالجة الرسومية إعادة استخدام البيانات لحسابات المصفوفات بكفاءة أكبر[12][13]. هذه الذاكرة على مستوى المعالج، جنبًا إلى جنب مع أوضاع معالجة الكتل المزدوجة الجديدة، تساعد في تقليل حركة المرور للذاكرة خارج الشريحة والحفاظ على تغذية نوى التينسور، مما يحسن من الكفاءة الفعلية واستهلاك الطاقة[13].

ذاكرة HBM3e – ضخمة وسريعة: تغذية البيانات إلى هذه الوحدات الحاسوبية تتم عبر مجموعة ضخمة من الذاكرة. تأتي وحدات معالجة الرسوميات Blackwell Ultra بذاكرة عالية النطاق الترددي بـ 288 جيجابايت من HBM3e لكل وحدة[14]. وهذا أكثر بنسبة 1.5× من الذاكرة الموجودة في وحدة معالجة الرسوميات Blackwell القياسية لمراكز البيانات (التي تحتوي على ~192 جيجابايت)[15]، وأكثر من 3.5× من ذاكرة Hopper H100 (80 جيجابايت). هذا مهم لأن نماذج اللغة الكبيرة الحالية وأعباء عمل الذكاء الاصطناعي الأخرى تتطلب غالبًا أطوالًا وسياقات ضخمة. الذاكرة الأكبر تسمح بمعالجة أحجام دفعات أكبر وتسلسلات أطول دفعة واحدة، مما يحسن الإنتاجية للنماذج المعقدة[16]. إن نطاق تمرير الذاكرة مثير للإعجاب أيضًا – بحدود 8 تيرابايت/ثانية لكل وحدة معالجة رسوميات (بفضل 12 رزمة من HBM3e)[14]. للمقارنة، قدمت وحدة H100 SXM حوالي 3 تيرابايت/ثانية[17]، وحتى ترقية H200 المؤقتة مع HBM3e وصلت إلى ~4.8 تيرابايت/ثانية[18][19]. مع Blackwell Ultra، لم يعد نظام الذاكرة يشكل عنق الزجاجة للعديد من أعباء العمل: يمكن أن تكون النماذج أكبر، أو يمكن الوصول إليها بكفاءة أكبر، دون الحاجة إلى التبديل المستمر للذاكرة الخارجية.

من Grace Hopper إلى Grace Blackwell: تصميم NVIDIA يدمج أيضًا وحدات المعالجة المركزية والشبكات بشكل محكم مع وحدات المعالجة الرسومية لتحسين أداء المجموعات الكبيرة. كل “عقدة” Blackwell Ultra تجمع وحدات المعالجة الرسومية مع وحدات المعالجة المركزية من NVIDIA Grace عبر روابط NVLink-C2C فائقة السرعة (900 جيجابايت/ثانية عرض النطاق الترددي بين وحدة المعالجة المركزية ووحدة المعالجة الرسومية)[14]. تقدم وحدة المعالجة المركزية Grace 2,592 نواة من نوع Arm وعرض نطاق ذاكرة عالي خاص بها (LPDDR5X) لتغذية وحدات المعالجة الرسومية[20][21]. يضمن هذا المزيج، الذي يُسمى أحيانًا Grace Blackwell، أن حسابات وحدة المعالجة الرسومية ليست محدودة بقيود وحدة المعالجة المركزية أو المدخلات والمخرجات. في الواقع، يحتوي نظام NVIDIA GB300 (المفصل أدناه) على 36 وحدة معالجة مركزية Grace تعمل جنبًا إلى جنب مع 72 وحدة معالجة رسومية في كل رف، وكلها متصلة عبر NVLink من الجيل الخامس بسرعة تصل إلى 130 تيرابايت/ثانية من عرض النطاق الترددي الكلي[22][20]. هذه الشبكة، بالإضافة إلى InfiniBand Quantum X أو Spectrum-X Ethernet من NVIDIA بين العقد، تعني أن حتى “مصانع الذكاء الاصطناعي” متعددة الرفوف يمكنها العمل مع تواصل سريع بين وحدات المعالجة الرسومية. الهدف النهائي هو توسيع نطاق التنبؤات بالذكاء الاصطناعي مثل خدمة السحابة - وهو ما تسميه NVIDIA مفهوم مصنع الذكاء الاصطناعي - حيث تعمل العديد من النماذج والطلبات بالتوازي عبر مجموعة متشابكة من المسرعات.

الأداء لكل واط: مكاسب الكفاءة

من أبرز الجوانب في Blackwell Ultra هو مدى تحسينه لكفاءة الطاقة في مهام الذكاء الاصطناعي. نعم، كل وحدة معالجة رسومات تستهلك الكثير من الطاقة (سنناقش معدل الطاقة المرتفع قريبًا)، ولكن الأداء لكل واط قد زاد بشكل كبير مقارنة بالأجيال السابقة. تشير مقاييس NVIDIA الخاصة إلى أنه على نطاق واسع، توفر أنظمة Blackwell Ultra 5 أضعاف إنتاجية لكل ميجاواط من الطاقة مقارنة بأنظمة Hopper[2]. يعود ذلك إلى عدة عوامل تعمل جنبًا إلى جنب:

  • الدقة المنخفضة = طاقة أقل: باستخدام دقة 4 بت مع خسارة طفيفة في الدقة، يمكن لـ Blackwell Ultra أداء نفس العمل الاستدلالي باستخدام عدد أقل بكثير من الجول لكل عملية حسابية. تم تصميم تنسيق NVFP4 خصيصًا لتحسين الكفاءة - بتقليل حركة الذاكرة واستخدام مضاعفات أصغر - لدرجة أن خفض الدقة من FP8 إلى FP4 يحسن الأداء لكل واط بشكل كبير[23]. في الأساس، يمكن لكل وحدة معالجة رسومات تنفيذ المزيد من العمليات بنفس ميزانية الطاقة عندما تكون العمليات منخفضة الدقة، وهو فوز كبير لخدمة الاستدلال.
  • تحسينات معمارية: يعني ذاكرة المصفوفة والتعاون الثنائي الكتلة في وحدات SM استخدامًا أفضل لكل واط. يتم الاحتفاظ بالبيانات على الشريحة، مما يتجنب الوصول المكلف إلى DRAM، وتبقى نوى المصفوفة مشغولة مع تقليل التوقفات[13]. أيضًا، مضاعفة المسارات الحيوية في وحدات الانتباه (SFUs) يسمح لهذه الوحدات بإكمال العمل بشكل أسرع ثم التوقف، بدلاً من إطالة الحسابات بكامل الطاقة[4]. كل هذا يترجم إلى تقليل فقد الطاقة على انتظار الذاكرة أو على تسلسلات طويلة من العمليات.
  • عملية التصنيع وإدارة الساعة: يتم تصنيع وحدات معالجة الرسومات من جيل Blackwell باستخدام عمليات TSMC 4N/4NP المتقدمة، ومن المحتمل أن تدفع إصدارات Ultra إلى الحد الأقصى. يمكنهم تحقيق سرعات أعلى أو المزيد من النوى في نفس ظرف الطاقة. وفقًا لبعض التحليلات، فإن Blackwell الأساسي (المعروف أحيانًا باسم B200) قد قدم بالفعل زيادة كبيرة في الأداء لكل واط مقارنة بـ Hopper عن طريق الانتقال إلى شرائح 4N والمكاسب المعمارية[24]. ثم يضيف Blackwell Ultra 50% من الحوسبة الإضافية على ذلك، وإن كان مع زيادة في الطاقة - لكنه يحقق نسبة أفضل.

من الجدير بالذكر أن تحسينات الأداء لكل واط ليست مجرد نظرية؛ فهي تؤثر بشكل مباشر على تكلفة التشغيل لمراكز البيانات. إذا تمكنت من الحصول على أداء مضاعف 5 مرات لنفس كمية الطاقة، فإن ذلك يُعد تخفيضًا كبيرًا في التكلفة لكل استعلام أو استدلال. نظرًا لأن العديد من نماذج الذكاء الاصطناعي تُنشر على نطاق الويب (تخيل ملايين الاستعلامات يوميًا)، فإن هذه الكفاءة مهمة لاحتواء تكاليف الكهرباء والتبريد. حتى أن NVIDIA توفر حاسبة كفاءة الطاقة لبطاقات الرسوميات الخاصة بهم[25]، مما يبرز مدى أهمية هذا المقياس للعملاء.

من زاوية أخرى، تروج AMD والمنافسون الآخرون أيضًا لأداء الطاقة لكل واط في الذكاء الاصطناعي، لكن اعتبارًا من أواخر عام 2025 يبدو أن NVIDIA قد تقدمت بخطوة مع Blackwell Ultra. على سبيل المثال، لا يزال معالج AMD MI300X الرائد (وهو GPU منافس للاستدلال في الذكاء الاصطناعي) يعتمد على تقنية 5 نانومتر ويركز على عمليات 8 بت و16 بت؛ إن انتقال NVIDIA العدواني إلى الاستدلال بـ 4 بت مع أجهزة متخصصة يمنحها ميزة جديدة في الكفاءة. هذا جزء من السبب الذي يجعل مزودي الخدمات السحابية حريصين على الاستثمار في Blackwell Ultra على الرغم من التكلفة الأولية العالية – فالتكلفة الإجمالية للملكية تتحسن عندما يمكنك القيام بالمزيد بقوة أقل بمرور الوقت.

مميزات عرض النطاق الترددي والقدرة للذاكرة

تشتهر النماذج الذكاء الاصطناعي الكبيرة بأنها تستهلك الكثير من الذاكرة والنطاق الترددي، وBlackwell Ultra يعالج هذا بشكل مباشر مع بنية الذاكرة HBM3e. كما ذُكر، كل وحدة معالجة رسومات تحتوي على 288 جيجابايت من ذاكرة HBM3e على اللوحة[14]. هذا كمية هائلة من الذاكرة السريعة، حتى بالمقارنة مع وحدات معالجة الرسومات الحديثة مثل H100 80GB أو H200 141GB المؤقتة التي قدمت HBM3e[18][19].

الفائدة الفورية من 288 جيجابايت لكل وحدة معالجة رسومات هي القدرة على خدمة أو تعديل نماذج كبيرة جدًا في الذاكرة (مثل النماذج ذات مئات المليارات من المعلمات أو نماذج LLM عالية السياق) دون تقسيم النموذج عبر وحدات معالجة الرسومات. كما يمكن معالجة أكبر دفعات، مما يزيد من الاستخدام. تشير NVIDIA بشكل خاص إلى أن الذاكرة الأكبر بمقدار 1.5× على Blackwell Ultra (مقارنة بسابقه) "تعزز من خلال تحسين استنتاج الذكاء الاصطناعي لأطول أطوال السياق."[16] بالنسبة لتطبيقات الذكاء الاصطناعي مثل الأسئلة والإجابات على المستندات الطويلة أو المحادثات الطويلة مع مساعد الذكاء الاصطناعي، يمكن لوحدة معالجة الرسومات التعامل مع المزيد من الرموز في وقت واحد، مما يحسن من السرعة وجودة النتائج.

عرض النطاق الترددي هو الوجه الآخر للعملة. مع 12 مجموعة HBM تعمل بالتوازي، فإن نظام الذاكرة في Blackwell Ultra واسع للغاية. في الذروة، يمكنه دفع حوالي ~8 تيرابايت/ثانية من البيانات[14]. هذا رقم فلكي - للمقارنة، قد يكون لدى وحدة معالجة الرسومات للكمبيوتر الشخصي المتطور مع GDDR6 حوالي 0.5 تيرابايت/ثانية، وحتى وحدات معالجة الرسومات لمراكز البيانات من الجيل السابق كانت في نطاق 2-3 تيرابايت/ثانية[17]. ما معنى هذا في الواقع؟ يعني أن نوى وحدة معالجة الرسومات يمكن تزويدها بالبيانات حتى في الأحمال الثقيلة للذاكرة. غالبًا ما تتضمن الشبكات العصبية مضاعفات مصفوفة ضخمة (التي تتعامل معها Tensor Cores) تتخللها عمليات مرتبطة بالذاكرة (مثل وزن الانتباه، استدعاءات التضمين، إلخ). مع المزيد من عرض النطاق الترددي، تتسارع تلك الخطوات المرتبطة بالذاكرة، لذلك تشهد حمولة العمل الكلية توقفًا أقل. تصميم Blackwell Ultra يوازن بشكل أساسي بين قوته الحسابية الهائلة وعرض النطاق الترددي للذاكرة الهائل بنفس القدر، مما يتجنب السيناريو الذي تكون فيه وحدات الحساب خاملة في انتظار البيانات.

للتوضيح بشكل ملموس، اعتبر نموذج المحول الذي يولد سلسلة طويلة: تحتاج آلية الانتباه إلى قراءة مصفوفات كبيرة من المفاتيح/القيم من الذاكرة. على جهاز Hopper H100، قد يكون هذا عاملًا محدودًا للسلاسل الطويلة جدًا، لكن على Blackwell Ultra مع HBM3e، يمكن لوحدة معالجة الرسومات ضخ تلك المصفوفات بمعدل مضاعف أو أكثر. مع وحدات حساب الانتباه الأسرع بمرتين، تحقق أداء أعلى بكثير في المهام مثل توليد النصوص بأسلوب GPT مع سياق طويل. مفهوم NVIDIA “مصنع الذكاء الاصطناعي” يعني أيضًا أن الذاكرة مجمعة على نطاق الكتلة – في رف يحتوي على 72 وحدة معالجة رسومات، هناك أكثر من 20 تيرابايت من ذاكرة وحدة معالجة الرسومات مجمعة، مع عرض نطاق ذاكرة إجمالي في نطاق مئات التيرابايت/ثانية المتاحة في النطاق المتصل بـ NVLink[22][20]. هذا يتيح بشكل أساسي أن تتصرف كتلة الذكاء الاصطناعي كما لو كانت وحدة معالجة رسومات عملاقة واحدة مع عشرات التيرابايت من الذاكرة السريعة، وهو سيناريو مثالي لخدمة العديد من نماذج الذكاء الاصطناعي الكبيرة في وقت واحد.

اقتصاديات الكتلة: التكلفة والقوة على نطاق واسع

مع تغطية الأداء والكفاءة، يجب علينا معالجة الجانب العملي من نشر Blackwell Ultra: التكلفة والبنية التحتية المطلوبة. تُباع هذه وحدات معالجة الرسومات عادةً كجزء من أنظمة أكبر مثل رفوف NVIDIA’s GB300 NVL72 أو شفرات خوادم HGX B300. تحتوي وحدة GB300 NVL72 واحدة على 72 وحدة معالجة رسومات Blackwell Ultra بالإضافة إلى 36 وحدة معالجة مركزية Grace في رف واحد، مع مفاتيح عالية السرعة وتبريد[26][20]. هذا في الأساس عبارة عن حاسوب فائق للذكاء الاصطناعي في صندوق، ولا يأتي بسعر زهيد. وفقًا لتقارير الصناعة، تسعّر NVIDIA رف GB300 NVL72 الكامل بحوالي 3 ملايين دولار[27]. وهذا يعادل متوسط حوالي 40,000 دولار لكل وحدة معالجة رسومات، وهو ما يتماشى مع السعر التقريبي المعلن من 30k–40k دولار الذي ألمحت إليه NVIDIA لوحدات Blackwell الفردية[28]. (الجدير بالذكر أن جينسن هوانغ قد اقترح أنهم لن يبيعوا فقط الشرائح أو البطاقات المنفردة للعملاء النهائيين - إنهم يفضلون بيع الأنظمة المتكاملة بالكامل[28]. هذه الاستراتيجية في التجميع تزيد من التكلفة الأولية ولكنها تضمن للمشترين الحصول على حل متكامل ومثالي.)

بالنسبة لأي شخص يخطط لإنشاء مجموعة ذكاء اصطناعي، فإن النفقات الرأسمالية (CapEx) هائلة. تكلفة الرف الواحد تبلغ 3 مليون دولار، وتتطلب العديد من عمليات النشر عدة أرفف. يُقال إن جميع اللاعبين الكبار مثل CoreWeave وOpenAI وMeta وMicrosoft يشترون أكبر قدر ممكن. أما من لديهم قوة شرائية أقل (مثل الشركات الناشئة والمختبرات الأكاديمية) فيواجهون أسعارًا مرتفعة في السوق الثانوية، حيث كانت H100s تُباع سابقًا بعشرات الآلاف فوق سعر المصنع بسبب الندرة، ونرى اتجاهًا مشابهًا مع Blackwell. في أواخر عام 2024، كانت بطاقات H100 80GB تُباع بين 30 ألف و40 ألف دولار لكل واحدة في بعض الحالات عندما كانت العرض أقل من الطلب[29]. يتبع Blackwell Ultra نفس النهج، مضاعفًا أسعار "اندفاع الذهب في الذكاء الاصطناعي". باختصار، فقط المنظمات ذات الجيوب العميقة أو الاعتمادات السحابية يمكنها تحمل اللعب في هذا المستوى من الأجهزة حاليًا.

تكاليف الطاقة والتبريد: بجانب سعر الشراء، تكون التكاليف التشغيلية (OpEx) لتشغيل هذه المجموعات كبيرة. يمكن لكل وحدة معالجة رسومات من نوع Blackwell Ultra أن تسحب ما يصل إلى ~1400 واط في الذروة عند استخدامها بالكامل[15] – أي ضعف أو أكثر من TDP النموذجي البالغ 700 واط لوحدة H100 SXM. في رف يحتوي على 72 وحدة معالجة رسومات، هذا يعني أن وحدات معالجة الرسومات وحدها يمكن أن تستهلك حوالي 100 كيلوواط من الطاقة (دون احتساب النفقات العامة لوحدات المعالجة المركزية والشبكات وما إلى ذلك). بالفعل، رف NVL72 المحمل بالكامل مع 18 صينية وحدة معالجة رسومات يسحب أكثر من 100 كيلوواط ويحتاج إلى تبريد متقدم. اختارت NVIDIA التبريد السائل في هذه الأنظمة، لكن حتى ذلك له تكلفة: تحليل حديث من Morgan Stanley قدر تكلفة المواد لنظام التبريد السائل بحوالي 50,000 دولار لكل رف[30]. يشمل ذلك ألواح التبريد المخصصة، والمضخات، والمبادلات الحرارية، وما إلى ذلك. ومع ارتفاع أنظمة الجيل التالي في الطاقة (شائعة: الجيل التالي “Vera Rubin” قد يصل إلى 1.8 كيلوواط لكل وحدة معالجة رسومات)، من المتوقع أن ترتفع تكلفة التبريد لكل رف إلى ~56 ألف دولار[31][32].

بمعنى آخر، بالإضافة إلى 3 مليون دولار في السيليكون، قد تنفق عشرات الآلاف على السباكة وإدارة الحرارة. بالإضافة إلى فاتورة الكهرباء: تشغيل 100 كيلو واط على مدار الساعة طوال الأسبوع يتطلب حوالي 2.4 ميجاوات ساعي في اليوم. بأسعار مراكز البيانات التجارية، يمكن أن يكون ذلك في حدود 200 إلى 400 دولار في اليوم لتكلفة الطاقة لكل رف (أكثر من 100 ألف دولار في السنة)، دون احتساب التبريد والبنية التحتية. من الواضح أن تشغيل سوبركلستر الذكاء الاصطناعي ليس لضعاف القلوب أو للميزانيات المحدودة.

ومع ذلك، هنا حيث تبرر اقتصاديات التجميع نفسها: الإنتاجية والتكلفة الإجمالية للملكية. إذا كانت وحدة Blackwell Ultra تقدم، على سبيل المثال، 50 ضعف إنتاج وحدة الجيل السابق (كما تقترح NVIDIA لأداء معين)، فإن مركز البيانات قد يحتاج إلى عدد أقل من الوحدات الإجمالية (وبالتالي أقل من الطاقة/التبريد) لتحقيق عبء العمل المستهدف. الكفاءة المتزايدة تعني أنه لكل استعلام، يمكن أن تكون تكلفة الطاقة أقل رغم استهلاك الطاقة المطلق الأعلى، لأن كل وحدة معالجة رسومية تخدم استفسارات أكثر بكثير بالتوازي. بالنسبة لمزودي الخدمات السحابية الذين يؤجرون وقت وحدة المعالجة الرسومية، فإن هذا يعني أنهم يمكنهم تقديم أداء أكبر للعملاء بنفس التكلفة، أو الحصول على هوامش أفضل. تحليل بواسطة Medium افترض أن وحدات المعالجة الرسومية Blackwell توفر أداءً أكبر بكثير تقريبًا بنفس سعر تأجير H100s، فإن تكلفة السحابة لكل حساب ذكاء اصطناعي (لكل ساعة TFLOP) ستنخفض، على الأقل بمجرد أن يتماشى العرض مع الطلب. قد يتيح ذلك الوصول إلى النماذج الكبيرة إذا استقرت الأسعار. بالطبع، في المدى القصير، تعني قيود العرض أن أسعار التأجير تبقى مرتفعة – العديد من وحدات GPU السحابية مكلفة أو في قوائم انتظار لأن الجميع يريد هذه الأجهزة الجديدة.

باختصار، تتضمن اقتصادات بلاكويل ألترا على مستوى المجموعة استثمارات ضخمة مقدمًا ولكنها تعد بتحقيق كفاءة وقدرات كبيرة على المدى الطويل. الشركات التي يمكنها تأمين هذه الأنظمة مبكرًا تحصل على ميزة تنافسية في تطوير ونشر نماذج الذكاء الاصطناعي – وهذا بالضبط السبب في أن السباق لشراء وحدات معالجة الرسوميات يشبه "سباق التسلح". وهو أيضًا السبب في أن إيرادات مركز بيانات إنفيديا ارتفعت بنسبة 66% على أساس سنوي في ذلك الربع: فعليًا كل شركة تقنية كبرى وناشئة في مجال الذكاء الاصطناعي تضخ رأس المال في بنية تحتية لوحدات معالجة الرسوميات، حتى لو كان ذلك يعني تحمل أسعار مرتفعة وتأخيرات في التسليم.

أزمة العرض: الندرة وشائعات "H300"

كل هذا يؤدي إلى نقص العرض الذي يدعم الضجة الفيروسية. ببساطة، الطلب يفوق العرض بشكل كبير على مسرعات الذكاء الاصطناعي من NVIDIA في الوقت الحالي. وأشارت المديرة المالية لشركة NVIDIA، كوليت كريس، في مكالمة أرباح حديثة إلى أن "السحب قد بيعت بالكامل" - حيث حجزت مقدمو الخدمات السحابية الكبيرة كامل سعة وحدات معالجة الرسومات الخاصة بهم - وحتى وحدات معالجة الرسومات من الجيل السابق مثل H100 وAmpere A100 "مستخدمة بالكامل" عبر القاعدة المثبتة[35]. وقد اعترفت NVIDIA بأنها تواجه قيودًا في الإمداد وأنها تزيد الإنتاج بأسرع ما يمكن (مع توقعات بزيادة كبيرة بحلول النصف الثاني من 2024)[36]. وأثناء رحلة إلى TSMC في تايوان، قال جينسن هوانغ إنه طلب من المصنع توفير أكبر عدد ممكن من الرقائق لتلبية "الطلب القوي جدًا" على رقائق بلاكويل[37][38]. حتى أن الرئيس التنفيذي لشركة TSMC أطلق على جينسن لقب "رجل الخمسة تريليونات دولار" حيث بلغت القيمة السوقية لشركة NVIDIA 5 تريليونات دولار بسبب التفاؤل حول الذكاء الاصطناعي[39]. باختصار، NVIDIA تبيع كل شريحة يمكنها تصنيعها، وتدفع الشركاء لتسريع الإنتاج - لكنه لا يزال غير كافٍ على المدى القريب.

عدة عوامل تساهم في عنق الزجاجة:

  • سلسلة التوريد المعقدة: ليست هذه مجرد وحدات معالجة رسومات (GPUs)؛ بل إن NVIDIA تبيع الآن أنظمة كاملة (مع وحدات معالجة الرسومات ووحدات المعالجة المركزية والشبكات والمبردات وغيرها). أشار تقرير من تايوان إلى أن بعض المكونات - خاصة لنظم التبريد السائل في خوادم GB200 (Blackwell) الجديدة - تشهد نقصًا[40]. يقال إن الموردين التايوانيين مثل Foxconn وWistron يواجهون عقبات في أشياء مثل المضخات أو مواد الألواح الباردة[41]. قرار NVIDIA بالاعتماد الكامل على التصميمات المبردة بالسائل أضاف تبعيات جديدة لسلسلة التوريد[42]. وأشار مسح لبنك أوف أمريكا المذكور في ذلك التقرير إلى أن NVIDIA قد تحوّل بعض الطلبات إلى أنظمة أقدم قليلاً تعتمد على Hopper (مثل نظام H200 HGX المبرد بالهواء) إذا تأخرت أنظمة Blackwell[43]. حتى الآن، تمكنت NVIDIA من إطلاق Blackwell Ultra في الوقت المحدد في عام 2025، ولكن من المحتمل أن تكون الوحدات الأولية مخصصة لبعض العملاء الرئيسيين (مثل Meta وMicrosoft)[44]. المشترون الأصغر ينتظرون في الطابور.
  • القدرة في TSMC: تُصنع وحدات معالجة الرسومات Blackwell على عملية TSMC من فئة 3 نانومتر (4N هو مشتق مخصص من 5 نانومتر للأجيال السابقة؛ وقد يكون الأحدث 3 نانومتر لـ "Ultra"). قدرة TSMC المتقدمة محدودة ومحجوزة بشكل كبير لكل من NVIDIA والعمالقة الآخرين مثل Apple. يُقال إن NVIDIA زادت طلبات الرقائق الخاصة بها بنسبة 50٪ لعامي 2024-2025 لتأمين مزيد من الإمدادات[45]. ومع ذلك، يمكن أن تكون أوقات الإنتاج طويلة لعدة أشهر. في الواقع، يدّعي بعض المحللين أن NVIDIA حجزت مسبقًا الكثير من قدرة TSMC حتى عام 2026 لدرجة أن المنافسة AMD ستجد صعوبة في الحصول على موطئ قدم في معجلات الذكاء الاصطناعي[46][47]. هذا التفوق يضمن أن NVIDIA يمكنها زيادة العرض على المدى الطويل، ولكن على المدى القصير يعني أيضًا أن لا يوجد تخفيف سريع - المصانع تعمل بكامل طاقتها، ولكن كل شركة ذكاء اصطناعي تريد وحدات المعالجة الرسومية "بالأمس".
  • القيود على التصدير: عامل خارجي هو قيود التصدير الأمريكية على بيع أفضل شرائح الذكاء الاصطناعي إلى الصين. لا يمكن لـ NVIDIA بيع شرائح H100 أو Blackwell ذات الفئة العليا إلى الصين بسبب السيطرة الحكومية[48]. قد يعتقد البعض أن ذلك يترك المزيد من العرض لبقية العالم، لكن NVIDIA أنشأت إصدارات مخففة قليلاً (مثل نماذج H100 "CN") للصين التي لا تزال تستهلك بعض القدرة الإنتاجية. أيضًا، الطلب الصيني على الحوسبة الذكية ضخم، وإذا لم يتمكنوا من الحصول على أحدث شرائح NVIDIA، فقد يشترون الشرائح الأقدم، مما يحافظ بشكل غير مباشر على الضغط على العرض العالمي. في أي حال، الطلب الغربي وحده يكفي لاستهلاك كل الإنتاج الحالي، والقيود الصينية تضيف تعقيدًا لكيفية تخصيص NVIDIA لمخزونها.

الإشارة إلى “H300” في النقاش تشير على الأرجح إلى الترقية الرئيسية التالية في وحدات المعالجة الرسومية المنتظرة. يُشاع أن خارطة طريق NVIDIA بعد Blackwell تحمل الاسم الرمزي Vera Rubin (نسبة إلى الفلكية) – وقد أطلق بعض المتحمسين بشكل غير رسمي على هذه السلسلة المستقبلية الافتراضية “H300” تماشياً مع نمط تسمية Hopper. بينما Blackwell Ultra متوفر الآن، فإن الشركات تتوقع بالفعل ما سيأتي بعد ذلك. على سبيل المثال، تخيل أنه في حوالي عام 2027، قد تطلق NVIDIA قفزة أخرى، مثل وحدة معالجة رسومية “H300” مبنية على عملية 3 نانومتر أو 2 نانومتر، ربما تكون أكثر كفاءة بنسبة 10-15% من Blackwell Ultra (كما ذكر معلق في Reddit)[49][50]. هل سيخفف ذلك الضغط فوراً؟ من غير المحتمل. سيظل معظم اللاعبين الكبار يستوعبون عمليات نشر Blackwell الخاصة بهم بحلول ذلك الوقت؛ لن يتخلصوا من مليارات الدولارات من الأجهزة بين عشية وضحاها من أجل مكسب هامشي[49][50]. لذا حتى إذا ظهرت وحدة معالجة رسومية “H300” أو Rubin، فسيستمر الطلب في تجاوز العرض في المستقبل المنظور لأن تبني الذكاء الاصطناعي ما زال يتسارع عبر الصناعات. كما قال أحد المحللين، دخلت NVIDIA في “دورة فاضلة للذكاء الاصطناعي” – المزيد من الاستخدام يدفع المزيد من الطلب على الحوسبة، مما يتيح المزيد من التطبيقات، وهكذا دواليك[8].

بمصطلحات عملية، فإن إرشادات جنسن هوانغ هي أن الإمدادات ستظل محدودة حتى العام المقبل. شركات تصنيع الذاكرة مثل SK Hynix قد باعت بالفعل إنتاجها من HBM حتى العام المقبل بسبب ازدهار الذكاء الاصطناعي[51][52]. توقع NVIDIA الخاص بالربع الرابع هو إيرادات بقيمة 65 مليار دولار – قفزة أخرى – والتي تفترض أنهم يمكنهم شحن كل Blackwell يمكنهم صنعه[53]. لذا، فإن "أزمة الإمدادات" لن تنتهي فورًا؛ بل على العكس، الأسعار ستبقى مرتفعة والمعالجات الرسومية ستظل مرتبطة بالتخصيص حتى عام 2025. قد لا نرى تخفيفًا إلا ربما عندما تقرر مزودات السحابة من الدرجة الثانية أو الشركات الأصغر أن التكلفة مرتفعة جدًا وتتوقف عن الطلبات – لكن الآن، الجميع في وضع الاستيلاء على الحوسبة الذكية. استراتيجية NVIDIA في بيع الأنظمة الكاملة تعني أيضًا إذا كنت ترغب في هذه المعالجات الرسومية، غالبًا ما يتعين عليك شراء خوادم كاملة باهظة الثمن أو حتى وحدات كاملة، مما يزيد من تركيز من يمكنه الحصول عليها.

الحجة من أجل الكفاءة: أطر الذكاء الاصطناعي الأخف وزناً (زاوية ماكارون)

مع التكاليف الباهظة والقيود المفروضة على توفير الأجهزة الحديثة للذكاء الاصطناعي، يجدر النظر في كيفية تكيف الجانب البرمجي والمعماري. زاوية مثيرة للاهتمام هي الحجة لأطر الوكلاء الخفيفة الوزن - بشكل أساسي، تصميم أنظمة الذكاء الاصطناعي التي تعتمد على نماذج أصغر ومتخصصة متعددة أو "وكلاء" يعملون معاً بدلاً من نموذج واحد ضخم يتطلب معالج رسومي فائق. هنا تأتي مقاربات مثل ماكارون التي تدعو إلى وكلاء ذكاء اصطناعي أكثر كفاءة وذكاء في استخدام الذاكرة.

لماذا قد يكون هذا مناسبًا الآن؟ لأن الحوسبة هي النفط الجديد، فإن تعظيم ما يمكنك القيام به بكمية معينة من الحوسبة هو أمر بالغ الأهمية. يمنح Blackwell Ultra دفعة كبيرة، لكن ليس الجميع يمكنهم الحصول على تلك وحدات معالجة الرسومات. حتى أولئك الذين يستطيعون ذلك سيرغبون في استخدامها بأكبر قدر ممكن من الكفاءة. وكلاء الذكاء الاصطناعي الخفيف الوزن يتعلقون بالذكاء في استخدام الحوسبة: - يمكن تصميمهم للتعامل مع المهام بطريقة نمطية، وتفعيل النموذج الضروري فقط لمهام فرعية، بدلاً من تشغيل نموذج ضخم من البداية إلى النهاية لكل استفسار. - غالبًا ما يستخدمون تقنيات مثل الاسترجاع (استحضار السياق المناسب فقط عند الحاجة) أو تخزين النتائج مؤقتًا، مما يقلل من الحسابات الزائدة. - يمكن تشغيل النماذج الأصغر غالبًا على أجهزة أرخص أو متوفرة بسهولة أكبر (حتى وحدات معالجة الرسومات أو وحدات المعالجة المركزية القديمة)، وهو ميزة كبيرة عندما تكون وحدات معالجة الرسومات من الدرجة الأولى نادرة أو باهظة الثمن.

على سبيل المثال، بدلاً من وجود نموذج واحد يحتوي على 175 مليار معلمة يقوم بكل شيء، قد يكون لديك مجموعة من 10 نماذج أصغر (لنقل كل منها بين 5 مليارات إلى 20 مليار) تم تحسينها خصيصًا لمجالات معينة (واحد للبرمجة، وآخر للرياضيات، وآخر للحوار، إلخ)، يتم تنسيقها بواسطة إطار عمل للوكيل. يمكن أن تستخدم هذه النماذج مجتمعة ذاكرة وحسابات أقل بكثير لطلب معين، لأن الوكيل يوجه الطلب بذكاء إلى الخبرة المناسبة. يمكن أن يكون هذا النهج أكثر فعالية من حيث التكلفة على التشغيل – خاصة إذا كانت موارد أجهزتك محدودة. إنه يشبه الخدمات المصغرة في الحوسبة السحابية: استخدم الخدمة الصغيرة المناسبة للعمل، بدلاً من تطبيق عملاق يتعامل مع جميع المهام بشكل غير فعال.

تستكشف مشاريع مثل ماكرون AI معماريات ذاكرة ووكالة أعمق حيث يقوم نظام الذكاء الاصطناعي بتكوين حلول من خلال استدعاء مهارات أو قواعد معرفية مختلفة (بطريقة مشابهة لكيفية استشارة البشر لأخصائي لسؤال محدد). في عالم لا يمتلك فيه الجميع مجموعة بلاكويل ألترا، يمكن أن تسمح مثل هذه التصاميم لمزيد من الأشخاص بأداء مهام متقدمة في الذكاء الاصطناعي على أجهزة متوسطة. إنها استجابة عملية للاختناق الحالي في الأجهزة.

بالإضافة إلى ذلك، حتى في المستوى العالي، الكفاءة جيدة للأعمال. الشركات الكبرى التي تشتري بلاكويل ألترا بكميات كبيرة تستثمر أيضًا في تحسينات البرمجيات - من محسنات البرمجة إلى الأطر الموزعة - للحصول على أقصى إنتاجية من كل ساعة GPU (حيث أن تكلفة الواحدة تصل إلى 40 ألف دولار، وكل جزء من الاستخدام مهم). إطار عمل وكيل خفيف الوزن يمكنه، على سبيل المثال، تقليل طول السياق الذي يُغذى لنموذج كبير من خلال معالجة الاستفسارات مسبقًا (وبالتالي توفير الحوسبة)، أو يمكنه نقل بعض المنطق إلى أجهزة أرخص، سيوفر المال مباشرة. نرى إشارات لهذه الفكرة في الأنظمة الناشئة حيث يتم تعزيز النموذج الكبير بأدوات أصغر أو قاعدة بيانات؛ يتم استدعاء النموذج الكبير فقط عند الحاجة القصوى. هذه الفلسفة تتماشى جيدًا مع حجة ماكرون لعدم استخدام المطرقة الذكية لكل مسمار، بل مجموعة من المطارق والمشارط.

باختصار، يتعلق Macaron هنا بالاعتراف بأنه بينما تُمكّن أحدث وأفضل إصدارات NVIDIA من تحقيق إنجازات مذهلة، تحتاج الصناعة أيضًا إلى جعل الذكاء الاصطناعي ممكن الوصول ومستدامًا. إن الدفع فقط نحو نماذج أكبر على أجهزة أكثر تكلفة له عوائد متناقصة للعديد من التطبيقات. هناك فرصة (وربما حاجة) للابتكار في كيفية تصميم حلول الذكاء الاصطناعي لتكون أخف وزنًا وأكثر تجزئة وأقل استهلاكًا للموارد. هذا لا يعني أننا نتوقف عن السعي وراء وحدات معالجة الرسوميات القوية أو النماذج الكبيرة؛ بل نستخدمها بذكاء أكثر. الأزمة الحالية في العرض والانفجار في التكلفة تدفع هذا النقاش. من المحتمل أن نرى المزيد من الأساليب الهجينة: على سبيل المثال، قد تستخدم خدمة الذكاء الاصطناعي وحدات معالجة Blackwell Ultra للأعمال الثقيلة لاستنتاج النماذج، ولكن فقط بعد أن يقوم نظام الواجهة الأمامية الخفيف الوزن بتقطير الطلب واسترجاع البيانات ذات الصلة وتحديد ما إذا كان النموذج الكبير يحتاج بالفعل إلى التشغيل. بهذه الطريقة، تُستخدم دورات وحدة معالجة الرسوميات المكلفة فقط عند الضرورة، مما يحسن الإنتاجية العامة لكل دولار.

الخاتمة

يمثل ظهور وحدات معالجة الرسومات Blackwell Ultra من NVIDIA لحظة حاسمة في بنية تحتية الذكاء الاصطناعي - حيث تقدم تحسينات مذهلة في أداء استدلال الذكاء الاصطناعي واستنتاجه، ولكنها تسلط الضوء أيضًا على التحديات الجديدة للنجاح: نقص العرض، والتكاليف المرتفعة، والشهية المتزايدة للقوة الحاسوبية. لقد رأينا كيف يعزز Blackwell Ultra الأداء بشكل كبير (خاصة عند دقة منخفضة) والكفاءة (الأداء لكل واط)، مما يمكن من تحقيق قفزات مثل إخراج الذكاء الاصطناعي أعلى بمقدار 50 مرة ووسائط توليدية في الوقت الفعلي كانت بعيدة المنال قبل عام واحد فقط. توفر ذاكرته الكبيرة HBM3e وهندسته المتقدمة إزالة العقبات، ولكن في الوقت نفسه، فإن الحجم الهائل وسحب الطاقة لهذه الأنظمة يقدمان عقبات لوجستية واقتصادية - من علامات سعرية تصل إلى 3 ملايين دولار إلى رفوف بسعة 100 كيلوواط تحتاج إلى تبريد متخصص.

أزمة توافر وحدات معالجة الرسوميات (GPU) للذكاء الاصطناعي هي قضية حقيقية وملحة: بشكل أساسي، تم حجز كل إنتاج شركة NVIDIA، وأصبح "نفدت الكمية" هو الوضع الطبيعي. هذه الندرة، مع وصول أسعار وحدات معالجة الرسوميات إلى أكثر من 30 ألف دولار، جعلت المستثمرين والممارسين يركزون بشكل كبير على كيفية الاستفادة المثلى من الأجهزة المتاحة لدينا. هذا يبرز نقطة مهمة: بالنسبة للصناعة بشكل عام، لا يمكن الاعتماد فقط على التوسع القوي كحل دائم. لهذا السبب، فإن الكفاءة - سواء من خلال أجهزة أفضل مثل Blackwell Ultra أو برمجيات أذكى مثل أطر العمل الخفيفة للعوامل - هي التي ستحكم اللعبة في المستقبل.

على المدى القريب، ستستمر NVIDIA's Blackwell Ultra في السيطرة على العناوين وخطط النشر، ويمكننا أن نتوقع استمرار التهافت على هذه الوحدات حتى تلحق الإمدادات (والتي قد لا تكون حتى تصل البنية الجديدة وتتوسع المصانع). بالنسبة للمنظمات التي تبني قدرات الذكاء الاصطناعي، الخلاصة هنا مزدوجة: إذا تمكنت من الحصول على أجهزة متطورة، ستحصل على ميزة، ولكن تحتاج أيضًا إلى تصميم بنية الذكاء الاصطناعي الخاصة بك بذكاء للاستفادة القصوى من كل عملية FLOP. قد يعني ذلك دمج نماذج أصغر، أو تحسين الكود لدقة جديدة، أو الاستثمار في إدارة البيانات - أي شيء لتجنب الحسابات المهدرة، والتي في هذا السياق تعني إهدار المال.

بينما ننظر إلى المستقبل، تشير مسار الأجهزة الذكية إلى أداء أكبر (المفترض "H300" والجيل المقبل روبين) ومن المحتمل استمرار الطلب العالي. لذا، سيكون التحدي الذي يواجه الصناعة هو موازنة هذه القدرة الرائعة مع إمكانية الوصول. ستكون الكفاءة، والقدرة على التوسع، والابتكار على مستوى البرمجيات مفتاحًا لضمان أن الثورة الذكية المدعومة بوحدات معالجة الرسومات مثل بلاكويل ألترا تكون واحدة يمكن لمجموعة واسعة من اللاعبين المشاركة فيها - وليس فقط أولئك الذين لديهم أعمق الجيوب أو أكبر مراكز البيانات. باختصار، أحدث إبداعات إنفيديا قد فتحت آفاقًا جديدة، لكنها تذكرنا أيضًا أن في الذكاء الاصطناعي (كما هو الحال في الحوسبة بشكل عام)، يعد الاستخدام الذكي للموارد مهمًا تمامًا مثل القوة الخام.

المصادر: وثائق المنتج والتقنية لشركة NVIDIA [54][1][16]، تقارير أخبار الصناعة [8][43]، وتحليلات الخبراء [28][27] التي توضح أداء Blackwell Ultra وسلسلة التوريد وتأثيرها على اقتصاديات الذكاء الاصطناعي.

[1] [3] [4] [9] [10] [11] [12] [13] [14] داخل NVIDIA Blackwell Ultra: الشريحة التي تشغل عصر مصنع الذكاء الاصطناعي | مدونة NVIDIA التقنية

https://developer.nvidia.com/blog/inside-nvidia-blackwell-ultra-the-chip-powering-the-ai-factory-era/

[2] [5] [16] [20] [21] [22] [25] [26] [54] مصمم لأداء وكفاءة الاستدلال بالذكاء الاصطناعي | NVIDIA GB300 NVL72

https://www.nvidia.com/en-us/data-center/gb300-nvl72/

[6] [7] [34] [35] إنفيديا: بلاكويل ألترا تتصدر القيادة في تحقيق نمو بنسبة 62٪ ليصل إلى إيرادات قياسية

https://www.crn.com/news/components-peripherals/2025/nvidia-blackwell-ultra-takes-lead-in-helping-drive-62-percent-growth-to-record-revenue

[8] [53] إيرادات Nvidia ترتفع بشكل كبير إلى 57 مليار دولار لكل ربع سنة — جميع وحدات معالجة الرسومات بيعت بالكامل | Tom's Hardware

https://www.tomshardware.com/pc-components/gpus/nvidias-revenue-skyrockets-to-record-usd57-billion-per-quarter-all-gpus-are-sold-out

[15]  شركة سوبر مايكرو إنك. - سوبرمايكرو تبدأ شحنات بالجملة لأنظمة NVIDIA Blackwell Ultra وحلول مركز البيانات القابلة للتوصيل والتشغيل

https://ir.supermicro.com/news/news-details/2025/Supermicro-Begins-Volume-Shipments-of-NVIDIA-Blackwell-Ultra-Systems-and-Rack-Plug-and-Play-Data-Center-Scale-Solutions/default.aspx

[17] NVIDIA Hopper Architecture In-Depth | مدونة NVIDIA التقنية

https://developer.nvidia.com/blog/nvidia-hopper-architecture-in-depth/

[18] [19] NVIDIA H200

http://www.hyperscalers.com/NVIDIA-H200-DGX-HGX-141GB

[23] تقديم NVFP4 من أجل استدلال منخفض الدقة فعال ودقيق

https://developer.nvidia.com/blog/introducing-nvfp4-for-efficient-and-accurate-low-precision-inference/

[24] مقارنة NVIDIA Blackwell مقابل Blackwell Ultra B300: هل يجب الشراء أم الانتظار؟

https://www.trgdatacenters.com/resource/nvidia-blackwell-vs-blackwell-ultra-b300-comparison/

[27] [46] [47] من المتوقع أن تشحن NVIDIA حوالي 5.2 مليون معالج رسوميات بلاكويل في عام 2025، و1.8 مليون في عام 2026، و5.7 مليون معالج رسوميات روبين في عام 2026 : r/AMD_Stock

https://www.reddit.com/r/AMD_Stock/comments/1lovdwf/nvidia_expected_to_ship_52m_blackwell_gpus_in/

[28] [29] [33] وحدات معالجة الرسومات بلاكويل والاقتصاديات الجديدة لتسعير الذكاء الاصطناعي السحابي | من elongated_musk | ميديوم

https://medium.com/@Elongated_musk/blackwell-gpus-and-the-new-economics-of-cloud-ai-pricing-5e35ae42a78f

نظام التبريد لرف واحد من Nvidia Blackwell Ultra NVL72 يكلف مبلغ مذهل قدره 50,000 دولار — من المتوقع أن يرتفع إلى 56,000 دولار مع الأجيال القادمة من رفوف NVL144 | موقع تومز هاردوير

https://www.tomshardware.com/pc-components/cooling/cooling-system-for-a-single-nvidia-blackwell-ultra-nvl72-rack-costs-a-staggering-usd50-000-set-to-increase-to-usd56-000-with-next-generation-nvl144-racks

[36] [40] [41] [42] [43] [44] خوادم NVIDIA Blackwell AI معرضة لـ "نقص في المكونات"، من المتوقع توفر محدود في الربع الرابع من عام 2024

https://wccftech.com/nvidia-blackwell-ai-servers-component-shortage-limited-supply-expected-q4-2024/

[37] [38] [39] [48] [51] [52] الرئيس التنفيذي لشركة نفيديا هوانغ يرى طلبًا قويًا على رقائق بلاكويل | رويترز

https://www.reuters.com/world/china/nvidia-ceo-huang-sees-strong-demand-blackwell-chips-2025-11-08/

[45] إنفيديا تزيد طلبها على رقائق TSMC بنسبة 50% لرقائق Blackwell - لينكد إن

https://www.linkedin.com/posts/jeffcooper_nvidia-orders-50-more-wafers-from-tsmc-amid-activity-7393655145571516416-D79S

[49] [50] سام ألتمان: 「نحن نفقد وحدات معالجة الرسومات. ChatGPT يصل إلى ذروة جديدة من المستخدمين كل يوم. علينا أن نقوم بهذه التنازلات المروعة الآن. لدينا نماذج أفضل، لكن لا يمكننا تقديمها لأننا لا نملك القدرة. لدينا أنواع أخرى من المنتجات والخدمات الجديدة التي نحب أن نقدمها.」 : r/accelerate

https://www.reddit.com/r/accelerate/comments/1ms9rrl/sam_altman_were_out_of_gpus_chatgpt_has_been/

Boxu earned his Bachelor's Degree at Emory University majoring Quantitative Economics. Before joining Macaron, Boxu spent most of his career in the Private Equity and Venture Capital space in the US. He is now the Chief of Staff and VP of Marketing at Macaron AI, handling finances, logistics and operations, and overseeing marketing.

Apply to become Macaron's first friends