Графический процессор NVIDIA Blackwell Ultra «GB300»

NVIDIA предоставила подробный анализ своего самого быстрого чипа для ИИ — Blackwell Ultra GB300, который на 50% быстрее GB200 и имеет 288 ГБ памяти.

Blackwell Ultra «GB300» от NVIDIA — это чудо-чип для ИИ, на 50% быстрее GB200 и с объёмом памяти 288 ГБ

Несколько дней назад NVIDIA опубликовала статью с подробным описанием своего новейшего и лучшего ИИ-чипа — GB300 Blackwell Ultra. Этот чип уже находится в производстве и поставляется ключевым клиентам. Хотя он является расширением решения Blackwell, он предлагает значительное улучшение производительности и функциональности.

Подобно тому, как серия NVIDIA Super представляет собой улучшенную версию оригинальных игровых карт RTX, серия Ultra представляет собой улучшенную версию изначально представленных чипов для искусственного интеллекта. В предыдущих линейках NVIDIA не было Ultra-версий, таких как Hopper и Volta, но у них также технически были Ultra или улучшенные версии. Кроме того, несмотря на то, что чипы Ultra лучше на аппаратном уровне, обновления и оптимизации программного обеспечения также обеспечивают существенный прирост производительности по сравнению с чипами Non-Ultra или неулучшенными чипами.

Итак, что же такое Blackwell Ultra GB300? Как уже было сказано, это усовершенствованная версия, использующая два кристалла размером с Reticle, которые соединены с высокоскоростным интерфейсом NVIDIA NV-HBI, что позволяет представить их как единый графический процессор. Графический процессор отличается высокой плотностью, основан на технологическом процессе TSMC 4NP (оптимизированном для NVIDIA 5-нм техпроцессе) и содержит в общей сложности 208 миллиардов транзисторов. Интерфейс NV-HBI обеспечивает пропускную способность 10 ТБ/с для двух кристаллов GPU, при этом все они работают как единый чип.

Графический процессор NVIDIA Blackwell Ultra GB300 содержит в общей сложности 160 SM, каждый из которых содержит 128 ядер CUDA, четыре ядра Tensor пятого поколения с прецизионными вычислениями FP8, FP6 и NVFP4, 256 КБ тензорной памяти (TMEM) и SFU. Таким образом, общее количество ядер CUDA составляет 20 480, 640 тензорных ядер и 40 МБ памяти TMEM.

Читать похожее  Директор материнской компании DeepSeek находится под следствием
ОсобенностьХопперБлэквеллБлэквелл Ультра
Производственный процессTSMC 4NTSMC 4NPTSMC 4NP
Транзисторы80Б208Б208Б
Количество кристаллов на GPU122
NVFP4 плотная | разреженная производительность10 | 20 петафлопс15 | 20 петафлопс
FP8 плотная | разреженная производительность2 | 4 петафлопса5 | 10 петафлопс5 | 10 петафлопс
Ускорение внимания
(СФУ EX2)
4,5 тераэкспоненциальных/с5 тераэкспоненциальных/с10,7 тераэкспоненциальных/с
Максимальная емкость HBM80 ГБ HBM (H100)
141 ГБ HBM3E (H200)
192 ГБ HBM3E288 ГБ HBM3E
Максимальная пропускная способность HBM3,35 ТБ/с (H100)
4,8 ТБ/с (H200)
8 ТБ/с8 ТБ/с
Пропускная способность NVLink900 ГБ/с1800 ГБ/с1800 ГБ/с
Максимальная мощность (ТГП)До 700 ВтДо 1200 ВтДо 1400 Вт

Вся магия кроется в тензорных ядрах пятого поколения, которые отвечают за все вычислительные операции ИИ. NVIDIA внедряет важные инновации в каждое поколение тензорных ядер для своих графических процессоров, такие как:

  • NVIDIA Volta: 8-поточные блоки MMA, FP16 с накоплением FP32 для обучения.
  • NVIDIA Ampere: Полная поддержка форматов MMA, BF16 и TensorFloat-32 для всего варпа.
  • NVIDIA Hopper: Warp-group MMA на 128 потоков, Transformer Engine с поддержкой FP8.
  • NVIDIA Blackwell: движок Transformer 2-го поколения с вычислениями FP8, FP6, NVFP4 и памятью TMEM

Blackwell Ultra также предлагает значительное обновление памяти, предлагая 288 ГБ памяти HBM3e по сравнению с максимальными 192 ГБ в предыдущих решениях Blackwell GB200. Это обновление позволит NVIDIA поддерживать модели искусственного интеллекта с несколькими триллионами параметров. Память представлена ​​8 стеками с 16-битным контроллером 512 бит (8192-битный интерфейс) и работает со скоростью 8 ТБ/с на графический процессор. Память обеспечивает:

  • Полное размещение моделей: более 300 млрд параметров моделей без выгрузки памяти.
  • Увеличенная длина контекста: большая емкость кэша KV для моделей трансформаторов.
  • Повышение эффективности вычислений: более высокие соотношения вычислительных мощностей и памяти для различных рабочих нагрузок.

В Blackwell используется тот же интерфейс NVLINK, что и в коммутаторе NVLINK, NVLINK-C2C, а для подключения к хост-графическим процессорам используется интерфейс PCIe Gen6 x16. Ниже приведены характеристики и характеристики подключения NVLINK 5 и хост-системы:

  • Пропускная способность на графический процессор: 1,8 ТБ/с в обоих направлениях (18 соединений x 100 ГБ/с)
  • Масштабирование производительности: улучшение в 2 раза по сравнению с NVLink 4 (Hopper GPU)
  • Максимальная топология: 576 графических процессоров в неблокируемой вычислительной фабрике
  • Интеграция в масштабе стойки: конфигурации NVL72 с 72 графическими процессорами и общей пропускной способностью 130 ТБ/с
  • Интерфейс PCIe: Gen6 × 16 линий (256 ГБ/с в двунаправленном режиме)
  • NVLink-C2C: эффективная связь между ЦП и ГП с когерентностью памяти (900 ГБ/с)
Читать похожее  Разговоры ChatGPT слиты в общий доступ
ИнтерконнектГрафический процессор HopperГрафический процессор BlackwellBlackwell Ultra GPU
NVLink (GPU-GPU)90018001800
NVLink-C2C (ЦП-ГП)900900900
Интерфейс PCIe128 (Быт. 5)256 (Быт. 6)256 (Быт. 6)

В результате платформа NVIDIA Blackwell Ultra GB300 способна на 50% увеличить производительность плотных вычислений с низкой точностью благодаря новому стандарту NVFP4. Новая модель обеспечивает точность, близкую к точности FP8, а разница зачастую составляет менее 1%. Это также сокращает объём памяти в 1,8 раза по сравнению с FP8 и в 3,5 раза по сравнению с FP16.

Blackwell Ultra также оснащен расширенными функциями управления расписанием и новыми функциями безопасности корпоративного уровня, такими как:

  • Усовершенствованный движок GigaThread: планировщик задач нового поколения, обеспечивающий улучшенную производительность переключения контекста и оптимизированное распределение рабочей нагрузки по всем 160 SM.
  • Многоэкземплярный графический процессор (MIG): графические процессоры Blackwell Ultra можно разделить на экземпляры MIG разного размера. Например, администратор может создать два экземпляра по 140 ГБ памяти каждый, четыре экземпляра по 70 ГБ или семь экземпляров по 34 ГБ каждый, что обеспечивает безопасную многопользовательскую среду с предсказуемой изоляцией производительности.
  • Конфиденциальные вычисления и безопасный ИИ: надежная и производительная защита для конфиденциальных моделей и данных ИИ, расширение аппаратной среды доверенного выполнения (TEE) на графические процессоры с первыми в отрасли возможностями TEE-I/O в архитектуре Blackwell и встроенной защитой NVLink для практически идентичной пропускной способности по сравнению с незашифрованными режимами.
  • Расширенный механизм NVIDIA Remote Attestation Service (RAS): система обеспечения надежности на базе искусственного интеллекта, которая отслеживает тысячи параметров для прогнозирования сбоев, оптимизации графиков технического обслуживания и максимального увеличения времени безотказной работы системы при крупномасштабных развертываниях.
Читать похожее  Графический процессор Intel Crescent Island

Эффективность работы — еще одна область, в которой Blackwell Ultra GB300 лидирует, обеспечивая более высокое значение TPS/МВт, чем Blackwell GB200, как показано на диаграмме ниже:

Всё это показывает, что NVIDIA находится на вершине ИИ-технологий, представляя такие инженерные шедевры, как Blackwell и Blackwell Ultra. Глубокая поддержка и оптимизация программного обеспечения — вот что действительно им подходит, а ежегодный темп выпуска оборудования и активные исследования и разработки, безусловно, позволят им продолжать в том же духе ещё несколько лет.

Оставьте комментарий