Похоже, флагманские графические процессоры NVIDIA, GeForce RTX 5090 и RTX PRO 6000, столкнулись с новой ошибкой, которая приводит к зависанию при виртуализации.
Флагманские графические процессоры NVIDIA Blackwell перестают отвечать на запросы после интенсивного использования виртуальных машин
CloudRift, облачное решение для разработчиков GPU, первым сообщило о проблемах со сбоями в работе высокопроизводительных видеокарт NVIDIA. По их словам, после того, как модели использовались в виртуальных машинах в течение «нескольких дней», они начали полностью переставать отвечать. Примечательно, что доступ к графическим процессорам становится невозможен без перезагрузки системы узлов. Утверждается, что проблема характерна только для RTX 5090 и RTX PRO 6000, а такие модели, как RTX 4090, Hopper H100 и B200 на базе Blackwell, пока не затронуты.
Проблема возникает, когда графический процессор назначается среде виртуальной машины с помощью драйвера устройства VFIO, и после сброса функционального уровня (FLR) графический процессор вообще не отвечает. Отсутствие ответа приводит к «мягкой блокировке» ядра, которая приводит к взаимоблокировке хостовой и клиентской сред. Для выхода из этой ситуации требуется перезагрузка хостовой машины, что является сложной процедурой для CloudRift, учитывая объём гостевых машин.

Эта проблема касается не только CloudRift. Пользователь Proxmox сообщил о похожей проблеме, когда он наблюдал полный сбой хоста после завершения работы клиента Windows. По его словам, NVIDIA отреагировала на проблему, заявив, что компания смогла воспроизвести её и работает над её решением. Мы ждём официального подтверждения от NVIDIA, но, похоже, проблема характерна только для графических процессоров на базе Blackwell.
Интересно, что CloudRift объявила вознаграждение в размере 1000 долларов США за устранение ошибки или ее смягчение, и мы ожидаем, что NVIDIA вскоре выпустит исправление, учитывая, что оно затрагивает критически важные рабочие нагрузки ИИ.