NVIDIA GeForce RTX 5090 и RTX PRO 6000 подвержены ошибке виртуализации

Похоже, флагманские графические процессоры NVIDIA, GeForce RTX 5090 и RTX PRO 6000, столкнулись с новой ошибкой, которая приводит к зависанию при виртуализации.

Флагманские графические процессоры NVIDIA Blackwell перестают отвечать на запросы после интенсивного использования виртуальных машин

CloudRift, облачное решение для разработчиков GPU, первым сообщило о проблемах со сбоями в работе высокопроизводительных видеокарт NVIDIA. По их словам, после того, как модели использовались в виртуальных машинах в течение «нескольких дней», они начали полностью переставать отвечать. Примечательно, что доступ к графическим процессорам становится невозможен без перезагрузки системы узлов. Утверждается, что проблема характерна только для RTX 5090 и RTX PRO 6000, а такие модели, как RTX 4090, Hopper H100 и B200 на базе Blackwell, пока не затронуты.

Читать похожее  Видеокарта AMD Radeon RX 9060 8 ГБ протестирована

Проблема возникает, когда графический процессор назначается среде виртуальной машины с помощью драйвера устройства VFIO, и после сброса функционального уровня (FLR) графический процессор вообще не отвечает. Отсутствие ответа приводит к «мягкой блокировке» ядра, которая приводит к взаимоблокировке хостовой и клиентской сред. Для выхода из этой ситуации требуется перезагрузка хостовой машины, что является сложной процедурой для CloudRift, учитывая объём гостевых машин.

Эта проблема касается не только CloudRift. Пользователь Proxmox сообщил о похожей проблеме, когда он наблюдал полный сбой хоста после завершения работы клиента Windows. По его словам, NVIDIA отреагировала на проблему, заявив, что компания смогла воспроизвести её и работает над её решением. Мы ждём официального подтверждения от NVIDIA, но, похоже, проблема характерна только для графических процессоров на базе Blackwell.

Читать похожее  RTX 5070 Ti HOF Gaming Black Edition от Galax

Интересно, что CloudRift объявила вознаграждение в размере 1000 долларов США за устранение ошибки или ее смягчение, и мы ожидаем, что NVIDIA вскоре выпустит исправление, учитывая, что оно затрагивает критически важные рабочие нагрузки ИИ.

Оставьте комментарий