Не удается обнаружить устройство CUDA после перезапуска Google Cloud Notebook

Эта проблема возникла, когда я сегодня перезапустил свой облачный сервер ноутбука.Можно воспроизвести с помощью следующих шагов:

  1. Создайте сервер Google Cloud Notebook с помощью Tensorflow или Pytorch и GPU.

  2. После запуска сервера откройте консоль python:

>>> import torch
>>> torch.cuda.is_available()
True

Устройство CUDA доступно до сих пор.

  1. Перезагрузите сервер и снова откройте записную книжку.
>>> import torch
>>> torch.cuda.is_available()
/opt/conda/lib/python3.7/site-packages/torch/cuda/__init__.py:52: UserWarning: CUDA initialization: CUDA unknown error - this may be due to an incorrectly set up environment, e.g. changing env variable CUDA_VISIBLE_DEVICES after program start. Setting the available devices to be zero. (Triggered internally at  /opt/conda/conda-bld/pytorch_1614378098133/work/c10/cuda/CUDAFunctions.cpp:109.)
  return torch._C._cuda_getDeviceCount() > 0
False

nvidia-smi команда работает нормально.

+-----------------------------------------------------------------------------+
| NVIDIA-SMI 450.80.02    Driver Version: 450.80.02    CUDA Version: 11.0     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|===============================+======================+======================|
|   0  Tesla T4            Off  | 00000000:00:04.0 Off |                    0 |
| N/A   43C    P0    16W /  70W |      0MiB / 15109MiB |      0%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+
                                                                               
+-----------------------------------------------------------------------------+
| Processes:                                                                  |
|  GPU   GI   CI        PID   Type   Process name                  GPU Memory |
|        ID   ID                                                   Usage      |
|=============================================================================|
|  No running processes found                                                 |
+-----------------------------------------------------------------------------+
nvcc: NVIDIA (R) Cuda compiler driver
Copyright (c) 2005-2020 NVIDIA Corporation
Built on Thu_Jun_11_22:26:38_PDT_2020
Cuda compilation tools, release 11.0, V11.0.194
Build cuda_11.0_bu.TC445_37.28540450_0

Эту проблему также можно воспроизвести с помощью TensorFlow. Как исправить такой случай?

0
задан 20 June 2021 в 16:56
1 ответ

Опция 1:
Обновите среду экземпляра Notebooks. Перейдите по ссылке для обновления.
Экземпляры ноутбуков, которые можно обновить, являются двухдисковыми, с одним загрузочным диском и одним диском данных. В процессе обновления загрузочный диск обновляется до нового образа, сохраняя ваши данные на диске данных.

Вариант 2:
Подключитесь к виртуальной машине ноутбука через SSH и выполните команды ссылка.
После выполнения команд версия cuda обновится до 11.3, а версия драйвера nvidia — до 465.19.01.
Перезапустите виртуальную машину ноутбука.

Примечание. Проблема с образами графического процессора устранена. Новые блокноты будут создаваться с версией образа M74. Информация о новой версии изображения еще не обновлена ​​в google-public-issue-tracker, но вы можете найти новую версию изображения M74 в консоли.

0
ответ дан 25 June 2021 в 04:26

Теги

Похожие вопросы