本次实验搭配的环境是 CUDA 11.6 + CUDNN v8.9.4 + TensorRT-8.4.1.5 + mindspore 2.1.0。
1、配置 Nvidia 显卡驱动
如果原来的主机已经安装了 nvidia 驱动,为避免版本的冲突,建议先清除掉旧的 nvidia驱动
sudo apt-get --purge remove nvidia*
sudo apt autoremove
sudo apt-get --purge remove "*cublas*" "cuda*"
sudo apt-get --purge remove "*nvidia*"
sudo apt-get install linux-headers-$(uname -r)
关闭系统自带驱动nouveau,执行 sudo gedit /etc/modprobe.d/blacklist.conf
在末尾追加
blacklist nouveau
options nouveau modeset=0
sudo update-initramfs -u
安装NVIDIA驱动 下载地址
chmod a+x NVIDIA-Linux-x86_64-535.104.05.run
./NVIDIA-Linux-x86_64-535.104.05.run -no-x-check -no-nouveau-check -no-opengl-files
sudo bash ./NVIDIA-Linux-x86_64-535.104.05.run -no-x-check -no-nouveau-check -no-opengl-files
安装之后先重启主机 (执行 sudo reboot
),然后检查驱动(执行nvidia-smi
)是否安装成功
出现图示结果代表驱动安装成功
2、安装 CUDA-11.6
## 先安装CUDA前需要先安装相关依赖,执行以下命令
sudo apt-get install linux-headers-$(uname -r)
wget https://developer.download.nvidia.com/compute/cuda/11.6.0/local_installers/cuda_11.6.0_510.39.01_linux.run
sudo sh cuda_11.6.0_510.39.01_linux.run
echo -e "export PATH=/usr/local/cuda-11.6/bin:\$PATH" >> ~/.bashrc
echo -e "export LD_LIBRARY_PATH=/usr/local/cuda-11.6/lib64:\$LD_LIBRARY_PATH" >> ~/.bashrc
source ~/.bashrc
安装之后执行 nvcc --version
命令检查会输出以下提示
3、安装 CUDA-11.6配套的cuDNN v8.9.4
tar -xvf cudnn-linux-x86_64-8.9.4.25_cuda11-archive.tar
sudo cp cudnn-linux-x86_64-8.9.4.25_cuda11-archive/include/cudnn*.h /usr/local/cuda-11.6/include
sudo cp cudnn-linux-x86_64-8.9.4.25_cuda11-archive/lib64/libcudnn* /usr/local/cuda-11.6/lib64
sudo chmod a+r /usr/local/cuda-11.6/include/cudnn*.h /usr/local/cuda-11.6/lib64/libcudnn*
检查 CUDNN 是否安装成功
cat /usr/local/cuda-11.6/include/cudnn_version.h | grep CUDNN_MAJOR -A 2
输出上图结果表示配置成功,这里版本好是8.9.4
4、安装 minconda
下载可以从清华镜像源选择下载
wget https://mirrors.tuna.tsinghua.edu.cn/anaconda/miniconda/Miniconda3-py39_4.9.2-Linux-x86_64.sh
chmod a+x Miniconda3-py39_4.9.2-Linux-x86_64.sh
bash Miniconda3-py39_4.9.2-Linux-x86_64.sh
. ~/miniconda3/etc/profile.d/conda.sh
使用 conda 创建 mindspore 虚拟环境
conda init bash
conda create -n mindspore_py37 python=3.7.5 -y
conda activate mindspore_py37
设置 pip 源,这里可以选择清华源或者华为源,二选一。
python -m pip install --upgrade pip
pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple
pip config set global.index-url https://repo.huaweicloud.com/repository/pypi/simple
5、安装 TensorRT-8.4.1.5 下载地址
tar -xvf TensorRT-8.4.1.5.Linux.x86_64-gnu.cuda-11.6.cudnn8.4.tar.gz
cd TensorRT-8.4.1.5/
echo -e "export TENSORRT_HOME=$PWD" >> ~/.bashrc
echo -e "export LD_LIBRARY_PATH=\$TENSORRT_HOME/lib:\$LD_LIBRARY_PATH" >> ~/.bashrc
source ~/.bashrc
通过 .whl 包安装 python 版本 tensorrt
cd $TENSORRT_HOME/python
pip install tensorrt-8.4.1.5-cp37-none-linux_x86_64.whl
执行测试
python -c "import tensorrt;print(tensorrt.__version__)"
6、安装 mindspore 2.1.0
export MS_VERSION=2.1.0
conda activate mindspore_py37
pip install https://ms-release.obs.cn-north-4.myhuaweicloud.com/${MS_VERSION}/MindSpore/unified/x86_64/mindspore-${MS_VERSION/-/}-cp37-cp37m-linux_x86_64.whl --trusted-host ms-release.obs.cn-north-4.myhuaweicloud.com -i https://pypi.tuna.tsinghua.edu.cn/simple
mindspore GPU 检查
python -c "import mindspore;mindspore.set_context(device_target='GPU');mindspore.run_check()"
7、 jupyter lab mindspore 环境管理
在 base
环境下安装 Jupyter Lab
conda activate base
conda install jupyter ipykernel
在 mindspore_py37
中安装 ipykernel
conda activate mindspore_py37
conda install ipykernel
将conda环境写入jupyter的kernel中
–name 环境名称
–display-name 在jupyter notebook看到的别名
python -m ipykernel install --user --name mindspore_py37 --display-name "mindspore_py37"
运行 jupyter lab
conda activate base
jupyter lab
讲 kernel 切换成 mindspore_py37 就可以在 Notebook 下使用 mindspore 进行脚本运行了
参考:
- https://blog.csdn.net/wm9028/article/details/110268030
- https://gitee.com/mindspore/docs/blob/master/install/mindspore_gpu_install_pip.md#%E5%AE%89%E8%A3%85cuda
- https://blog.csdn.net/weixin_37926734/article/details/123033286
- https://zhuanlan.zhihu.com/p/370024835