一、故事背景
GPU 云服务器(GPU Cloud Computing)是基于 GPU 的快速、稳定、弹性的计算服务,因此,可以广泛应用到深度学习训练/推理、图形图像处理以及科学计算等场景中。 GPU 云服务器提供和标准 CVM 云服务器一致的方便快捷的管理方式。GPU 云服务器通过其强大的快速处理海量数据的计算性能,有效解放用户的计算压力,提升业务处理效率与竞争力。腾讯云的GPU云服务器分为两类,一个是计算型实例服务器,一个是渲染型实例服务器。不管是何种类型的GPU云服务器,都需要配置和安装必要的组件才能正常工作和使用。
二、专业术语
2.1 NVIDIA Tesla
NVIDIA Tesla(特斯拉)是 NVIDIA 继专业加速卡 QUADRO 及娱乐图形卡 GeForce 系列后,推出的一个全新的产品线,主要应用于广大科学研究的高性能计算需求。利用 NVIDIA® Tesla® GPU 加速器更快地处理要求超级严格的 HPC 与超大规模数据中心的工作负载。
2.2 加速计算
加速计算是指使用硬件加速器或协同处理器来执行浮点数计算和图形处理,比使用在 CPU 上运行的软件更高效。腾讯云提供三种加速计算选型:适用于通用计算的 GPU 计算型(GN2、GN8)和适用于图形密集型应用程序的 GPU 渲染型 GA2。
2.3 SSD 本地盘
SSD 本地盘是来自云服务器所在物理机的本地存储,该类存储为实例提供块级别的数据访问能力,具有低时延、高随机 IOPS、高吞吐量的 I/O 能力。 GPU 计算型搭载 SSD 本地盘,不支持硬件(CPU、内存)的升级,仅支持带宽的升级。
三、软硬件条件
GPU云服务器的操作系统为 CentOS 7.6 64位 linux 操作系统,携带本地 SSD 硬件物理磁盘。
四、操作步骤
4.1 购买服务器
腾讯云的GPU云服务器分为两类,一个是计算型实例服务器,一个是渲染型实例服务器,我们选择下图中的GN7服务器,它是一种计算型实例服务器。
点击“立即购买”,进入服务器配置页面,选择“活动地域”,因为本人在帝都,所以选择“北京五区”。然后选择“操作系统”,我们选择最新的 “CentOS 7.6 64位操作系统”,具体操作如下图所示:
注意,有时候需要创建子网,如果系统提示子网没有创建,那么我们点击“快速创建子网”即可,具体如下图所示:
进入购买页面,选择“立即支付”即可。
4.2 登录服务器
支付成功后,在控制台页面就可以找到对应的GPU云服务器,点击“登录”,如下图所示:
进入登录界面,输入用户名和密码,用户名默认是root,密码可以通过站内消息通知获取,一般在我们支付成功后就会收到对应的账户信息。
登录成功后,我们就会进入到如下页面。
4.3 下载 NVIDIA Tesla 驱动
GPU 云服务器正常工作需提前安装正确的基础设施软件,对 NVIDIA 系列 GPU 而言,有以下两个层次的软件包需要安装:驱动 GPU 工作的硬件驱动程序、上层应用程序所需要的库。
NVIDIA Telsa GPU 的 Linux 驱动在安装过程中需要编译 kernel module,系统需提前安装 gcc 和编译 Linux Kernel Module 所依赖的包,例如 kernel-devel-$(uname -r) 等。
执行如下命令安装 dkms:
sudo yum install -y dkms
安装完成后,执行以下命令,检查是否已安装成功。
rpm -qa | grep -i dkms
如果成功会输出如下信息:
在页面地址 https://www.nvidia.com/Download/Find.aspx 中选择合适的英伟达驱动版本,本文如下图所示:
最后点击“搜索”,右键复制下载链接,执行如下命令下载驱动安装包:
wget https://us.download.nvidia.com/tesla/510.47.03/NVIDIA-Linux-x86_64-510.47.03.run
4.4 安装 NVIDIA Tesla 驱动
执行以下命令修改安装包执行权限:
chmod +x NVIDIA-Linux-x86_64-510.47.03.run
执行结果如下图所示:
执行如下命令安装 gcc 和 kernel-devel:
sudo yum install -y gcc kernel-devel
执行以下命令,运行驱动安装程序,并按提示进行后续操作。
sudo sh NVIDIA-Linux-x86_64-510.47.03.run
执行过程如下图所示:
安装过程结束后,执行如下命令检查安装结果:
nvidia-smi
输出如下信息表示安装成功: