前言
本文记录利用AutoDL
云服务器,使用VS Code
远程连接进行模型训练,步骤完整,操作简便,不需要使用任何命令即可快速运行🚀。
专栏目录:YOLOv11改进目录一览 | 涉及卷积层、轻量化、注意力、损失函数、Backbone、SPPF、Neck、检测头等全方位改进
专栏地址:YOLOv11改进专栏——以发表论文的角度,快速准确的找到有效涨点的创新点!
文章目录
- 前言
- 一、账号注册
- 1.1 AutoDL简介
- 1.2 用户注册
- 二、创建实例
- 2.1 基础镜像
- 2.2 社区镜像
- 2.3 个人镜像
- 三、上传数据
- 3.1 直接上传
- 3.2 Xftp上传
- 四、远程连接
- 4.1 安装VS Code和相关插件
- 4.2 连接云端
- 4.3 模型训练
- 五、实时监控GPU、内存等占用曲线
一、账号注册
1.1 AutoDL简介
AutoDL AI算力云
是一个提供人工智能算力服务的云平台。以下是关于它的一些特点:
-
丰富的GPU资源:提供多种GPU型号,包括NVIDIA的
A100
、A800
、L40
、V100
、RTX 4090
、RTX 3090
等,能满足我们在不同场景下的需求,无论是进行大规模的AI训练还是复杂的科学计算等任务,都可以找到合适的GPU资源。 -
灵活的付费方式:支持按量付费、包日、包周、包月等多种付费模式。对于短期的实验或不确定时长的项目,可以选择按量付费;如果有长期稳定的算力需求,预付费或包周包月则可能更划算,可以根据自己的需求和预算进行选择。
-
集成主流框架:集成了
TensorFlow
、PyTorch
等多种主流的深度学习框架,并且支持多个深度学习框架版本的切换以及底层CUDA的切换,方便用户快速搭建自己的深度学习环境,减少了环境配置的时间和难度。 -
开发者社区支持:有相关的开发者社区,为用户提供了代码索引、镜像托管和模型托管等服务。这对于算法开发者和研究者来说,可以更方便地管理和分享自己的代码和模型。
1.2 用户注册
- 首先进入
AutoDL
官网:https://www.autodl.com/home - 点击右上角的立即注册,填写手机号进行注册。注册完成之后会有一个10元代金券,可以先体验一下。
3. 登陆后点击控制台
,进入个人界面,点击认证学生升级炼丹会员
,填写教育邮箱,在租卡的时候便宜很多。
二、创建实例
新创建的实例都会放在这里,我这里已经创建了4个实例,新注册的这里是空白的。
重新创建新实例,点击容器实例
→租用新实例
。
2.1 基础镜像
进入到租用新实例中就可以选择自己的卡配置了。
这里的计费方式
、地区
、GPU型号
、GPU数量
、主机
的详细信息和注意事项我已经标在图上,按照自己的需求选择就行了。
📢 注意,在第⑤点中,显存是24GB,也就是说系统盘有24GB大小,硬盘数据盘中有50GB,一共可用的空间有74GB,再多的空间就需要扩容并额外收费了。
在官方给的基础镜像中,最方便的一点就是不用再关心PyTorch与CUDA版本之间的匹配问题了,里面全都配置好了。你只需要关心你的项目代码用的是哪一个版本的PyTorch,然后选择这个版本就行了。
像这样选择你的配置就行了,这样基础实例就设置好了,有优惠券
的选择优惠券就行,然后点击立即创建
就可以了。
点击之后就会在实例容器
中出现刚刚创建好的实例,租卡就开始了。此时也就开始计费了,不用的时候记得及时关机。
当然也可以在更多
选项中选择无卡模式开机
此时只需要0.1/h,这个时候是不能调用GPU的,但可以做一些基础的调试工作,还可以上传数据(我没有使用官方的文件存储
功能进行上传数据,是自己上传的,第三节会讲到)。
无卡模式
需要在关机状态下才能开启。
关机之后若是再次使用有卡模式,需要等待是否有卡空闲,GPU充足时才可开机。
这样基础的实例创建就完成了,这是最常用的一种。
接下来会讲解另外两种极其方便、有效的两种创建方式,并在第三节和第四节中讲解如何使用创建后的实例,进行模型训练等工作。
2.2 社区镜像
在卡的配置这一块和基础镜像的创建是完全一致的,只需要选择自己想用的卡就行了。
❗❗❗重点是在镜像选择中,选择社区镜像
,这里面都是一些用户配置好的项目文件,包括代码和环境,也就是说,你只需要把你的数据上传之后就可以直接训练了,不用再考虑任何环境的问题,非常方便。
关键是里面一些主流,最新的模型都有,想用哪个就用哪个就行,省了大量搭建环境的时间,也不需要担心会发生任何报错问题(只要原镜像没有问题)😆。
点击创建,就完成啦~
2.3 个人镜像
在控制台
中选择镜像
。镜像中保存了个人创建的实例,包括整个项目(代码和环境)。
个人创建的实例可以进行保存,在更多
中选择保存镜像
,就会保存到镜像
里,我这里是保存了三个镜像。
📢 注意免费的空间是30个GB,超出的部分按照0.01/GB/日收费。
这个功能的好处是可以在创建新实例时选择自己保存的实例,然后多开几个实例进行训练,以防没有卡的情况,无法训练。更重要的是不用再次配置环境。
同样,在卡的配置这一块和基础镜像的创建是完全一致的,只需要选择自己想用的卡就行了。其次只需要在镜像
处在我的镜像
中选择可用的镜像就行了。
❗❗❗ 更更重要是,保存的镜像可以分享给指定用户,搭建的环境,项目,改动的内容,可以直接完整的分享给我们指定的用户,分享的人可以再次通过我的镜像创建分享得到的镜像。
所以,购买我专栏的人可以直接获取我完整的模型改进镜像,一键部署,一键运行。
这样通过我的镜像
创建实例就完成了~但是不管哪一种方法创建,在实例关机后15天就会释放实例,注意时间,再次开就后就会刷新这个时间。
三、上传数据
3.1 直接上传
开机之后,点击JupyterLab
,进入之后可以对文件进行一些简单操作,其中包含文件上传。
在上传多个文件的时候,还需要命令进行解压缩,比较复杂🙃,建议参考3.2小节
使用Xftp
进行文件操作处理。
3.2 Xftp上传
1️⃣进入Xftp
官网:https://www.netsarang.com/zh/xshell/ 下载Xftp
并安装
2️⃣ AutoDL
中的实例开机
,无卡模式开机
也可以,只要有登录指令
和密码
就可以连接。
3️⃣ 打开Xftp
,新建连接,复制登录指令
和密码
。建立连接。
举个例子:
假设登录指令
为:ssh -p 12345 root@rxxxx001.autodl.com
其中12345
为端口号;root
为用户名;rxxxx001.autodl.com
为主机名
密码
为:************
4️⃣ 点击连接后,就可以连接到云端了。也就可以将本地的文件通过拖拽的方式上传到云端了。
至此,Xftp
上传数据就完成了,注意使用时候的路径,自己项目能找到。
四、远程连接
4.1 安装VS Code和相关插件
1️⃣进入VS Code
官网:https://code.visualstudio.com/ 下载VS Code
并安装
4.2 连接云端
2️⃣打开VS Code
,在左栏中的扩展按钮中搜索 Remote - SSH
,点击安装,我这里是已经安装好了
3️⃣点击VS Code
界面的左下角的双箭头
,然后选择连接到主机
4️⃣ 紧接着点击,+ 添加新的 SSH 主机...
,
5️⃣ 此时创建的实例已开机,复制登录指令
,粘贴到VS Code
中。
6️⃣ 登录的相关信息会保存在本地,这里默认选择第一个就行,回车进入下一步。
7️⃣ 上步结束之后会在左下角弹窗,选择连接
即可,在新打开的界面中输入实例密码
,就是已开机实例处的密码。
8️⃣ 回车后,在左栏中选择打开文件,选择想要进入的主目录。在进入主目录后还需要输入一遍密码。
9️⃣ 输入完成后就连接成功,进入我们的项目啦
4.3 模型训练
在VS Code
中选择终端
→新建终端
,就打开了控制台。
此时使用社区镜像
或者是个人镜像
的,项目运行所需的各种模块就已经配好了的。在训练模型的时候,配置好自己的数据后开始训练就可以顺利训练了,不需要额外安装任何模块。
使用基础镜像
进行配置的,本地上传完数据后,还需要安装相应的模块。找到缺少哪些模块后,在终端控制台中使用pip install
安装就可以了,官方自带镜像源,安装很快。
推荐在扩展
中搜索python
,并安装,能够显示代码高亮,显示报错,并可以运行文件,而不需要使用命令。
五、实时监控GPU、内存等占用曲线
开机之后,点击实例监控
,里面实时记录了GPU
,CPU
、内存
、显存
的使用情况:
当然也可以查看训练的tensorboard曲线,就不再详述啦
✅