torch.cuda.OutOfMemoryError: CUDA out of memory.

训练清华ChatGLM-6B时报错, 原因是显存不够

torch.cuda.OutOfMemoryError: CUDA out of memory. Tried to allocate 96.00 MiB (GPU 0; 23.70 GiB total capacity; 4.37 GiB already allocated; 64.81 MiB free; 4.37 GiB reserved in total by PyTorch) If reserved memory is >> allocated memory try setting max_split_size_mb to avoid fragmentation. See documentation for Memory Management and PYTORCH_CUDA_ALLOC_CONF

尝试将

model = AutoModel.from_pretrained("THUDM/chatglm-6b", trust_remote_code=True).half().cuda()

改为

model = AutoModel.from_pretrained("THUDM/chatglm-6b", trust_remote_code=True).half().quantize(4).cuda()

仍然报错

RuntimeError: CUBLAS error: CUBLAS_STATUS_NOT_INITIALIZED

排错流程如下

查看服务器显存占用情况

watch -n 0.1 nvidia-smi

发现gpu:0显存被PID:19409程序大量占用, 报错应该是默认在gpu:0训练导致显存不足, 接着查看gpu:0上程序所属用户(如果不是师兄的我就kill了)

top

一看是root的, 惹不起还躲不起嘛, 换张卡跑, 顺嘴一提, 权限内的程序可以kill -9 {pid}掉释放显存

kill -9 19409

发现gpu:1空闲, 指定gpu:1上训练模型, 有多种方法,

(1) 可以在py代码开头（一定要在开头）加

import os
os.environ['CUDA_VISIBLE_DEVICES']='1'

这样即可指定在gpu:1上训练, 实际上是只设置gpu:1可见, 而屏蔽其他gpu卡

(2) 可以在代码运行前shell或bash脚本中加

CUDA_VISIBLE_DEVICES=1 python xxx.py

这样即可指定在gpu:1上训练, 实际上是只设置gpu:1可见, 而屏蔽其他gpu卡

(3)在程序中使用set_device()

import torch
torch.cuda.set_device(id)

设置完成后查看显存占用情况可以看到, gpu:1显存占用马上上升了, 不影响其他gpu卡的显存

可以看到清华的ChatGLM-6B约占12G显存(其他卡显存增加是写文章的时候其他小伙伴在跑)

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/181246.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

torch.cuda.OutOfMemoryError: CUDA out of memory.

相关文章

XSAN数据恢复-存储空间架构迁移时误格式化存储系统的XSAN数据恢复案例

嵌入式中如何将BootLoader与APP合并成一个固件

该酷的酷该飒的飒~质感满满的羊羔绒皮外套

【入门Flink】- 05Flink运行时架构以及一些核心概念

全球首例无液氦脑磁图辅助下的胶质瘤切除手术顺利完成

Java继承：抽取相同共性，实现代码复用

mysql:B+树/事务

Rust编程基础核心之所有权(上)

pytorch+LSTM实现使用单参数预测，以及多参数预测（代码注释版）

ConnectionError: HTTPSConnectionPool

游戏开发中的“御用中介“

【Redis】String字符串类型-常用命令

2.2整式的加减（第1课时）——合并同类项教学及作业设计

Linux学习第28天：Platform设备驱动开发（二）：专注与分散

堆叠注入 [GYCTF2020]Blacklist1

【Hadoop】Apache Hadoop YARN

[100天算法】-有序矩阵中第K小的元素（day 58）

基础知识：位运算

展开一个结构加法等式

全网最详细的【shell脚本的入门】