这里写目录标题
- 简介
- hfd.sh使用方法
- windows系统安装aria2c
aria2c官方文档: https://aria2.github.io/manual/en/html/aria2c.html
简介
我们在下载huggingface上模型权重的时候,要么在浏览器上直接下,要么使用官方下载程序。浏览器上还得一个一个点击,下载权重也是单线程(虽然有时单线程也能跑满带宽)。官方下载鲁棒性较差,时不时断个网,或者最后1%卡死。
padeoe作者开发了一个多线程下载权重脚本hfd,基于aria2实现多线程。aria2会将一个文件切分成多个小块,然后使用多线程方式同时下载多个块。
然而大家都在linux上安装aria2,windows安装时多有不便,所以今天给大家带来windows下使用hfd.sh aria2c下载huggingface文件的方法。
hfd.sh使用方法
- 下载hfd.sh文件:https://gist.github.com/padeoe/697678ab8e528b85a2a7bddafea1fa4f
可以点右上角download zip下载,里面有hfd.sh
- 由于windows的cmd无法运行sh文件,所以可以先安装git,在git bash中运行sh文件,并给该文件执行权限
chmod a+x hfd.sh
- 首先设置镜像端点,否则无法连接上远程库
export HF_ENDPOINT="https://hf-mirror.com"
- 然后运行sh文件下载,THUDM/glm-4-9b-chat为huggingface上的模型名称,–tool表示使用wget还是aria2c(默认)下载,-x表示线程数
通常模型文件会下到同级目录下
具体用法为sh ./hfd.sh THUDM/glm-4-9b-chat --tool aria2c -x 4
hfd <model_id> [--exclude exclude_pattern] [--hf_username username] [--hf_token token] [--tool wget|aria2c] [-x threads] [--dataset]
model_id
: 下载的模型ID,格式为’repo/model_name’。--exclude
: 可选参数,用于排除哪些文件。例如,有些库中既给了.bin的模型文件,又给了.safetensors的,就可以使用--exclude *.bin
排除.bin文件。--hf_username
: 可选参数,huggingface账户的用户名。有些模型(例如llama)需要申请才能下载,这时候就需要提供账户信息。--hf_toke
: 可选参数,huggingface账户的访问令牌,与--hf_username
一起使用,token获取方法在下面。--tool
: 可选参数,指定下载工具。可以是wget或aria2c(默认)。aria2c支持多线程下载,可能更快。-x
: 可选参数,仅当使用aria2c时有效。用于指定下载时的线程数。例如-x 8表示使用8个线程下载。--dataset
: 可选参数,用来标记下载的是数据集而非模型。
- 若感觉每次下载需要初始化环境变量或者指定一堆参数太麻烦,可以在外面套个sh文件,例如我就在hfd同级目录下新建了一个downloads_hf_model.sh文件,每次在这里面修改就可以了。
export HF_ENDPOINT="https://hf-mirror.com"sh ./hfd.sh THUDM/glm-4-9b-chat --tool aria2c -x 4 --exclude *.bin
huggingface token获取方法
- 进入huggingface官网,登录后点击头像,点击自己名字
- 左侧点击settings设置
- 点击左侧access tokens,右边没有token就创建一个,新建的时候只需要read权限就可以了
- 当前huggingface的规则是新建一个需要自己离线保存的token值,往后无法得到,token值忘记后需要重新刷新
windows系统安装aria2c
-
去aria2c github仓库中下载windows版本的zip压缩包,自己找个目录将其解压
-
将aria2加入系统环境变量,路径是自己解压的路径,写到文件夹名
-
之后重新打开cmd或PowerShell窗口(重新打开才能生效),输入aria2c或aria2c --version查看是否生效
-
添加配置文件aria2.conf,第1步中刚下载的zip文件中是没有配置文件的,新建一个文件命名为aria2.conf,将以下信息写入。(相当于执行aria2c时的默认参数,也可以在执行时用-d、-k等覆盖)
# 下载文件的保存路径,使用hfd.sh下载huggingface文件时不用管这个,hfd.sh文件中用-d重新指定路径了 dir=D:\learning\python # 启用RPC功能,一种网络通信技术 enable-rpc=true RPC监听端口 rpc-listen-port=6800 # 最大同时下载任务数 max-concurrent-downloads=5
也可以将下面这些配置文件都放进去,等以后用的时候再修改
## '#'开头为注释内容, 选项都有相应的注释说明, 根据需要修改 ## ## 被注释的选项填写的是默认值, 建议在需要修改时再取消注释 #### 文件保存相关 ### 文件的保存路径(可使用绝对路径或相对路径), 默认: 当前启动位置 dir=D:\learning\python # 启用磁盘缓存, 0为禁用缓存, 需1.16以上版本, 默认:16M disk-cache=32M # 文件预分配方式, 能有效降低磁盘碎片, 默认:prealloc # 预分配所需时间: none < falloc ? trunc < prealloc # falloc和trunc则需要文件系统和内核支持 # NTFS建议使用falloc, EXT3/4建议trunc, MAC 下需要注释此项 file-allocation=falloc # 断点续传 continue=true## 下载连接相关 ### 最大同时下载任务数, 运行时可修改, 默认:5 max-concurrent-downloads=3 # 同一服务器连接数, 添加时可指定, 默认:1 max-connection-per-server=5 # 最小文件分片大小, 添加时可指定, 取值范围1M -1024M, 默认:20M # 假定size=10M, 文件为20MiB 则使用两个来源下载; 文件为15MiB 则使用一个来源下载 min-split-size=10M # 单个任务最大线程数, 添加时可指定, 默认:5 split=5 # 整体下载速度限制, 运行时可修改, 默认:0 #max-overall-download-limit=0 # 单个任务下载速度限制, 默认:0 #max-download-limit=0 # 整体上传速度限制, 运行时可修改, 默认:0 #max-overall-upload-limit=0 # 单个任务上传速度限制, 默认:0 #max-upload-limit=0 # 禁用IPv6, 默认:false disable-ipv6=true## 进度保存相关 ### 从会话文件中读取下载任务 input-file=aria2.session # 在Aria2退出时保存`错误/未完成`的下载任务到会话文件 save-session=aria2.session # 定时保存会话, 0为退出时才保存, 需1.16.1以上版本, 默认:0 save-session-interval=60## RPC相关设置 ### 启用RPC, 默认:false enable-rpc=true # 允许所有来源, 默认:false rpc-allow-origin-all=true # 允许非外部访问, 默认:false rpc-listen-all=true # 事件轮询方式, 取值:[epoll, kqueue, port, poll, select], 不同系统默认值不同 #event-poll=select # RPC监听端口, 端口被占用时可以修改, 默认:6800 #rpc-listen-port=6800## BT/PT下载相关 ### 当下载的是一个种子(以.torrent结尾)时, 自动开始BT任务, 默认:true #follow-torrent=true # BT监听端口, 当端口被屏蔽时使用, 默认:6881-6999 listen-port=51413 # 单个种子最大连接数, 默认:55 #bt-max-peers=55 # 打开DHT功能, PT需要禁用, 默认:true enable-dht=false # 打开IPv6 DHT功能, PT需要禁用 #enable-dht6=false # DHT网络监听端口, 默认:6881-6999 #dht-listen-port=6881-6999 # 本地节点查找, PT需要禁用, 默认:false #bt-enable-lpd=false # 种子交换, PT需要禁用, 默认:true enable-peer-exchange=false # 每个种子限速, 对少种的PT很有用, 默认:50K #bt-request-peer-speed-limit=50K # 客户端伪装, PT需要 peer-id-prefix=-TR2770- user-agent=Transmission/2.77 # 当种子的分享率达到这个数时, 自动停止做种, 0为一直做种, 默认:1.0 seed-ratio=0 # 强制保存会话, 话即使任务已经完成, 默认:false # 较新的版本开启后会在任务完成后依然保留.aria2文件 #force-save=false # BT校验相关, 默认:true #bt-hash-check-seed=true # 继续之前的BT任务时, 无需再次校验, 默认:false bt-seed-unverified=true # 保存磁力链接元数据为种子文件(.torrent文件), 默认:false bt-save-metadata=true
写完.conf文件后,打开cmd或PowerShell窗口,执行以下命令(aria2.conf为自己的.conf路径,可以先cd到该文件目录下)
aria2c --conf-path==aria2.conf
这样再执行hfd.sh文件就可以顺利下载啦