如何在windows中使用hfd.sh aria2c下载huggingface文件

这里写目录标题

  • 简介
  • hfd.sh使用方法
  • windows系统安装aria2c

aria2c官方文档: https://aria2.github.io/manual/en/html/aria2c.html

简介

我们在下载huggingface上模型权重的时候,要么在浏览器上直接下,要么使用官方下载程序。浏览器上还得一个一个点击,下载权重也是单线程(虽然有时单线程也能跑满带宽)。官方下载鲁棒性较差,时不时断个网,或者最后1%卡死。
padeoe作者开发了一个多线程下载权重脚本hfd,基于aria2实现多线程。aria2会将一个文件切分成多个小块,然后使用多线程方式同时下载多个块。
然而大家都在linux上安装aria2,windows安装时多有不便,所以今天给大家带来windows下使用hfd.sh aria2c下载huggingface文件的方法。

hfd.sh使用方法

  1. 下载hfd.sh文件:https://gist.github.com/padeoe/697678ab8e528b85a2a7bddafea1fa4f
    可以点右上角download zip下载,里面有hfd.sh
    在这里插入图片描述
  2. 由于windows的cmd无法运行sh文件,所以可以先安装git,在git bash中运行sh文件,并给该文件执行权限
    chmod a+x hfd.sh
    
  3. 首先设置镜像端点,否则无法连接上远程库
    export HF_ENDPOINT="https://hf-mirror.com"
    
  4. 然后运行sh文件下载,THUDM/glm-4-9b-chat为huggingface上的模型名称,–tool表示使用wget还是aria2c(默认)下载,-x表示线程数
    通常模型文件会下到同级目录下
    sh ./hfd.sh THUDM/glm-4-9b-chat --tool aria2c -x 4
    
    具体用法为
    hfd <model_id> [--exclude exclude_pattern] [--hf_username username] [--hf_token token] [--tool wget|aria2c] [-x threads] [--dataset]
    
    • model_id: 下载的模型ID,格式为’repo/model_name’。
    • --exclude: 可选参数,用于排除哪些文件。例如,有些库中既给了.bin的模型文件,又给了.safetensors的,就可以使用--exclude *.bin排除.bin文件。
    • --hf_username: 可选参数,huggingface账户的用户名。有些模型(例如llama)需要申请才能下载,这时候就需要提供账户信息。
    • --hf_toke: 可选参数,huggingface账户的访问令牌,与--hf_username一起使用,token获取方法在下面。
    • --tool: 可选参数,指定下载工具。可以是wget或aria2c(默认)。aria2c支持多线程下载,可能更快。
    • -x: 可选参数,仅当使用aria2c时有效。用于指定下载时的线程数。例如-x 8表示使用8个线程下载。
    • --dataset: 可选参数,用来标记下载的是数据集而非模型。
  5. 若感觉每次下载需要初始化环境变量或者指定一堆参数太麻烦,可以在外面套个sh文件,例如我就在hfd同级目录下新建了一个downloads_hf_model.sh文件,每次在这里面修改就可以了。
    export HF_ENDPOINT="https://hf-mirror.com"sh ./hfd.sh THUDM/glm-4-9b-chat --tool aria2c -x 4 --exclude *.bin
    

huggingface token获取方法

  1. 进入huggingface官网,登录后点击头像,点击自己名字
    在这里插入图片描述
  2. 左侧点击settings设置
    在这里插入图片描述
  3. 点击左侧access tokens,右边没有token就创建一个,新建的时候只需要read权限就可以了
    在这里插入图片描述
  4. 当前huggingface的规则是新建一个需要自己离线保存的token值,往后无法得到,token值忘记后需要重新刷新
    在这里插入图片描述

windows系统安装aria2c

  1. 去aria2c github仓库中下载windows版本的zip压缩包,自己找个目录将其解压
    在这里插入图片描述

  2. 将aria2加入系统环境变量,路径是自己解压的路径,写到文件夹名
    在这里插入图片描述

  3. 之后重新打开cmd或PowerShell窗口(重新打开才能生效),输入aria2c或aria2c --version查看是否生效
    在这里插入图片描述

  4. 添加配置文件aria2.conf,第1步中刚下载的zip文件中是没有配置文件的,新建一个文件命名为aria2.conf,将以下信息写入。(相当于执行aria2c时的默认参数,也可以在执行时用-d、-k等覆盖)

    # 下载文件的保存路径,使用hfd.sh下载huggingface文件时不用管这个,hfd.sh文件中用-d重新指定路径了
    dir=D:\learning\python
    # 启用RPC功能,一种网络通信技术
    enable-rpc=true
    RPC监听端口
    rpc-listen-port=6800
    # 最大同时下载任务数
    max-concurrent-downloads=5
    

    也可以将下面这些配置文件都放进去,等以后用的时候再修改

    ## '#'开头为注释内容, 选项都有相应的注释说明, 根据需要修改 ##
    ## 被注释的选项填写的是默认值, 建议在需要修改时再取消注释 #### 文件保存相关 ### 文件的保存路径(可使用绝对路径或相对路径), 默认: 当前启动位置
    dir=D:\learning\python
    # 启用磁盘缓存, 0为禁用缓存, 需1.16以上版本, 默认:16M
    disk-cache=32M
    # 文件预分配方式, 能有效降低磁盘碎片, 默认:prealloc
    # 预分配所需时间: none < falloc ? trunc < prealloc
    # falloc和trunc则需要文件系统和内核支持
    # NTFS建议使用falloc, EXT3/4建议trunc, MAC 下需要注释此项
    file-allocation=falloc
    # 断点续传
    continue=true## 下载连接相关 ### 最大同时下载任务数, 运行时可修改, 默认:5
    max-concurrent-downloads=3
    # 同一服务器连接数, 添加时可指定, 默认:1
    max-connection-per-server=5
    # 最小文件分片大小, 添加时可指定, 取值范围1M -1024M, 默认:20M
    # 假定size=10M, 文件为20MiB 则使用两个来源下载; 文件为15MiB 则使用一个来源下载
    min-split-size=10M
    # 单个任务最大线程数, 添加时可指定, 默认:5
    split=5
    # 整体下载速度限制, 运行时可修改, 默认:0
    #max-overall-download-limit=0
    # 单个任务下载速度限制, 默认:0
    #max-download-limit=0
    # 整体上传速度限制, 运行时可修改, 默认:0
    #max-overall-upload-limit=0
    # 单个任务上传速度限制, 默认:0
    #max-upload-limit=0
    # 禁用IPv6, 默认:false
    disable-ipv6=true## 进度保存相关 ### 从会话文件中读取下载任务
    input-file=aria2.session
    # 在Aria2退出时保存`错误/未完成`的下载任务到会话文件
    save-session=aria2.session
    # 定时保存会话, 0为退出时才保存, 需1.16.1以上版本, 默认:0
    save-session-interval=60## RPC相关设置 ### 启用RPC, 默认:false
    enable-rpc=true
    # 允许所有来源, 默认:false
    rpc-allow-origin-all=true
    # 允许非外部访问, 默认:false
    rpc-listen-all=true
    # 事件轮询方式, 取值:[epoll, kqueue, port, poll, select], 不同系统默认值不同
    #event-poll=select
    # RPC监听端口, 端口被占用时可以修改, 默认:6800
    #rpc-listen-port=6800## BT/PT下载相关 ### 当下载的是一个种子(以.torrent结尾)时, 自动开始BT任务, 默认:true
    #follow-torrent=true
    # BT监听端口, 当端口被屏蔽时使用, 默认:6881-6999
    listen-port=51413
    # 单个种子最大连接数, 默认:55
    #bt-max-peers=55
    # 打开DHT功能, PT需要禁用, 默认:true
    enable-dht=false
    # 打开IPv6 DHT功能, PT需要禁用
    #enable-dht6=false
    # DHT网络监听端口, 默认:6881-6999
    #dht-listen-port=6881-6999
    # 本地节点查找, PT需要禁用, 默认:false
    #bt-enable-lpd=false
    # 种子交换, PT需要禁用, 默认:true
    enable-peer-exchange=false
    # 每个种子限速, 对少种的PT很有用, 默认:50K
    #bt-request-peer-speed-limit=50K
    # 客户端伪装, PT需要
    peer-id-prefix=-TR2770-
    user-agent=Transmission/2.77
    # 当种子的分享率达到这个数时, 自动停止做种, 0为一直做种, 默认:1.0
    seed-ratio=0
    # 强制保存会话, 话即使任务已经完成, 默认:false
    # 较新的版本开启后会在任务完成后依然保留.aria2文件
    #force-save=false
    # BT校验相关, 默认:true
    #bt-hash-check-seed=true
    # 继续之前的BT任务时, 无需再次校验, 默认:false
    bt-seed-unverified=true
    # 保存磁力链接元数据为种子文件(.torrent文件), 默认:false
    bt-save-metadata=true
    

    写完.conf文件后,打开cmd或PowerShell窗口,执行以下命令(aria2.conf为自己的.conf路径,可以先cd到该文件目录下)

    aria2c --conf-path==aria2.conf
    

这样再执行hfd.sh文件就可以顺利下载啦

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/413928.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

easy_spring_boot Java 后端开发框架

Easy SpringBoot 基于 Java 17、SpringBoot 3.3.2 开发的后端框架&#xff0c;集成 MyBits-Plus、SpringDoc、SpringSecurity 等插件&#xff0c;旨在提供一个高效、易用的后端开发环境。该框架通过清晰的目录结构和模块化设计&#xff0c;帮助开发者快速构建和部署后端服务。…

应急响应-应急响应流程(各个阶段与实战)

目录 前言准备阶段检测阶段研判分析定损止损&#xff08;对应遏制、根除阶段&#xff09;定损止损 攻击还原清理恢复总结复盘实战讲解进程ssh暴力破解命令混淆派生恶意命令命令注入 网络文件webshellC2脚本木马 参考 前言 做入侵检测时会有一些攻击告警&#xff0c;需要做应急…

《神话:悟空》的破晓之路:文化深度与技术巅峰的交响乐章

在八月的炽热中&#xff0c;《黑神话&#xff1a;悟空》如同一道璀璨的光芒&#xff0c;划破了国产游戏的寂静夜空&#xff0c;不仅以其惊人的销量速度震撼了业界&#xff0c;更以其深厚的文化底蕴与顶尖的游戏设计&#xff0c;在全球玩家心中留下了不可磨灭的印记。这款游戏的…

鸿蒙XComponent组件的认识

概述&#xff1a; XComponent组件作为一种渲染组件&#xff0c;通常用于满足开发者较为复杂的自定义渲染需求&#xff0c;例如相机预览流的显示、游戏画面的渲染、自定义视频播放器等等。其中Native API是其核心内容&#xff01; 其可通过指定其type字段来实现不同的功能&…

入行「游戏策划」,该从何处下手?

想知道策划岗位该怎么入行可点击蓝链 相比较起以技术为最重要评判标准的开发岗&#xff0c; 「游戏策划」这一岗位在非业界人士的眼中 一直都是一个风评方差很大的岗位。 有人说策划岗又轻松又威风&#xff0c; 只需要输出想法&#xff0c;落地都交给开发&#xff0c; 干…

u盘pe怎么安装系统_u盘pe安装系统详细步骤

u盘pe怎么安装系统&#xff1f;u盘pe安装系统需要准备一个u盘&#xff0c;然后将u盘制作成pe&#xff0c;进入pe后再安装系统&#xff0c;下面小编就教大家u盘pe安装系统详细步骤教程。 u盘pe启动盘是什么&#xff1f; u盘pe启动盘是一种可引导的USB存储设备&#xff0c;其中包…

【js逆向专题】4.python调用JS和扣代码

小节目标: 掌握 python调用js代码方式熟悉 js开放接口进行调用了解 补环境的基本概念掌握 js调试技巧 一. pyexecjs的使用 1. 简介 PyExecJS 是一个 Python 库&#xff0c;用于在 Python 环境中执行 JavaScript 代码。它实际上是对 ExecJS 库的 Python 封装&#xff0c;Exec…

Makefile入门

Makefile入门 文章目录 Makefile入门一、Makefile入门1.1 编译工具及构建工具介绍&#xff1a;1.2 编译的四个阶段&#xff1a;1.3 Makefile的认知&#xff1a;1.3.1 什么是Makefile&#xff1a;1.3.2 Makefile的规则与示例&#xff1a; 二、Makefile的基本语法&#xff1a;2.1…

Java注解和JDK新特性

1. 注解 1.1. 认识注解 Annotation&#xff1a;JDK1.5新提供的技术 编译检查&#xff1a;比如SuppressWarnings, Deprecated和Override都具有编译检查的作用替代配置文件&#xff1a;使用反射来读取注解的信息 注解就是代码里的特殊标记&#xff0c;用于替代配置文件&#…

内存管理篇-17解开页表的神秘面纱-下

1.页表初探遗留问题-页表的创建过程 使用MMU之前&#xff0c;页表要准备好&#xff0c;怎么准备的&#xff1f;如何把物理内存通过section映射构建页表页表的创建过程分析&#xff1a;__create_page_tables--创建临时页表&#xff0c;然后在开启MMU 页表的大小和用途页表在内存…

zdppy_cache缓存框架升级,支持用户级别的缓存隔离,支持超级管理员管理普通用户的缓存

启动服务 import zdppy_api as api import zdppy_cachekey1 "admin" key2 "admin"app api.Api(routes[*zdppy_cache.zdppy_api.cache(key1, key2, api) ])if __name__ __main__:import zdppy_uvicornzdppy_uvicorn.run(app, host"0.0.0.0",…

Mac 安装Hadoop教程

1. 引言 本教程旨在介绍在Mac 电脑上安装Hadoop&#xff0c;便于编程开发人员对大数据技术的熟悉和掌握。 2.前提条件 2.1 安装JDK 想要在你的Mac电脑上安装Hadoop&#xff0c;你必须首先安装JDK。具体安装步骤这里就不详细描述了。你可参考Mac 安装JDK8。 2.2 配置ssh环境…

代码随想录 -- 字符串 -- 重复的子字符串

459. 重复的子字符串 - 力扣&#xff08;LeetCode&#xff09; 暴力解法&#xff1a; 思路&#xff1a; 假设子串 s 长度 n 为 i&#xff0c;从1到n/2遍历&#xff1a; 1. 如果 s 能够由他的子串重复构成&#xff0c;那么 s 的长度 n 一定整除其子串 s 的长度 n&#xff0c; …

结合Wireshark抓包实战,图文详解TCP三次握手及四次挥手原理(附下载)

网络安全的基础是网络&#xff0c;若连最基础的网络协议都搞不明白&#xff0c;何谈网络安全。针对核心的TCP协议&#xff0c;本文通过Wireshark工具抓取并分析TCP三次握手和四次挥手的详细过程&#xff0c;包括数据包捕获步骤&#xff0c;每个握手阶段和挥手阶段的数据包内容解…

数据分析处理库(pandas)

目录 数据预处理 数据读取 DataFrame结构 数据索引 创建DataFrame Series操作 数据分析 统计分析 pivot数据透视表 groupby操作 常用函数操作 Merge操作 排序操作 缺失值处理 apply自定义函数 时间操作 绘图操作 大数据处理技巧 数值类型转换 属性类型转换…

MediaGo下载器:专业级功能,轻松应对各种下载需求!

前言 在科技的浪潮中有这样一句名言&#xff0c;深刻地揭示了创新的力量&#xff1a;“创新是引领发展的第一动力。”正是这股不竭的动力&#xff0c;推动了无数软硬件产品的诞生与迭代&#xff0c;为我们带来了前所未有的便捷与体验。今天&#xff0c;我们要探讨的正是这样一…

C++ | Leetcode C++题解之第384题打乱数组

题目&#xff1a; 题解&#xff1a; class Solution { public:Solution(vector<int>& nums) {this->nums nums;this->original.resize(nums.size());copy(nums.begin(), nums.end(), original.begin());}vector<int> reset() {copy(original.begin(), …

重新修改 Qt 项目的 Kit 配置

要重新修改 Qt 项目的 Kit 配置&#xff0c;你可以按照以下步骤进行操作&#xff1a; 1. 打开 Qt Creator 首先&#xff0c;启动 Qt Creator&#xff0c;确保你的项目已经打开。 2. 进入项目设置 在 Qt Creator 中&#xff0c;点击菜单栏的 “Projects” 标签&#xff08;通…

Java并发编程面试必备:如何创建线程池、线程池拒绝策略

一、线程池 1. 线程池使用 1.1 如何配置线程池大小 如何配置线程池大小要看业务系统执行的任务更多的是计算密集型任务&#xff0c;还是I/O密集型任务。大家可以从这两个方面来回答面试官。 &#xff08;1&#xff09;如果是计算密集型任务&#xff0c;通常情况下&#xff…

中仕公考怎么样?公务员考试什么时候补录?

公务员考试补录的时间和方法通常因地区和职位的不同有所区别&#xff0c;一般来说&#xff0c;这一过程会在面试、体检和考核环节完成后启动。 如果在招录过程中出现职位空缺或者并未全部招满的情况&#xff0c;就会进行补录。用人单位会通过其官方或公告形式公布相关信息&…