【huggingface】数据集及模型下载并保存至本地

目录

    • 数据集
      • ChnSentiCorp
      • peoples_daily_ner
    • 模型
      • bert-base-chinese
      • hfl/rbt3
      • t5-base
      • opus-mt-zh-en
      • Chinese_Chat_T5_Base

环境:没有代理,无法访问部分国外网络

数据集

正常情况下通过load_dataset加载数据集;save_to_disk保存至本地;load_from_disk读取本地数据集。
但由于网络原因,load_dataset加载数据集大多数时候会失败,因此针对不同数据集需要研究如何加载。
思路主要分为
1、 git lfs clone下载huggingface数据集
2、研究.py代码,获取原始数据
3、load_dataset加载,save_to_disk保存

ChnSentiCorp

用于中文情感分析,标记了每条评论的情感极性(0或1)

  1. 数据集地址:seamew/ChnSentiCorp,可见三个.arrow文件即为原始数据。
    在这里插入图片描述

  2. git下载数据集:git lfs clone https://huggingface.co/datasets/seamew/ChnSentiCorp

  3. git下载的文件无法直接使用:

    • load_dataset会执行.python文件,通过https://drive.google.com下载数据导致下载失败报错
    • load_from_disk会执行失败,因为该文件夹非dist数据集格式在这里插入图片描述
  4. 加载.arrow原始数据并保存

    # 设置data_files 
    data_files = {'train': './data/ChnSentiCorp/chn_senti_corp-train.arrow','test': './data/ChnSentiCorp/chn_senti_corp-test.arrow','validation': './data/ChnSentiCorp/chn_senti_corp-validation.arrow'}
    # 加载arrow数据集
    dataset = load_dataset('arrow', data_files=data_files)
    # 保存至本地
    dataset.save_to_disk('./huggingface/hub/datasets/chn_senti_corp')
    

    保存在本地的数据集:
    在这里插入图片描述

  5. 加载保存至本地的数据集

    dataset = load_from_disk('./huggingface/hub/datasets/chn_senti_corp')
    

peoples_daily_ner

用于中文命名实体识别(NER),来自人民日报的文本数据,标记了人名、地名 、组织机构等

  1. 数据集地址:peoples_daily_ner,并无原始数据文件。
    在这里插入图片描述

    研究.py:虽然raw.githubusercontent.com无法发访问,但可通过https://github.com/OYE93/Chinese-NLP-Corpus/tree/master/NER/People's%20Daily去下载原始数据

    在这里插入图片描述在这里插入图片描述

  2. git下载数据集:git lfs clone https://huggingface.co/datasets/peoples_daily_ner

  3. git下载原始数据:example.trainexample.devexample.test
    在这里插入图片描述

  4. 将原始数据放在huggingface数据集文件夹内,并修改.py内_URL为本地路径
    在这里插入图片描述

    # _URL = "https://raw.githubusercontent.com/OYE93/Chinese-NLP-Corpus/master/NER/People's%20Daily/"
    _URL = ""
    _TRAINING_FILE = "example.train"
    _DEV_FILE = "example.dev"
    _TEST_FILE = "example.test"
    
  5. 即可通过load_dataset加载

    dataset = load_dataset('./data/peoples_daily_ner')
    dataset.save_to_disk('./huggingface/hub/datasets/peoples_daily_ner')
    

模型

模型则要简单许多,直接通过git lfs clone下载至本地保存即可

bert-base-chinese

基于BERT架构的中文预训练模型,使用了中文维基百科进行预训练,能对中文文本进行深度的理解和分析。

git lfs clone https://huggingface.co/bert-base-chinese

from transformers import BertTokenizer,BertModel
tokenizer = BertTokenizer.from_pretrained('./huggingface/hub/models/bert-base-chinese')
pretrained= BertModel.from_pretrained('./huggingface/hub/models/bert-base-chinese')

hfl/rbt3

哈工大未来语言智能实验室(HFL)开发的中文预训练模型RBT3的版本,使用了中文维基百科和百度文库(Baidu Wenku)进行预训练。

git lfs clone https://huggingface.co/hfl/rbt3

from transformers import AutoTokenizer
from transformers import AutoModel
tokenizer = AutoTokenizer.from_pretrained('./huggingface/hub/models/hfl___rbt3')
pretrained= AutoModel.from_pretrained('./huggingface/hub/models/hfl___rbt3')

t5-base

基于T5(Text-to-Text Transfer Transformer)架构的预训练模型,使用海量的文本数据进行训练,可以用于多种自然语言处理任务。虽然这个模型并不是专门针对中文的,但也可以在中文处理任务中应用。

opus-mt-zh-en

基于神经机器翻译的中文到英语的预训练模型,由牛津大学和阿里巴巴达摩院联合开发,可以用于中文到英语的翻译任务。

Chinese_Chat_T5_Base

中文版对话机器人,在1300w+问答和对话数据上做有监督预训练。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/122420.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

jupyter notebook 魔术命令介绍和简单使用

在Jupyter notebook中,“魔法命令”是特殊的命令,不是Python语言的一部分,但可以使您的生活更轻松。这些命令前面有%符号。 魔法命令很有用,可以直接嵌入到python代码中,并解决常见问题,例如列出当前目录中…

2020年下半年系统架构设计师上午真题及答案解析

1.按照我国著作权法的权利保护期,( )受到永久保护。 A.发表权 B.修改权 C.复制权 D.发行权 2.假设某计算机的字长为32位,该计算机文件管理系统磁盘空间管理采用位示图记录磁盘的使用情况,若磁盘的容量为3…

视频集中存储/云存储/磁盘阵列EasyCVR平台分组批量绑定/取消设备功能详解

安防视频监控/视频集中存储/云存储/磁盘阵列EasyCVR平台视频能力丰富灵活,可支持的主流标准协议有国标GB28181、RTSP/Onvif、RTMP等,以及支持厂家私有协议与SDK接入,包括海康Ehome、海大宇等设备的SDK等。视频汇聚融合管理平台EasyCVR既具备传…

springmvc5.x-mvc实现原理及源码实现

上文:spring5.x-声明式事务原理及源码实现 系列文章: spring5.x-声明式事务原理及源码实现 spring5.x-AOP实现原理及源码分析 spring5.x-监听器原理及源码实现 spring5.x-解决循环依赖分析 spring5.x-IOC模块源码学习 spring5.x介绍及搭配spring源码阅读…

GoT:用大语言模型解决复杂的问题

GoT:用大语言模型解决复杂的问题 摘要介绍背景和符号表示语言模型和上下文学习Input-Output(IO)Chain of thought(CoT)Multiple CoTTree of thoughts(ToT) GoT框架推理过程思维变换聚合变换&…

群晖 DS918通过CISCO SG250 LACP 链路聚合效果不佳的问题解决

问题表现 使用的是CISCO交换机打开LACP 链路聚合,且DS918上完成接口聚合并配置为平衡TCP模式后。通过IPREF测速整体网络性能仅能达到300Mbps左右。 问题解决 检查CISCO交换机LAG配置中,针对DS918的接口组是否正确配置了流量配置。请按照如下图所示&#…

无涯教程-Android Intent Standard Extra Data函数

下表列出了各种重要的Android Intent Standard Extra Data。您可以查看Android官方文档以获取额外数据的完整列表- Sr.NoExtra Data & Description1 EXTRA_ALARM_COUNT 用作AlarmManager intents(意图)中的int Extra字段,以告诉正在调用的应用程序intents(意图)释放了多少…

使用Android原生制作毛玻璃效果图片

毛玻璃效果,也被称为模糊效果,是许多现代应用中流行的一种视觉效果。在 Android 中,我们可以通过多种方式实现该效果。本文将探讨如何使用 Android 原生的 Bitmap 类和 RenderScript 来实现毛玻璃效果。 1. 准备工作 首先,你需要…

NIFI关于Parameter Contexts的使用

说明 nifi版本:1.23.2(docker镜像) 作用 Parameter Contexts(参数上下文):参数上下文由 NiFi 实例全局定义/访问。访问策略可以应用于参数上下文,以确定哪些用户可以创建它们。创建后&#x…

什么是RTC

参考: https://zhuanlan.zhihu.com/p/377100294 RTC(Real time communication)实时通信,是实时音视频的一个简称,我们常说的RTC技术一般指的是WebRTC技术,已经被 W3C 和 IETF 发布为正式标准。由于几乎所…

【数据结构】堆的基础功能实现与PriorityQueue

文章目录 🍀堆的插入与删除🛫堆的插入🚩代码实现: 🛬堆的删除 🎋堆的常见习题🎈习题一🎈习题二🎈习题三 🎄PriorityQueue🐱‍👓Priori…

【LeetCode】202. 快乐数 - hash表 / 快慢指针

目录 2023-9-5 09:56:152023-9-6 19:40:51 202. 快乐数 2023-9-5 09:56:15 关键是怎么去判断循环: hash表: 每次生成链中的下一个数字时,我们都会检查它是否已经在哈希集合中。 如果它不在哈希集合中,我们应该添加它。如果它在…

基于平台快速搭建企业信息化系统的低代码PaaS平台源码

低代码快开平台是一种快速开发应用系统的工具,用户通过少量代码甚至不写代码就可以快速构建出各种应用系统。 随着信息化技术的发展,企业对信息化开发的需求正在逐渐改变,传统的定制开发已经无法满足企业需求。低代码开发平台,让…

C++——STL容器【map和set】

文档:map、set 文章目录 🍯1. 关联式容器🫖2. set🍼1. 模板参数🍼2. 构造函数🍼3. 修改🍼4.操作🥛find🥛count🥛lower_bound & upper_bound & equal_…

Java运算符

目录 一、运算符的概念 二、算数运算符 三、关系运算符 五、逻辑运算符 六、移位运算符 七、条件运算符 八、运算符的优先级 一、运算符的概念 计算机的最基本的用途之一就是执行数学运算&#xff0c;比如: 上述 和 < 等就是运算符&#xff0c;即&#xff1a;对操作…

2023年MySQL实战核心技术第二篇

目录 五 . 日志系统&#xff1a;一条SQL更新语句是如何执行的&#xff1f; 5.1 解释 5.2 重要的日志模块&#xff1a;redo log 5.2.1 解释 5.2.2 WAL&#xff08;Write-Ahead Logging&#xff09; 5.2.3 crash-safe。 5.3 重要的日志模块&#xff1a;binlog 5.3 .1 为什么会有…

存储数据恢复- raid5多块硬盘出现坏道的数据恢复案例

存储数据恢复环境&#xff1a; 某单位一台存储&#xff0c;1个机头4个扩展柜&#xff0c;有两组分别由27块和23块硬盘组建的RAID5阵列。其中由27块磁盘组建的那一组RAID5阵列崩溃&#xff0c;这组RAID5阵列存放是Oracle数据库文件。存储系统上层共划分了11个卷。 存储故障&…

利用Hutool+自定义注解实现数据脱敏

利用Hutool自定义注解实现数据脱敏 前言 我们在使用手机银行的时候经常能看到APP上会将银行卡的卡号中间部分给隐藏掉使用 ***** 来代替&#xff0c;在某些网站上查看一些业务密码时&#xff08;例如签到密码等&#xff09;也会使用 ***** 来隐藏掉真正的密码&#xff0c;那么…

重磅! AIFS+MLOps两大AI基核技术前沿洞察报告出炉!

近日&#xff0c;中国国际服务贸易交易会&#xff08;以下简称“服贸会”&#xff09;在京盛大举办&#xff0c;在服贸会“2023中国AIGC创新发展论坛”和“2023中国金融科技论坛”两大论坛的成果发布环节&#xff0c;九章云极DataCanvas公司与IDC重磅发布「AIFS人工智能基础软件…

linux安装minio以及springboot整合使用

文章目录 1.linux安装minio2.springboot整合minio使用 1.linux安装minio 1.新建文件夹 mkdir /home/minio # 数据文件夹 mkdir /home/minio/data # 创建日志文件夹 mkdir /home/minio/log2.进入文件夹 cd /home/minio3.下载minio&#xff0c;链接可从官网获取 wget https://…