datasets 笔记:加载数据集(基本操作)

参考了huggingface的教程

1  了解数据集基本信息( load_dataset_builder)

  • 在下载数据集之前,通常先快速了解数据集的基本信息会很有帮助。
  • 数据集的信息存储在 DatasetInfo 中,可能包括数据集描述、特征和数据集大小等信息。(不同的数据集提供的信息可能也不相同)
  • 使用 load_dataset_builder() 函数加载数据集生成器,并在不下载数据集的情况下检查数据集的属性
from datasets import load_dataset_builder
ds_builder = load_dataset_builder("cornell-movie-review-data/rotten_tomatoes")ds_builder.info.description
#''from datasets import load_dataset_builder
ds_builder = load_dataset_builder("rotten_tomatoes")ds_builder.info.description
#''
from datasets import load_dataset_builder
ds_builder = load_dataset_builder("cornell-movie-review-data/rotten_tomatoes")ds_builder.info.features
'''
{'text': Value(dtype='string', id=None),'label': ClassLabel(names=['neg', 'pos'], id=None)}
'''

至于这个数据集的名字怎么来的,我的理解是,复制完整路径即可

2 加载数据集

2.1  加载所有

此时Datasets 将返回一个 DatasetDict 对象

from datasets import load_datasetdataset = load_dataset("rotten_tomatoes")
dataset
'''
DatasetDict({train: Dataset({features: ['text', 'label'],num_rows: 8530})validation: Dataset({features: ['text', 'label'],num_rows: 1066})test: Dataset({features: ['text', 'label'],num_rows: 1066})
})
'''

2.2 加载特定划分

2.2.1 数据集划分

  • 数据集的划分是特定的子集,比如训练集(train)和测试集(test)
  • 可以使用 get_dataset_split_names() 函数查看数据集的划分名称
from datasets import get_dataset_split_namesget_dataset_split_names("rotten_tomatoes")
#['train', 'validation', 'test']

2.2.2 读取单个

from datasets import load_datasetdataset = load_dataset("rotten_tomatoes", split="train")
dataset
'''
Dataset({features: ['text', 'label'],num_rows: 8530
})
'''

2.3 读取配置

  • 某些数据集包含多个子数据集。例如,MInDS-14 数据集包含多种语言的音频数据,这些子数据集被称为配置或子集。
  • 加载这些数据集时,必须显式选择其中一个配置。
  • 如果没有提供配置名称,Datasets 会抛出 ValueError

2.3.1 获取数据集的所有可用配置

from datasets import get_dataset_config_namesconfigs = get_dataset_config_names("PolyAI/minds14")
print(configs)
'''
['cs-CZ', 'de-DE', 'en-AU', 'en-GB', 'en-US', 'es-ES', 'fr-FR', 'it-IT', 'ko-KR', 'nl-NL', 'pl-PL', 'pt-PT', 'ru-RU', 'zh-CN', 'all']
'''

2.3.2 加载需要的配置

from datasets import load_datasetmindsFR = load_dataset("PolyAI/minds14", "fr-FR", split="train")

【这一步官网是这么说的,但是我自己是报错的】

2.4 主要参数

path 

数据集的路径或名称。

  • 如果是 Hub 仓库路径(例如 "namespace/dataset_name"),加载该仓库中的数据文件。

  • 如果是本地路径,加载本地文件夹中的数据文件(需要配合data_dir/data_files)。

data_dir

数据所在的目录路径

data_files

  • 数据文件的路径或路径列表。

data_files 是一个列表时:

  • 结果直接合并(append):多个文件的数据会被视为一个整体,并按行追加形成一个统一的 Dataset
  • 返回值是一个 Dataset 对象

可以将 data_files 配置为一个字典,手动映射文件到划分

结果: ds 是一个 DatasetDict 对象,包含多个划分

split

  • 加载数据集的特定划分。

前10%+后20%

交叉验证

cache_dir

数据集缓存的存储目录,默认是~/.cache/huggingface/datasets

download_mode

指定是否重新下载数据集:
  • REUSE_DATASET_IF_EXISTS(默认):如果已缓存则不重新下载。
  • FORCE_REDOWNLOAD:强制重新下载。

keep_in_memory

是否将数据集加载到内存中

features

用于定义 数据集每一列的特征,即每一列的数据类型和结构

嵌套特征

revision

加载特定版本的数据集(如 Git 标签或分支)

token

Hugging Face Hub 的身份验证令牌。

streaming

是否启用流式加载,适用于超大数据集

num_proc

多进程数量,用于加速数据处理

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/493436.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Java期末复习暨学校第十三次上机课作业

Java期末复习暨学校第十三次上机课作业: (1):掌握正则表达式的使用 第一题: 第13行代码为正则表达式,中国内地的手机号必须是11个数字: (1) ^1:是该电话号码…

aosp15 - Activity生命周期切换

本文探查的是,从App冷启动后到MainActivity生命周期切换的系统实现。 调试步骤 在com.android.server.wm.RootWindowContainer#attachApplication 方法下断点,为了attach目标进程在com.android.server.wm.ActivityTaskSupervisor#realStartActivityLock…

【libuv】Fargo信令1:client发connect消息给到server

tcp 单机测试,进行模拟 (借助copilot实现) 【Fargo】28:字节序列client发connect消息给到serverserver 收到后回复ack给到客户端程序借助copilot实现。项目构建 Console依赖于Halo.dll提供的api,Halo 依赖于 Immanuel, 运行效果 遗留问题 客户端似乎么有逻辑收到ack做处理各…

libmodbus安装使用

要配置和编译 libmodbus,您需要确保安装了所有必要的依赖项,并按照正确的步骤进行操作。以下是详细的环境配置和编译指南,适用于不同的操作系统。 1. Linux (Debian/Ubuntu) 安装依赖项 首先,确保您的包列表是最新的&#xff1…

猫咪睡眠:萌态背后的奥秘与启示

猫咪的睡眠,犹如一本充满趣味与奥秘的小书,每一页都写满了它们独特的习性与本能。 猫咪堪称 “睡眠大师”,睡眠时间之长令人咋舌,一天中大约有 12 - 16 个小时在梦乡中度过,幼猫和老年猫甚至能睡更久。它们似乎深谙放…

关于小程序内嵌h5打开新的小程序

关于小程序内嵌h5打开新的小程序 三种方式 https://juejin.cn/post/7055551463489011749 只依赖于h5本身的就是 https://huaweicloud.csdn.net/64f97ebb6b896f66024ca16c.html https://juejin.cn/post/7055551463489011749 navigateToMiniProgram 故小程序webview里的h5无法…

免费GIS工具箱:轻松将glb文件转换成3DTiles文件

在GIS地理信息系统领域,GLB文件作为GLTF文件的二进制版本,主要用于3D模型数据的存储和展示。然而,GLB文件的使用频率相对较低,这是因为GIS系统主要处理的是地理空间数据,如地图、地形、地貌、植被、水系等,…

音视频入门基础:MPEG2-TS专题(21)——FFmpeg源码中,获取TS流的视频信息的实现

一、引言 通过FFmpeg命令可以获取到TS文件/TS流的视频压缩编码格式、色彩格式(像素格式)、分辨率、帧率信息: ./ffmpeg -i XXX.ts 本文以H.264为例讲述FFmpeg到底是从哪个地方获取到这些视频信息的。 二、视频压缩编码格式 FFmpeg获取TS文…

BenchmarkSQL使用教程

1. TPC-C介绍 Transaction Processing Performance Council (TPC) 事务处理性能委员会,是一家非盈利IT组织,他们的目的是定义数据库基准并且向产业界推广可验证的数据库性能测试。而TPC-C最后一个C代表的是压测模型的版本,在这之前还有TPC-A、…

火山引擎发布数据飞轮 2.0,AI 重塑企业数据消费

12 月 18 日,在 2024 冬季火山引擎 FORCE 原动力大会上,火山引擎数智平台(VeDI)正式升级发布数据飞轮 2.0 模式。 延续去年 4 月发布的数据飞轮“以数据消费促资产建设,以数据消费助业务发展”的核心内涵,…

LLaMA-Factory 单卡3080*2 deepspeed zero3 微调Qwen2.5-7B-Instruct

环境安装 git clone https://gitcode.com/gh_mirrors/ll/LLaMA-Factory.git 下载模型 pip install modelscope modelscope download --model Qwen/Qwen2.5-7B-Instruct --local_dir /root/autodl-tmp/models/Qwen/Qwen2.5-7B-Instruct 微调 llamafactory-cli train \--st…

合并比对学习资料

目录 ContractComparison已开源: ContractComparison已开源: GitHub - UnstoppableCurry/ContractComparison: Comparison of General Chinese Contracts with OCR Pytorch

全速下载 50M/S,不限速下载就是香

近几年来虽说各大网盘层出不穷,各有乾坤,而这其中某些网盘对于网速限制非常严重,这也是很多小伙伴一直吐槽的点,并且某些网盘下载文件还需要安装客户端,并且每家的限速方式不同,有的限速取决于文件大小&…

回归预测 | MATLAB实现CNN-BiGRU-Attention卷积神经网络结合双向门控循环单元融合注意力机制多输入单输出回归预测

回归预测 | MATLAB实现CNN-BiGRU-Attention卷积神经网络结合双向门控循环单元融合注意力机制多输入单输出回归预测 目录 回归预测 | MATLAB实现CNN-BiGRU-Attention卷积神经网络结合双向门控循环单元融合注意力机制多输入单输出回归预测预测效果基本介绍程序设计参考资料 预测效…

RunCam WiFiLink连接手机图传测试

RunCam WiFiLink中文手册从这里下载 一、摄像头端 1.连接天线(易忘) 2.打开摄像头前面的盖子(易忘) 3.接上直流电源,红线为正,黑线为负 4.直流电源设置电压为14v,电流为3.15A, 通…

AI的进阶之路:从机器学习到深度学习的演变(二)

AI的进阶之路:从机器学习到深度学习的演变(一) 三、机器学习(ML):AI的核心驱动力 3.1 机器学习的核心原理 机器学习(Machine Learning, ML)突破了传统编程的局限,它不再…

WordPress 去除?v= 动态后缀

Wordpress url后面带有?vxxx的参数符,这种现象出现在安装了Woocommerce插件的店铺类型站点上,参数的作用是帮助系统根据用户的geographic定位计算 tax and shipping fee。 如何删除? 后台进入WooCommerce Settings ,将根据IP定…

Spring Cloud Gateway 源码

Spring Cloud Gateway 架构图 按照以上架构图,请求的处理流程: 1.客户端请求发送到网关 DispatcherHandler 2.网关通过 HandlerMapping 找到相应的 WebHandler 3.WebHandler生成FilterChain过滤器链执行所有的过滤器 4.返回Response结果 自动装配类Gat…

数据结构漫游记:初识vector

​ 嘿,各位技术潮人!好久不见甚是想念。生活就像一场奇妙冒险,而编程就是那把超酷的万能钥匙。此刻,阳光洒在键盘上,灵感在指尖跳跃,让我们抛开一切束缚,给平淡日子加点料,注入满满的…

go-zero负载均衡实现原理

1. 什么是负载均衡 关于微服务分布式及集群的概念即定义,在业界中这些往往会同时在同一个项目中,而集群在微服务中主要为服务的运行保障高可用。 比如:在当前的项目情况下,我们可能针对用户服务部署两台服务以保障用户服务的高可用…