Python 标准库中的 csv 包

0. Abstract

官方文档很罗嗦,长篇大论例子少。本文将举例说明 csv 包的用法,然后补充一些必要的说明。

1.0 CSV 文件

CSV(Comma-Separated Values,逗号分隔值)文件是一种常见的以纯文本形式存储数据的文件格式。它使用逗号作为字段之间的分隔符,并且每一行表示一个记录。

以下是一个简单的示例,展示了一个包含姓名、年龄和城市信息的 CSV 文件:

Name, Age, City
John, 25, New York
Alice, 30, Los Angeles
Bob, 35, Chicago

在上述示例中,第一行是标题行,包含了三个字段(field)的名称:Name、Age 和 City。接下来的每一行都是一个记录,每个字段之间由逗号进行分隔

在 Python 中,可以使用内置的 csv 模块来读取和写入 CSV 文件。该模块提供了方便的函数和方法来处理 CSV 数据,例如 csv.reader() 用于读取 CSV 文件,csv.writer() 用于写入 CSV 文件,以及其他用于设置分隔符引号字符等的选项。

1.1 读文件 reader(iterable, dialect='excel', *args, **kwargs)

这个函数标签是 PyCharm 生成的伪标签,实际的代码在底层,不是 python 语言,故无法查看。读:

import csvwith open('demo.py', 'r') as csvfile:  # 记刚才生成的 csv 文件名为 'demo.py'samples = csv.reader(csvfile)for sample in samples:print(sample)### output ###
['Name', ' Age', ' City']
['John', ' 25', ' New York']
['Alice', ' 30', ' Los Angeles']
['Bob', ' 35', ' Chicago']
参数 iterable

按照 reader(iterable, dialect='excel', *args, **kwargs),它是可以接收任何 iterable 对象的,我试了一下,确实可以:

for row in csv.reader('abc', delimiter=','):print(row)### output ###
['a']
['b']
['c']
# 如果 ('abc', 'def'), 则 ['abc'] ['def']

但是这个迭代器要返回 str 才行,如果 csv.reader((1, 2)),则出现错误:

_csv.Error: iterator should return strings, not int (did you open the file in text mode?)

由此看来,csv.reader 是需要 iterable 返回 str,然后再对 str 根据 delimiter 进行分割:

for row in csv.reader(('a,bc', 'def'), delimiter='b'):print(row)
### output ###
['a,', 'c']
['def']

果然把 ‘a,bc’ 中的 ‘b’ 当分隔符了。还发现,每行的分割数量可以不一致

小结reader(iterable, dialect='excel', *args, **kwargs) 接收一个字符串迭代器,返回一个字符串列表迭代器:迭代过程中,根据 delimiter 把字符串分割成字符串列表。如 csv.reader('abc', delimiter=','),迭代 a, b, c 三个字符串,每个字符串根据 ',' 分割,形成列表 ['a'], ['b'], ['c']

重温 open()

那么 open('demo.py', 'r') 是一个 str 迭代器咯?是的:

open 返回的对象是 TextIOWrapper,它在 io 包中,类结构如上图所示,它是个迭代器。

之前只知道常见的文件读取函数:

f.read()  # 读取全部文本,返回一个字符串。这种方法适用于一次性处理小的文件。
f.readline()  # 按行读取文件,每次返回一个字符串。
f.readlines()  # 读取全部文本,返回一个字符串列表。

不知道 f 本身是什么,既然现在知道它是迭代器,那看一看 for ... in ... 会发生什么:

with open('demo.csv', 'r') as f:for item in f:print(item)### output ###
Name, Age, CityJohn, 25, New YorkAlice, 30, Los AngelesBob, 35, Chicago

每个迭代元素是文件中文本的一行,并带有 \n 换行符,这和 f.readlines() 是一样的,只不过后者是一次性读取所有行,前者是边读边迭代。不止如此,既然能 with,那么它肯定也是上下文管理器。这个迭代器是可关闭的。

回到 csv.reader(csvfile),看一看文件迭代器关闭后继续迭代 csv.reader(csvfile) 会怎样:

with open('demo.py', 'r') as csvfile:samples = csv.reader(csvfile)
for sample in samples:  # csv 文件已关闭print(sample)# ValueError: I/O operation on closed file.

报了 ValueError: I/O operation on closed file. 错,这和读写已关闭的文件是一样的。也就是说,csv.reader(csvfile) 并不是一次性读取文件返回给 samples 对象,它只是包装了 csvfile实际的读写操作还是csvfile 对象完成的。但很遗憾,只能到这,samples = csv.reader(csvfile) 返回的 _reader 类型到底是怎样的,无法得知。

小结reader(csvfile) 包装一个文件对象 csvfile (是个字符串迭代器),每次迭代一行,根据 delimiter 把这行字符串分割成字符串列表,过程中 csvfile 不能关闭。

再读文档就明白了:

The “iterable” argument can be any object that returns a line of input for each iteration, such as a file object or a list. The optional “dialect” parameter is discussed below. The function also accepts optional keyword arguments which override settings provided by the dialect.
The returned object is an iterator. Each iteration returns a row of the CSV file (which can span multiple input lines).

1.2 参数配置

reader(iterable, dialect='excel', *args, **kwargs)csv.reader('abc', delimiter=',') 来看,参数可以通过类似 delimiter=',' 的键值对进行配置,但不知道都有哪些参数可配置。注意到 dialect='excel',在文档中有这么一段话:

The function also accepts optional keyword arguments which override settings provided by the dialect.

也即 dialect='excel' 提供了参数设置。继续看文档怎么写(翻译):

1.2.1 Dialect Registration:

ReadersWriters 都支持 dialect 参数,该参数是对一组 setting 的方便 handle。当 dialect 参数是字符串时,它标识模块中预先注册的一种 dialect。如果它是一个类或实例,则参数的属性用作读取器或写入器的设置:

class excel(Dialect):delimiter = ','quotechar = '"'escapechar = Nonedoublequote = Trueskipinitialspace = Falselineterminator = '\r\n'quoting = QUOTE_MINIMAL

SETTINGS 意义:

  • quotechar - 指定一个字符作为 quoting character (引号符);
  • delimiter - 指定一个字符作为字段 separator (分隔符) ;
  • skipinitialspace - 如何解释 whitespace which immediately follows a delimiter,如果为 False,则把分隔符后的空格当作字段值的一部分;
  • lineterminator - 结束一行的字符序列,应该是 '\n' 之类的;
  • quoting - 控制 writer 函数给字段值加引号的规则,可以是以下 module constants
    ~~~~     csv.QUOTE_MINIMAL = 0 – 必要时才加引号,例如,当字段值包含引号或分隔符时;
    ~~~~     csv.QUOTE_ALL = 1“always” 加引号;
    ~~~~     csv.QUOTE_NONNUMERIC = 2 – 非数字的字段值加引号;
    ~~~~     csv.QUOTE_NONE = 3never 加引号;
  • escapechar - 指定在引号设置为 QUOTE_NONE 时用于转义分隔符的字符;
  • doublequote - 处理字段内部的引号,如果为 True,读文件时两个连续的引号解释为一个,写入时每个引号写成两个。

还有两个定义好的 Dialect 类:

class excel_tab(excel):"""Describe the usual properties of Excel-generated TAB-delimited files."""delimiter = '\t'
register_dialect("excel-tab", excel_tab)class unix_dialect(Dialect):"""Describe the usual properties of Unix-generated CSV files."""delimiter = ','quotechar = '"'doublequote = Trueskipinitialspace = Falselineterminator = '\n'quoting = QUOTE_ALL
register_dialect("unix", unix_dialect)

如果想自己定义 Dialect,只需要模仿着继承 class Dialect 就行。然后就是注册。

注册 register_dialect("unix", unix_dialect)

def register_dialect(name, dialect=None, **fmtparams=None): # real signature unknown; restored from __doc__"""Create a mapping from a string name to a dialect class.dialect = csv.register_dialect(name[, dialect[, **fmtparams]])"""pass

注册 Dialect,就是给定义的 Dialect 关联一个字符串名字,以便以类似 dialect='excel' 的方式设置参数,当然直接给类或实例也是可以的。

Dialect 类中的参数可以直接以 **kwargs 键值对的方式送到 csv.reader() 函数中。

Dialect 相关的几个函数

这些都是 PyCharm 根据文档生成的函数伪标签:

def get_dialect(name): # real signature unknown; restored from __doc__"""Return the dialect instance associated with name.dialect = csv.get_dialect(name)打印出来得到类似 <_csv.Dialect object at 0x000002606C5EC990> 的东西"""pass
def list_dialects(): # real signature unknown; restored from __doc__"""Return a list of all know dialect names.names = csv.list_dialects()已注册的 Dialect 列表吧"""pass
def register_dialect(name, dialect=None, **fmtparams=None): # real signature unknown; restored from __doc__"""Create a mapping from a string name to a dialect class.dialect = csv.register_dialect(name[, dialect[, **fmtparams]])"""passdef unregister_dialect(name): # real signature unknown; restored from __doc__"""Delete the name/dialect mapping associated with a string name.csv.unregister_dialect(name)"""pass

试验:

class B(csv.excel):delimiter = 'b'  # 设置字符 b 为分隔符csv.register_dialect('b', B)  # 注册名为 b
print(csv.list_dialects())### output ###
['excel', 'excel-tab', 'unix', 'b']  # 多了一个 `b`

2. 几个函数

def field_size_limit(limit=None):  # real signature unknown; restored from __doc__"""Sets an upper limit on parsed fields. csv.field_size_limit([limit])Returns old limit. If limit is not given, no new limit is set andthe old limit is returned"""pass

设置了字段的最大长度,如果超过 limit,则报错:

_csv.Error: field larger than field limit (limit值)

1.3 写 csv 文件

def writer(fileobj, dialect='excel', *args, **kwargs): # real signature unknown; NOTE: unreliably restored from __doc__ """csv_writer = csv.writer(fileobj [, dialect='excel'] [optional keyword args])for row in sequence:csv_writer.writerow(row)[or]csv_writer = csv.writer(fileobj [, dialect='excel'] [optional keyword args])csv_writer.writerows(rows)The "fileobj" argument can be any object that supports the file API."""pass

试一试:

sequence = [['A', 18, 'Zhoukou'],['B', 19, 'Nanjing']
]
with open('./demo.csv', 'w') as csvfile:csv_writer = csv.writer(csvfile, quoting=csv.QUOTE_NONNUMERIC)for row in sequence:csv_writer.writerow(row)csv_writer.writerows(sequence)

发现文件内容变成了:

"A",18,"Zhoukou""B",19,"Nanjing""A",18,"Zhoukou""B",19,"Nanjing"

即是覆盖写入的,如果把 open('./demo.csv', 'w') 中的 'w' 改成 'a',就可以追加写入了。再一次证实了 csv.reader(...)csv.writer(...) 只是包装了文件读写对象

io.TextIOWrapper

关于 io.TextIOWrapper,GPT3.5 给出的教程
TextIOWrapper 是一个文本文件包装器,它用于对字节流进行编码和解码,完成文本和字节流的相互转换,并允许以文本形式读取或写入文件。用法:

  • 创建 TextIOWrapper 对象:
import io# 打开二进制文件并创建 TextIOWrapper 对象
with open('./data/demo.csv', 'rb') as binary_file:  # io.BufferedReadertext_file = io.TextIOWrapper(binary_file, encoding='utf-8')# 通过 TextIOWrapper 对象读取文本内容content = text_file.read()print(content)

在上述示例中,我们首先使用 open() 函数打开一个以二进制模式(‘rb’)读取的文件(type(binary_file)==io.BufferedReader),并将其传递给 TextIOWrapper 的构造函数。我们还指定了所使用的编码方式(encoding='utf-8')。这样就创建了一个 TextIOWrapper 对象 text_file,可以以文本形式读取文件内容。

  • TextIOWrapper 对象写入文本内容也是一样的,只是它包装一个写入流 open('./data/demo.csv', 'wb')

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/230976.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

关于目标检测任务中,XML(voc格式)标注文件的可视化

1. 前言 最近在弄关于目标检测的任务&#xff0c;因为检测的图片和标签是分开的&#xff0c;可视化效果不明显&#xff0c;也不知道随便下载的数据集&#xff0c;标注信息对不对。网上看了好多代码&#xff0c;代码风格和本人平时不同&#xff0c;看起来麻烦&#xff0c;也不知…

C#:如何产生一个临时文件

在我们实际编程中&#xff0c;经常有将内容写到一个临时文件的需要。 比如&#xff1a;将网络上的图片下载下来&#xff0c;获取到图片的一些信息。 代码如下&#xff0c;看结果可知&#xff1a; 临时文件都是保存在系统临时文件夹的目录下&#xff0c;临时文件的扩展名统一…

计算机毕业设计 基于Java的供应商管理系统的设计与实现 Java实战项目 附源码+文档+视频讲解

博主介绍&#xff1a;✌从事软件开发10年之余&#xff0c;专注于Java技术领域、Python人工智能及数据挖掘、小程序项目开发和Android项目开发等。CSDN、掘金、华为云、InfoQ、阿里云等平台优质作者✌ &#x1f345;文末获取源码联系&#x1f345; &#x1f447;&#x1f3fb; 精…

Java重修第二天—学习”方法“

通过学习本篇文章可以掌握如下知识 1、方法的定义 2、方法在计算机中的执行流程。 3、方法使用时常见问题 4、Java中方法的参数传递机制 5、方法重载 1 方法是什么 方法是一种语法结构&#xff0c;它可以把一段代码实现的某种功能封装起来&#xff0c;以便重复利用。 方…

代码+视频,手把手教你R语言使用forestploter包绘制单组及双组森林图

森林图在论文中很常见&#xff0c;多用于表示多因素分析中的变量与结果变量的比值效应&#xff0c;可以用图示的方法比较直观的绘制出来。既往我们在文章《R语言快速绘制多因素回归分析森林图&#xff08;1&#xff09;》已经介绍了怎么绘制森林图&#xff0c;但是绘图比较简单…

​电脑技巧:​笔记本电脑电流声的原因和解决方案

目录 一、音频设备接口接触不良 二、笔记本电源问题 三、笔记本电脑驱动程序问题 四、音频硬件问题 五、操作系统内部电磁干扰 六、最后总结 大家在日常生活当中&#xff0c;笔记本电脑已经成为我们工作、学习和娱乐的重要工具。但有时我们在使用过程中可能会遇到一个令人…

git回滚操作,常用场景

文章目录 git回滚操作1.git reset --hard 【版本号】2.回滚后的版本v2又想回到之前的版本v32.1 git reflog 3.git checkout -- 文件名4.git reset HEAD 文件名 git回滚操作 假设我们现在有三个版本 现在回滚一个版本 1.git reset --hard 【版本号】 发现只剩下两个版本了 2.…

git在本地创建dev分支并和远程的dev分支关联起来

文章目录 git在本地创建dev分支并和远程的dev分支关联起来1. 使用git命令2. 使用idea2.1 先删除上面建的本地分支dev2.2 通过idea建dev分支并和远程dev分支关联 3. 查看本地分支和远程分支的关系 git在本地创建dev分支并和远程的dev分支关联起来 1. 使用git命令 git checkout…

Spring Boot 3 集成 Thymeleaf

在现代的Web开发中&#xff0c;构建灵活、动态的用户界面是至关重要的。Spring Boot和Thymeleaf的结合为开发者提供了一种简单而强大的方式来创建动态的Web应用。本文将介绍如何在Spring Boot项目中集成Thymeleaf&#xff0c;并展示一些基本的使用方法。 什么是Thymeleaf&#…

2.HDFS 架构

目录 概述架构HDFS副本HDFS数据写入流程NN 工作原理DN 工作原理 结束 概述 官方文档快递 环境&#xff1a;hadoop 版本 3.3.6 相关文章速递 架构 HDFS HDFS 架构总结如下&#xff1a; a master/slave architecture 一主多从架构a file is split into one or more blocks a…

SylixOS各阶段代号说明

SylixOS已经历了多年更新迭代&#xff0c;每个阶段都会新增或完善一个重要领域&#xff0c;并命名一个代号&#xff0c;以表祝愿和纪念。

工具网站DefiLlama全攻略:从零学习链上数据使用与发现

DefiLlama 是一个 DeFi(去中心化金融)信息聚合器,其主要功能是提供各种 DeFi 平台的准确、全面数据。DefiLlama 致力于在不受广告或赞助内容影响的情况下为用户提供这些数据,以确保信息内容的透明度和公正性,该平台聚合来自多个区块链的数据,让用户能够全面了解 DeFi 格局…

全球海洋数据 (GLODAP) v2.2023(海洋碳数据产品)

全球海洋数据分析项目 (GLODAP) v2.2023 全球海洋数据分析项目 (GLODAP) v2.2023 代表了海洋生物地球化学瓶数据合成方面的重大进步。此更新主要关注海水无机碳化学&#xff0c;以 GLODAPv2.2022 为基础&#xff0c;包含多项关键增强功能。值得注意的是&#xff0c;增加了 43 …

大数据StarRocks(三) StarRocks数据表设计

1. 列式存储 1.1 列式存储方式有以下几个优点&#xff1a; 1.快速的数据查询 由于数据是按照列进行存储的&#xff0c;所以查询某个列时只需要读取该列所在的块&#xff0c;而不是整行数据&#xff0c;从而大大提高了查询效率。 2.压缩效率高 由于列式存储的数据块中只有一…

blender mix节点和它的混合模式

Mix 节点是一种用于混合两个颜色或者两个图像的节点&#xff0c;它有以下几个输入和输出&#xff1a; Color1&#xff1a;用于接收第一个颜色或者图像&#xff0c;也就是基色。Color2&#xff1a;用于接收第二个颜色或者图像&#xff0c;也就是混合色。Fac&#xff1a;用于控制…

一文讲透Stata计量经济学中如何分中东西区域回归?

stata如何分中东西区域回归本质上是异质性检验。 异质性检验即针对样本进行分类分组&#xff0c;基于各组样本分别开展的实证检验。异质性检验通常在基准回归之后&#xff0c;基准回归依据的是全部的样本&#xff0c;当基准回归得到的结果较为显著&#xff0c;即核心解释变量显…

2023年03月21日_chatgpt宕机事件的简单回顾

你能想象吗 ChatGPT挂了 昨天半夜呢 来自全球各地的用户纷纷发现 ChatGPT的网站弹出了报错警告的信息 然后立即就无法使用了 即使是有特权的plus账户也未能幸免 一时之间呢 chatgptdown的话题在Twitter刷屏 不少重度的用户表示很着急 有的用户说呢没了ChatGPT 这工作…

Vue3地图选点组件

Vue3地图选点组件 <template><div style"width: 100%; height: 500px"><div class"search-container"><el-autocompletev-model"suggestionKeyWord"class"search-container__input"clearable:fetch-suggestion…

Hadoop入门学习笔记——八、数据分析综合案例

视频课程地址&#xff1a;https://www.bilibili.com/video/BV1WY4y197g7 课程资料链接&#xff1a;https://pan.baidu.com/s/15KpnWeKpvExpKmOC8xjmtQ?pwd5ay8 Hadoop入门学习笔记&#xff08;汇总&#xff09; 目录 八、数据分析综合案例8.1. 需求分析8.1.1. 背景介绍8.1.2…

【C语言】计算机原码,反码,补码

机器数 一个数在计算机中的表现形式叫做机器数&#xff0c;这个数有正负之分&#xff0c;在计算机中用一个数的最高位&#xff08;符号位&#xff09;用来表示它的正负&#xff0c;其中0表示正数&#xff0c;1表示负数。 例如正数7&#xff0c;在计算机中用一个8位的二进制数…