【玩转pandas系列】pandas数据结构—DataFrame

文章目录

  • 前言
  • 一、DataFrame创建
    • 1.1 字典创建
    • 1.2 NumPy二维数组创建
  • 二、DataFrame切片
    • 2.1 行切片
    • 2.2 列切片
    • 2.3 行列切片
  • 三、DataFrame运算
    • 3.1 DataFrame和标量的运算
    • 3.2 DataFrame之间的运算
    • 3.3 Series和DataFrame之间的运算
  • 四、DataFrame多层次索引
    • 4.1 多层次索引构造
        • 1.隐式构造
        • 2.显式构造
    • 4.2 DataFrame多层索引的索引
        • 1.获取元素
        • 2.列索引&行索引
    • 4.3 DataFrame多层索引的切片操作
  • 五、索引的堆叠
  • 六、聚合操作
  • 结语
  • 相关导读

前言

大家好!我是一朵向阳花(花花花)🍭,本期跟大家分享的知识是 pandas 数据结构——DataFrame。

作者的【 Python 数据分析】专栏正在火热更新中🔥,如果本文对您有帮助,欢迎大家点赞 + 评论 + 收藏 !

每日金句分享:慢慢来,谁还没有一个努力的过程。』—— pony「网易云音乐」

一、DataFrame创建

DataFrame 是一个表格型的数据结构,DataFrame 既有行索引,又有列索引。

  • index行索引
  • column列索引
  • values二维 NumPy 数组

1.1 字典创建

字典创建时,字典的键变成 column ,值一般要是一个可迭代对象。

d = {'name':['John','marry','kitty','smith'],'age':[21,32,43,31]
}
df = pd.DataFrame(d)
df

1.2 NumPy二维数组创建

NumPy 二维数组创建时,只需要将二维数组赋值给 DataFrame 的 values,然后指定 index 行索引和 column 列索引即可。

df = pd.DataFrame(data=np.random.randint(10,100,size=(4,6)),index=['小明','小红','小黄','小绿'],columns=['语文','数学','英语','化学','物理','生物']
)
df

二、DataFrame切片

对于 DataFrame 的切片操作,因为是表格型,因此可以分为行切片,列切片,行列切片。

df = pd.DataFrame(data=np.random.randint(10,100,size=(4,6)),index=['小明','小红','小黄','小绿'],columns=['语文','数学','英语','化学','物理','生物']
)
print(df)

2.1 行切片

既然是切片,也是分为显式切片和隐式切片,下面分别演示。

显式切片:

df['小红':'小黄'] 
df.loc['小红':'小黄']

隐式切片:

df[1:3] # 数字是左闭右开
df.iloc[1:3]

2.2 列切片

对于列切片,即不管第一个维度(使用:,实现),需要特别注意的是,对列切片不能使用中括号 [] ,只能使用 lociloc

  • 显式切片
df.loc[:,'语文':'英语']


使用中括号报错:

  • 隐式切片
df.iloc[:,0:3]


使用中括号报错:

2.3 行列切片

行列切片同时涉及对行和对列的切片,因此,对行列切片也只有两种方式,loc & iloc

df.loc['小明':'小红','语文':'数学']

df.iloc[0:2,0:2]

三、DataFrame运算

3.1 DataFrame和标量的运算

DataFrame和标量之间的运算(±*/ // % **),正常对每个元素运算即可。

df1 = pd.DataFrame(data=np.random.randint(0,10,(2,3))
)
display(df1)
df1 + 10

3.2 DataFrame之间的运算

DataFrame的运算需要注意:

  • 1.DataFrame没有广播机制,因此它不会为缺失的行列补充数据
  • 2.如果索引对应,那么正常运算
  • 3.如果索引不对应,那么是 NaN
  • 4.如果想给没有索引的地方填充数据,使用 add 函数
df1 = pd.DataFrame(data=np.random.randint(0,10,(2,3))
)
df2 = pd.DataFrame(data=np.random.randint(0,10,(3,2))
)
display(df1,df2)
df1 + df2


使用 add 函数填充数据:

df1.add(df2,fill_value=0)

3.3 Series和DataFrame之间的运算

Series 的行索引会自动匹配 DataFrame 的列索引,匹配成功后,会对 DataFrame 的每一行都做相同的运算。

s = pd.Series([100,10,1],index=df1.columns)
df = pd.DataFrame(data=np.random.randint(2,10,(3,3)))
display(s,df)
df + s

四、DataFrame多层次索引

4.1 多层次索引构造

多层次索引创建包括隐式构造和显式构造,隐式构造是直接指定一个多维 index 和多维 column 的构造方式,显式构造是通过 MultiIndex 类来构造的,有三种方式,分别是 数组、元组、笛卡尔积

1.隐式构造
data = np.random.randint(0,100,size=(6,6))index = pd.MultiIndex.from_arrays([['一班','一班','一班','二班','二班','二班'],['张三','李四','王五','赵六','孙七','王八']
])columns = [['期中','期中','期中','期末','期末','期末'],['语文','数学','英语','语文','数学','英语']
]df = pd.DataFrame(data=data,index=index,columns=columns)
df

2.显式构造

显式构造在隐式构造的基础上,只改变 index ,不改变其他。

  • <1> 数组
index = pd.MultiIndex.from_arrays([['一班','一班','一班','二班','二班','二班'],['张三','李四','王五','赵六','孙七','王八']
])
  • <2> 元组
index = pd.MultiIndex.from_tuples((('一班','张三'),('一班','李四'),('一班','王五'),('二班','赵六'),('二班','孙七'),('二班','王八'))
)
  • <3> 笛卡尔积

笛卡尔积构造出来的是 2 x 3 = 6 个 index

index = pd.MultiIndex.from_product([['一班','二班'],['张三','李四','王五']
])

三种构造方法的运行结果和显式构造相同。

4.2 DataFrame多层索引的索引

1.获取元素

多层次索引中,如果使用 中括号 ,那么是列列行行;如果使用 loc ,那么是行列列行,如果使用 iloc ,那么是行列

还是使用上面构造的期中、期末成绩表格演示。

# 显式索引
print(df['期中']['语文']['一班']['张三'])
print(df.loc['一班']['期中']['语文']['张三'])
# 隐式索引
print(df.iloc[1])

2.列索引&行索引

只需要牢牢记住中括号 []lociloc 在多层索引中的使用规则即可。

df['期中']
df.loc['一班']['期中']
df.iloc[:,[1]]

4.3 DataFrame多层索引的切片操作

DataFrame 多层次索引切片较为复杂,可以参考这篇博客 【数据分析day03】pandas“层次化索引对象”的多层索引,切片,stack。

五、索引的堆叠

索引的堆叠是指将行变成列,或将列变成行的操作,列变行由 stack 函数实现,行变列由 unstack 函数实现。

stack:将列索引变成行索引,默认是将最里层的列索引变成行索引,可以通过level控制,level默认等于 -1 并且变成的行索引也是在最里层。

首先构造 dataframe 对象:

data = np.random.randint(0,100,size=(6,6))index = pd.MultiIndex.from_arrays([['一班','一班','一班','二班','二班','二班'],['张三','李四','王五','赵六','孙七','王八']
])columns = [['期中','期中','期中','期末','期末','期末'],['语文','数学','英语','语文','数学','英语']
]df = pd.DataFrame(data=data,index=index,columns=columns)
df


然后使用 stack 函数将列索引变成行索引:

df.stack()


和下列写法等价:

df.stack(level=-1)

将最外层列索引变成行索引:

df.stack(level=0)

unstack:将行索引变成列索引(反堆叠),并且变成的列索引在最里层

还是使用上面的 dataframe 对象,进行反堆叠:

df.unstack()

level 属性:level默认等于 -1 ,最外层是0,最往里数值越大,-1就是指最里层

fill_value 属性:是stack、unstack方法的属性,用于填充NaN值。

不填充空值时:

df.unstack(level=0)


添加 fill_value 属性填充:

df.unstack(level=0,fill_value=0)

六、聚合操作

dataframe 聚合操作就是指 dataframe 聚合函数,有 sum、mean、max、min 等,主要有两个属性:aixs 控制行列,level 控制层级

axis 属性:控制行列,axis = 0 表示行,axis = 1 表示列。

level 属性:控制层级,从外到里,依次增大,-1 表示最里层。

构造 dataframe 对象:

data = np.random.randint(0,100,size=(6,6))index = pd.MultiIndex.from_arrays([['一班','一班','一班','二班','二班','二班'],['张三','李四','王五','赵六','孙七','王八']
])columns = [['期中','期中','期中','期末','期末','期末'],['语文','数学','英语','语文','数学','英语']
]df = pd.DataFrame(data=data,index=index,columns=columns)
df


使用 sum 函数聚合:

df.sum()


和下列写法等价:

df.sum(axis=0)

保留第一层列,求行的和:

df.sum(axis=1,level=0)

结语

💕 本期跟大家分享的 “芝士” 就到此结束了,关于 DataFrame 数据结构,你学会了吗?✨

🍻 我是向阳花花花花,在学习的路上一直前行,期待与你一起进步。~ 🍻

🔥 如果文中有些地方不清楚的话,欢迎联系我,我会给大家提供思路及解答。🔥

相关导读

文章直达链接
上期回顾【数据分析 - 基础入门之pandas篇②】- pandas数据结构——Series

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/278047.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

软考高级:架构描述语言 ADL 概念和例题

作者&#xff1a;明明如月学长&#xff0c; CSDN 博客专家&#xff0c;大厂高级 Java 工程师&#xff0c;《性能优化方法论》作者、《解锁大厂思维&#xff1a;剖析《阿里巴巴Java开发手册》》、《再学经典&#xff1a;《Effective Java》独家解析》专栏作者。 热门文章推荐&am…

【Linux】Ubuntu使用Netplan配置静态/动态IP

1、说明 Ubuntu 18.04开始,Ubuntu和Debian移除了以前的ifup/ifdown命令和/etc/network/interfaces配置文件,转而使用ip link set或者/etc/netplan/01-netcfg.yaml模板和sudo netplan apply命令实现网络管理。 Netplan 是抽象网络配置描述器,用于配置Linux网络。 通过netpla…

旧华硕电脑开机非常慢 电脑开机黑屏很久才显示品牌logo导致整体开机速度非常的慢怎么办

前提条件 电池需要20&#xff05;&#xff08;就是电池没有报废&#xff09;且电脑接好电源&#xff0c;千万别断电&#xff0c;电脑会变成砖头的 解决办法 更新bios即可解决&#xff0c;去对应品牌官网下载最新的bios版本就行了 网上都是一些更新驱动啊

【Godot4.2】颜色完全使用手册

概述 本篇简单汇总Godot中的颜色的构造和使用&#xff0c;内容包括了&#xff1a; RGB、RGBA&#xff0c;HSV以及HTML16进制颜色值、颜色常量等形式构造颜色颜色的运算以及取反、插值用类型化数组、紧缩数组或PNG图片形式存储多个颜色 构造颜色 因为颜色是一种视觉元素&…

8-图像缩放

其实&#xff0c;就是开辟一个zoomwidth&#xff0c;zoomheight的内存&#xff0c;再分别赋值即可。 void CDib::Scale(float xZoom, float yZoom) { //指向原图像指针 LPBYTE p_data GetData(); //指向原像素的指针 LPBYTE lpSrc; //指向缩放图像对应像素的指针 LPBYTE lpDs…

基于grafana+elk等开源组件的 云服务监控大屏架构

本套大屏,在某云服务大规模测试环境,良好运行3年. 本文主要展示这套监控大屏的逻辑架构.不做具体操作与配置的解释. 监控主要分为三部分: 数据展示部分数据存储数据采集 1. 数据展示 数据展示方面主要使用grafana 2. 数据存储 根据数据种类和特性和用途的不同,本套监控采用…

Mysql的行级锁

MySQL 中锁定粒度最小的一种锁&#xff0c;是 针对索引字段加的锁 &#xff0c;只针对当前操作的行记录进行加锁。 行级锁能大大减少数据库操作的冲突。其加锁粒度最小&#xff0c;并发度高&#xff0c;但加锁的开销也最大&#xff0c;加锁慢&#xff0c;会出现死锁。行级锁和存…

Vue项目的搭建

Node.js 下载 Node.js — Download (nodejs.org)https://nodejs.org/en/download/ 安装 测试 winR->cmd执行 node -v配置 在安装目录下创建两个子文件夹node_cache和node_global,我的就是 D:\nodejs\node_cache D:\nodejs\node_global 在node_global文件下再创建一个…

ArkTS 基础组件

目录 一、常用组件 二、文本显示&#xff08;Text/Span) 2.1 创建文本 2.2 属性 2.3 添加子组件(Span) 2.4 添加事件 三、按钮&#xff08;Button&#xff09; 3.1 创建按钮 3.2 设置按钮类型 3.3 悬浮按钮 四、文本输入&#xff08;TextInput/TextArea&#xff09;…

Flask学习(四):路由转换器

默认的路由转换器&#xff1a; string &#xff08;缺省值&#xff09; 接受任何不包含斜杠的文本int接受正整数float接受正浮点数 path类似 string&#xff0c;但可以包含斜杠uuid接受 UUID 字符串 代码示例&#xff1a; app.route(/user/<username>) def show_u…

2024 年(第 12 届)“泰迪杯”数据挖掘挑战赛——B 题:基于多模态特征融合的图像文本检索完整思路与源代码分享

一、问题背景 随着近年来智能终端设备和多媒体社交网络平台的飞速发展&#xff0c;多媒体数据呈现海量增长 的趋势&#xff0c;使当今主流的社交网络平台充斥着海量的文本、图像等多模态媒体数据&#xff0c;也使得人 们对不同模态数据之间互相检索的需求不断增加。有效的信…

【GPT-SOVITS-06】特征工程-HuBert原理

说明&#xff1a;该系列文章从本人知乎账号迁入&#xff0c;主要原因是知乎图片附件过于模糊。 知乎专栏地址&#xff1a; 语音生成专栏 系列文章地址&#xff1a; 【GPT-SOVITS-01】源码梳理 【GPT-SOVITS-02】GPT模块解析 【GPT-SOVITS-03】SOVITS 模块-生成模型解析 【G…

大数据 - Spark系列《十四》- spark集群部署模式

Spark系列文章&#xff1a; 大数据 - Spark系列《一》- 从Hadoop到Spark&#xff1a;大数据计算引擎的演进-CSDN博客 大数据 - Spark系列《二》- 关于Spark在Idea中的一些常用配置-CSDN博客 大数据 - Spark系列《三》- 加载各种数据源创建RDD-CSDN博客 大数据 - Spark系列《…

《前端系列》之前端学习路线

目录 1 前言2 前端学习路线2.1 入门阶段2.1.1 HTML2.1.2 CSS2.1.3 JavaScript2.1.4 网络基础 2.2 基础阶段2.2.1 前端框架2.2.2 深入JavaScript2.2.3 ES62.2.4 工程化知识 2.3 进阶阶段2.3.1 CSS2.3.2 Javascript2.3.3 单元测试2.3.4 性能优化 3 总结 1 前言 在技术更新迭代发…

Python数学建模-2.5Pandas库介绍

2.5.1Pandas基本操作 Pandas是一个强大的Python数据分析库&#xff0c;它提供了快速、灵活且富有表现力的数据结构&#xff0c;设计初衷是为了处理关系型或标记型数据。Pandas的基本操作涵盖了数据的读取、处理、筛选、排序、分组、合并以及可视化等多个方面。 以下是一些Pan…

【从零开始学习数据结构 | 第一篇】树

目录 前言&#xff1a; 树&#xff1a; 树结点之间的关系描述&#xff1a; 树的常见属性&#xff1a; 森林&#xff1a; ​编辑树的性质&#xff1a; 总结&#xff1a; 前言&#xff1a; 当谈论数据结构时&#xff0c;树&#xff08;Tree&#xff09;是一种极为重要且常…

测试人员Bug书写规范

&#x1f4cb; 个人简介 作者简介&#xff1a;大家好&#xff0c;我是凝小飞&#xff0c;软件测试领域作者支持我&#xff1a;点赞&#x1f44d;收藏⭐️留言&#x1f4dd; 在测试人员日常工作中&#xff0c;关于bug的编写和定义是一个比较经常的工作&#xff0c;如果bug编写描…

在Linux/Ubuntu/Debian中使用7z压缩和解压文件

要在 Ubuntu 上使用 7-Zip 创建 7z 存档文件&#xff0c;你可以使用“7z”命令行工具。 操作方法如下&#xff1a; 安装 p7zip&#xff1a; 如果你尚未在 Ubuntu 系统上安装 p7zip&#xff08;7-Zip 的命令行版本&#xff09;&#xff0c;你可以使用以下命令安装它&#xff1a;…

研究生总结

Note:本博客更多是关于自己的感悟&#xff0c;没有翻阅文件详细查证&#xff0c;如果存在错过&#xff0c;也请提出指正。 1. 半监督回归 相比于半监督分类&#xff0c;半监督回归相对冷门。回归和分类之间有着难以逾越的天谴&#xff0c;预测精度。分类中的类别是可数的&…

JS原型和原型链的理解

原型链图&#xff0c;图中Parent是构造函数&#xff0c;p1是通过Parent实例化出来的一个对象 前置知识 js中对象和函数的关系&#xff0c;函数其实是对象的一种 函数、构造函数的区别&#xff0c;任何函数都可以作为构造函数&#xff0c;但是并不能将任意函数叫做构造函数&…