安装pandas
pip install pandas -i https://mirrors.aliyun.com/pypi/simple/
使用pandas
直接导入即可 import pandas as pd
pandas的数据结构
pandas提供了两种主要的数据结构:Series 和 DataFrame,类似于python提供list列表,dict字典,tuple元组等数据类型用于存储数据。
1. Series
Series 是一种一维的数组(类似于 Python 的列表),可以存储任何数据类型(整数、字符串、浮点数、Python对象等)。Series 是一种带有标签的数据结构,每个数据点都有一个索引。
创建 Series
创建的series结构,默认索引从0开始(像list的索引一样),但是可以指定索引。
1)从列表创建Series
import pandas as pd
data = [1,2,3,4,5]
s = pd.Series(data)
print(s)
2)从字典创建 Series,键作为索引
import pandas as pd
data_dict = {'a':1,'b':2,'c':3}
s = pd.Series(data_dict)
print(s)
3)指定索引创建Series
import pandas as pd
data = [1,2,3,4,5]
s = pd.Series(data, index=['a','b','c','d','e'])
print(s)
Series的基本属性
- values:返回 Series 中的数据值。
- index:返回 Series 中的索引。
- dtype:返回 Series 中数据的数据类型。
- name:返回或设置 Series 的名称。
举例:定义一个series接口数据并指定索引和名称
data =[[1, 2, 3], [4, 5,6]]
s = pd.Series(data, name='一维数组',index=['a','b'])
print(f'值:{s.values}')
print(f'索引:{s.index}')
print(f'数据类型 {s.dtype}')
print(f'名称 {s.name}')
2. DataFrame
DataFrame 是一个二维的表格数据结构,具有标记的轴(行和列)。其中每一列相当于一个Series。
创建 DataFrame
和Series结构一样默认索引从0开始,当然也可以指定索引。
1)从字典创建 DataFrame,字典的键是列名
import pandas as pd
data_dict = {'name': ['lilei','lili','wanglei'],
'age': [25,30,35],'city': ['shanghai','shenzhen','nanjing']}
df = pd.DataFrame(data_dict)
print(df)
2)从列表的列表创建DataFrame
data = [ ['lilei',25], ['lili',30], ['wanglei',35] ]
df = pd.DataFrame(data, columns=['Name','Age'])
print(df)
3)从Numpy 数组创建DataFrame并指定列名和索引
import numpy as np
data = np.array([[1, 2], [3, 4], [5, 6]])
df = pd.DataFrame(data, columns=['A','B'],index=['a','b','c'])
print(df)
Series和DataFrame数据的常用函数和功能
1)head(n):返回前 n 个元素,默认返回前5个
2)tail(n):返回后 n 个元素,默认返回后5个
3)unique():返回 Series 中的唯一值(去掉重复的值)
4)isnull():返回一个布尔 Series,指示每个值是否为 NaN
5)dropna():删除所有 NaN值(numpy.nan)或者None值,返回一个新的数据
举例:定义一个series结构数据,打印下上面方法获取的数据
data = [1,2,3,4,5,[6,7],[8],None,{'a':10}]
s = pd.Series(data)
print(f'前3个元素\n{s.head(3)}')
print(f'后3个元素\n{s.tail(3)}')
print(f'判断是否为null\n{s.isnull()}')
举例:定义一个series结构数据,打印删除NaN值后的数据
import numpy as np
data = [1,2,3,4,5,None,np.nan]
s = pd.Series(data)
new_s =s.dropna()
print(f'删除NaN值\n{new_s}')
举例:定义一个series结构数据,打印去重后的数据
data=[1,2,3,4,5,4,5,6]
s=pd.Series(data)
print(f'唯一值{s.unique()}')
6)to_dict函数:将DataFrame数据转换为字典
字典的键和值对应的是列名和列值
举例:读取csv文件内容,并转换为字典
import pandas as pd
dataframe = pd.read_csv("1.csv")
print(dataframe)
#将DataFrame数据格式转换为字典
print(dataframe.to_dict())
结果如下:
7)选择列数据
import pandas as pd
dataframe = pd.read_csv("1.csv")
-
选择某一列数据
print(dataframe[‘Name’])#选择Nmae这一列
print(dataframe.age)#选择Age这一列
#通过Ioc函数选择Name这一列
print(dataframe.loc[:,['Name']])
返回的某一列的数据类型是一个Series类型,对某列数据可以做循环打印该列的值。
for i in dataframe.Name:print(i)
-
选择多列
#选择Nmae,age这两列
print(dataframe[['Name','age']])
#通过loc()函数选择Name和age两列
print(dataframe.loc[:,['Name','age']])
8)选择行数据
使用方式类似于list的切片操作
print(dataframe[0:3])#取前3行数据
print(dataframe[-4:-2])#取倒数第4行和第5行
print(dataframe[0:10:2])#取前10行中每2行取1个
通过iIoc函数获取多行数据
print(dataframe.iloc[:10,:])#取前10行数据
9)选择指定的行和列数据
通过Ioc函数取某些行和列数据
print(dataframe.loc[0:3,['Name']])
print(dataframe.loc[0:3,['Name','age']])
10)按条件选择
举例:筛选age列大于25的数据
print(dataframe[dataframe.age > 25])
举例:筛选性别为男的数据
print(dataframe[dataframe.sex =='man'])
举例: 筛选索引等于0的数据
print(dataframe[dataframe.index == 0])
举例:筛选性别为男并age大于25的数据
print(dataframe[(dataframe.sex =='man') & (dataframe.age > 25)])
举例:筛选年龄大于25的Name这一列的数据
print(dataframe[dataframe.age > 25].loc[:,['Name']])
11)sort_values函数:使用该函数进行排序
参数介绍
- by:传入单个字符串或字符串列表(1个或者多个列名),表示按照列名进行排序。
- axis:默认为0。0表示按列的值排序,1表示按行的值排序;一般不使用
- ascending:布尔值或布尔值列表,默认为True。True表示升序排序,False表示降序排序。如果是一个列表,则列表中的每个元素对应by参数中每个列的排序顺序。
- inplace:布尔值,默认为False。如果为True,则直接修改原DataFrame并返回None;如果为False,则返回一个新的排序后的DataFrame副本。
- kind:排序算法的选择,默认为'quicksort'。其他选项包括'mergesort'和'heapsort'。对于大数据集,'quicksort'通常是最快的,但不一定是最稳定的。
- na_position:{'first', 'last'},默认为'last'。表示缺失值(NaN)应该被放在排序后的数组的开始还是结束。
- ignore_index:布尔值,默认为False。如果为True,则结果DataFrame的索引将被重置为默认的整数索引。
测试代码:
1)按列排序(升序)
print(dataframe.sort_values(by='Name'))
print(dataframe.sort_values(by=['Name','age']))
2)按列排序(倒序)
print(dataframe.sort_values(by='age',ascending=False))
3)不同列排列顺序不同(比如第一列正序,第二列倒序)
print(dataframe.sort_values(by=['Name','age'],ascending=[True,False]))
12)insert函数:插入列数据
插入某一列数据,参数j介绍:
-
loc: 传入整数,代表插入在第几列(0代表第1列)
-
column:列名
-
value:每列的值(单个值表示每一行值相同;传入列表,列表中的元素对应每一行的值)
-
allow_duplicates:为True表示允许列名重复,否则不允许
测试代码:
dataframe.insert(2,'area','China')
dataframe.insert(3,'area',['China','America','korea','japan','China',
'America','korea','japan'],allow_duplicates=True)
print(dataframe)
结果:
共勉: 东汉·班固《汉书·枚乘传》:“泰山之管穿石,单极之绠断干。水非石之钻,索非木之锯,渐靡使之然也。”
-----指水滴不断地滴,可以滴穿石头;
-----比喻坚持不懈,集细微的力量也能成就难能的功劳。
----感谢读者的阅读和学习,谢谢大家。