数据处理与统计分析篇-day05-Pandas详解

创建DaraFrame对象

概述

DataFrame是一个表格型的==结构化==数据结构，它含有一组或多组有序的列（Series），每列可以是不同的值类型（数值、字符串、布尔值等）。

DataFrame是Pandas中的最基本的数据结构对象，简称df；可以认为df就是一个二维数据表，这个表有行有列有索引
DataFrame是Pandas中最基本的数据结构，Series的许多属性和方法在DataFrame中也一样适用.

创建方式

字典方式创建

# 定义字典, 记录: 数据
my_dict = {'id': [1, 2, 3],'name': ['张三', '李四', '王五'],'age': [23, 21, 25]
}
# 将字典 => DataFrame对象
df1 = pd.DataFrame(my_dict)
print(df1)
print(type(df1))  # <class 'pandas.core.frame.DataFrame'>

列表+元组方式创建

# 定义列表, 记录: 数据
my_list = [(1, '张三', 23),      # 列表内嵌套的(元组或列表)是一行数据(2, '李四', 1),(3, '王五', 25)
]
# 将列表 => DataFrame对象
# columns: 指定列的顺序
# index: 指定索引的值
df3 = pd.DataFrame(data=my_list,columns=['id', 'name', 'age'],index=['x', 'y', 'z']
)
print(df3)
print(type(df3))  # <class 'pandas.core.frame.DataFrame'>

index与columns属性

# 定义字典, 记录: 数据
my_dict = {'id': [1, 2, 3],'name': ['张三', '李四', '王五'],'age': [23, 21, 25]
}
# 将字典 => DataFrame对象
# columns: 指定列的顺序
# index: 指定索引的值
df2 = pd.DataFrame(data=my_dict,columns=['name', 'id', 'age'],index=['x', 'y', 'z']
)
print(df2)
print(type(df2))  # <class 'pandas.core.frame.DataFrame'>

属性

# 读取文件, 获取df对象
df = pd.read_csv('data/scientists.csv')
df

print(df.shape)         # 维度(8, 5)
print(df.size)          # 元素个数
print(df.values)        # df对象 => ndarray
print(type(df.values))  # <class 'numpy.ndarray'>
print(df.dtypes)        # 各列元素的类型
print(df.ndim)          # 维度, 2
print(df.index)         # 获取所有的索引列(的值)
print(df.columns)       # 列名

函数

print(len(df))                  # 8, 行数
print(df.head())                # 默认前5行
print(df.head(n=2))             # 前2行
print(df.tail())                # 默认最后5行
print(df.tail(n=2))             # 后2行

df.info()                                   # 查看详细信息
print(df.describe())                        # 查看格列的统计信息(默认只查看数值列)
print(df.describe(include='all'))           # 查看格列的统计信息(查看所有列)
print(df.describe(include=['int', 'float']))# 查看整型和浮点型

print(df.count())       # 查看各列非空值
print(df.max())         # 查看各列最大值
print(df.min())         # 查看各列最小值

# print(df.mean())    # 报错, 只针对2020版conda环境有效(平均)
print(df.Age.mean())

布尔索引

# 过滤出df对象中, Age列大于平均年龄的行
# df[Age列 > Age列的平均值]
print(df.Age.mean())
# df[df.Age > df.Age.mean()]  # df对象的布尔值操作
df.Age[df.Age > df.Age.mean()]  # Series对象的布尔值操作

# 过滤出前5行中的, 第1, 3, 4行 => 索引:0, 2, 3
df.head()[[True, False, True, True, False]]     # 传入的是布尔列表

计算

# 场景1: df和数值计算(数值会和df对象的每个元素计算)
df * 2

# 场景2: df和df对象计算(优先参考索引)
df + df

df[:4]  # 类似切片, 获取前4行
df + df[:4]

索引和列名相关操作

设置和取消索引列

Pandas中99%关于DF和Series调整的API, 都会默认在副本上进行修改, 调用修改的方法后, 会把这个副本返回

这类API都有一个共同的参数: inplace, 默认值是False

如果把inplace的值改为True, 就会直接修改原来的数据, 此时这个方法就没有返回值了

# 在pandas中, 某个函数如果有 inplace参数, 则该函数大概率 是默认返回新的副本, 把该参数设置为true, 则在原始对象中修改
# 1. 演示读完设置索引列
movie = pd.read_csv('data/movie.csv')
movie.head()

# 设置 movie_title为索引列(分步)
movie.set_index('movie_title')              # 默认返回新的副本
movie.head()        

new_movie = movie.set_index('movie_title')  # 默认返回新的副本
new_movie.head()        

movie.set_index('movie_title', inplace=True)  # 在原始对象中修改
movie.head()    # 多次运行会报错 "None of ['movie_title'] are in the columns"

# 2. 演示读时设置索引列
movie = pd.read_csv('data/movie.csv', index_col='movie_title')
movie.head()

# 3. 重置索引列
movie.reset_index(inplace=True)
movie.head()

修改列名和行名

rename()

df = pd.read_csv('data/movie.csv', index_col='movie_title')
df.head()

# 手动设置行名(索引列) 和 列名
idx_name = {'Avatar':'阿凡达', "Pirates of the Caribbean: At World's End":'加勒比'}
col_name = {'color':'颜色', 'director_name':'导演名'}

# 通过rename函数, 修改行名和列名
df.rename(index=idx_name, columns=col_name, inplace=True)
df.head()

index和columns属性

df = pd.read_csv('data/movie.csv', index_col='movie_title')
df.head()

# 获取所有行名 和 列名
idx_list = df.index.to_list()
col_list = df.columns.to_list()

# 修改行名和列名
# 索引列
idx_list[0] = '阿凡达'
idx_list[1] = '加勒比'
# 列名
col_list[0] = '颜色'
col_list[1] = '导演名' 

# 把修改后的行名和列名设置为新的索引列 和 列名
df.index = idx_list
df.columns = col_list

df.head()

添加列

末尾添加

# df = pd.read_csv('data/movie.csv', index_col='movie_title')
df = pd.read_csv('data/movie.csv')
df.head()
#%%
# 1. 添加列: df对象[列名] = 值
df['has_seen'] = 1
# 总点赞数 = 导演点赞数 + 演员的点赞数
df['daafl'] = df['director_facebook_likes'] + df['actor_1_facebook_likes'] + df['actor_2_facebook_likes']
df.head()

指定位置插入

# 在索引为1的位置, 插入1列, 总利润 = 总收入 - 总预算
# insert()函数在原对象中修改
df.insert(loc=1, column='profix', value=df['gross'] - df['budget'])
df.head()

删除列

# df.drop('has_seen', inplace=True, axis='columns')

df.head().drop([0, 1])      # [索引值列表]

进阶-获取指定的数据

导出

# 细节: 如果使用Excel文件, 记得先装3个包, xlwt, openyxl, xlrd

# 1. 读取文件, 获取df对象.
df = pd.read_csv('data/scientists.csv')
df
#%%
# 2. 演示导出数据到文件中.  
# 要求: 导出文件到 当前项目下的 output 文件夹下.   
# 导出的格式: df.to_文件格式()

# 前提: output文件夹必须存在.
df.to_pickle('output/scientists.pickle')        # pickle文件 一般用于存储 pandas的 中间结果. 
df.to_csv('output/scientists.csv')              # 细节: 索引列也会导出
df.to_csv('output/scientists_noindex.csv', index=False)   # 细节: 不导出索引列
df.to_csv('output/scientists_noindex.tsv', index=False, sep='\t')   # sep: 分隔符

df.to_excel('output/scientists.xlsx')
df.to_excel('output/scientists_noindex.xlsx', index=False, sheet_name='ai21')
print('导出成功!')

导入

# 1. 读取文件, 获取df对象
# df = pd.read_pickle('output/scientists.pickle')# df = pd.read_csv('output/scientists.csv')
# df = pd.read_csv('output/scientists_noindex.csv')
# df = pd.read_csv('output/scientists_noindex.tsv', sep='\t') # 读取tsv的时候, 指定分隔符

# df = pd.read_excel('output/scientists.xlsx')

# 如果不写表名, 则默认读取第1个表, 如果写了, 则读取指定的表. 可以是一张表, 也可以是多张表.
# 1张表的情况下, 返回的是: df对象.
# 多张表的情况下, 返回的是: 字典, 即: 表名做键, 该表的df对象做值.
df = pd.read_excel('output/scientists_noindex.xlsx', sheet_name=['pandas_dara', 'Sheet1'])

#%%
# 2. 查看结果
df          # 字典
df['Sheet1']  # df对象