pandas是Python的扩展库(第三方库),为Python编程语言提供 高性能、易于使用的数据结构和数据分析工具。
pandas官方文档:User Guide — pandas 2.2.2 documentation (pydata.org)
帮助:可使用help(...)查看函数说明文档(若是第三方库的函数,需先导入库)。例如:help(pd.DataFrame),help(pd.concat)
Python代码中,导入pandas:
import pandas as pd
1、排序
(1-1)按索引排序:sort_index
sort_index(self, axis: 'Axis' = 0, level: 'Level | None' = None, ascending: 'bool | int | Sequence[bool | int]' = True, inplace: 'bool' = False, kind: 'str' = 'quicksort', na_position: 'str' = 'last', sort_remaining: 'bool' = True, ignore_index: 'bool' = False, key: 'IndexKeyFunc' = None)
注:默认axis=0 按行轴(按索引)排序,ascending=True 升序,inplace=False 不替换原DataFrame,na_position='last' NaN值在最后。
- DataFrame.sort_index( ):按索引升序排列,默认NaN值在最后。
- DataFrame.sort_index(ascending=False, na_position='first'):按索引降序排列,NaN值在最前面。
- DataFrame.sort_index(key=函数):索引先传入函数操作,再按操作过的索引升序排列,默认NaN值在最后。
- DataFrame.sort_index( ):多索引,按第一列索引升序排列。
- DataFrame.sort_index(ascending=False):多索引,按第一列索引降序排列。
- DataFrame.sort_index(level=指定索引列号):多索引,按指定索引列升序排列,默认其他索引也接着排序。
- DataFrame.sort_index(level=指定索引列号, sort_remaining=False):多索引,按指定索引列升序排列,其他索引不排序。
- DataFrame.sort_index(key=函数):索引先传入函数操作,再按操作过的索引升序排列。
- 注:参数na_position对多索引不适用。
参数axis默认为0,按行索引排序。若axis=1,则按列索引排序。
(1-2)按数值排序:sort_values
sort_values(self, by, axis: 'Axis' = 0, ascending=True, inplace: 'bool' = False, kind: 'str' = 'quicksort', na_position: 'str' = 'last', ignore_index: 'bool' = False, key: 'ValueKeyFunc' = None)
注:默认axis=0 按行轴排序,ascending=True 升序,inplace=False 不替换原DataFrame,na_position='last' NaN值在最后。
- DataFrame.sort_values(by=指定列 ):按指定列(多列,用列表表示)升序排列,默认NaN值在最后。
- DataFrame.sort_values(by=指定列, ascending=False, na_position='first'):按指定列(多列,用列表表示)降序排列,NaN值在最前面。
- DataFrame.sort_values(by=指定列, key=函数):指定列的数据先传入函数操作,再按操作过的数据升序排列,默认NaN值在最后。
参数axis默认为0,按指定列的数据排序。若axis=1,则按指定行的数据排序。
(1-3)指定列升序排序,显示前n行:nsmallest
nsmallest(self, n: 'int', columns: 'IndexLabel', keep: 'str' = 'first') -> 'DataFrame'
- DataFrame.nsmallest(n, 指定列名):按指定列升序排列,并显示前n行。
- DataFrame.nsmallest(n, 指定列名, keep=重复数据指定显示方式):按指定列升序排列,并显示前n行,若指定列数据相同,默认keep='first' 按数据顺序显示。若keep='last' 按数据倒序显示,若keep='all' 按顺序显示所有相同数据。
- 注:DataFrame.nsmallest(n, 指定列名) 等同于DataFrame.sort_values(指定列名, ascending=True).head(n),但nsmallest性能更高。
若多列排序,排序列含有NaN,则NaN也会显示出来。
只能对数值列排序。
(1-4)指定列降序排序,显示前n行:nlargest
nlargest(self, n: 'int', columns: 'IndexLabel', keep: 'str' = 'first') -> 'DataFrame'
- DataFrame.nlargest(...) 同DataFrame.nsmallest(...) 用法相同,区别是nsmallest升序排列,nlargest降序排列。
- 注:DataFrame.nlargest(n, 指定列名) 等同于 DataFrame.sort_values(指定列名, ascending=False).head(n),但nlargest性能更高。
2、重复值
(2-1)判断重复值:duplicated
duplicated(self, subset: 'Hashable | Sequence[Hashable] | None' = None, keep: "Literal['first'] | Literal['last'] | Literal[False]" = 'first') -> 'Series'
注:默认subset=None 整行比对,keep='first' 第一次出现的数据为False 其他重复出现的为True。
- DataFrame.duplicated( ):默认比对整行,整行相同则为重复值,默认keep='first' 除了第一次出现的为False,其他为True。
- DataFrame.duplicated(keep='last'):默认比对整行,整行相同则为重复值,除了最后一次出现的为False,其他为True。
- DataFrame.duplicated(keep=False):默认比对整行,整行相同则为重复值,只要是重复值就为True。
- DataFrame.duplicated(subset=列名):比对指定列(多列,用列表形式),数据相同则为重复值,除了第一次出现的为False,其他为True。
(2-2)删除重复值:drop_duplicates,[~ ... ]
drop_duplicates(self, subset: 'Hashable | Sequence[Hashable] | None' = None, keep: "Literal['first'] | Literal['last'] | Literal[False]" = 'first', inplace: 'bool' = False, ignore_index: 'bool' = False) -> 'DataFrame | None'
注:默认subset=None 整行比对,keep='first' 保留第一次出现的数据,inplace=False 不替换原DataFrame,ignore_index=False 使用原索引标签。
- DataFrame.drop_duplicates( ):默认比对整行,整行相同则为重复值,默认keep='first' 保留第一次出现的,其他删除。
- DataFrame.drop_duplicates(keep='last'):默认比对整行,整行相同则为重复值,保留最后一次出现的,其他删除。
- DataFrame.drop_duplicates(keep=False):默认比对整行,整行相同则为重复值,只要是重复值就删除。
- DataFrame.drop_duplicates(subset=列名):比对指定列(多列,用列表形式),数据相同则为重复值,保留第一次出现的,其他删除。
DataFrame.duplicated(...),默认第一次出现的为False,其他重复出现的为True。
布尔数组作为索引将保留True的行,但实际应删除True(重复出现的)保留False(第一次出现的)。因此需取反,使用Tab键上方的~键,即DataFrame[~DataFrame.duplicated(...)]。
- DataFrame[~DataFrame.duplicated(...)]:按duplicated的布尔结果取反删除重复值。
(2-3)统计不同的行 出现次数:value_counts
value_counts(self, subset: 'Sequence[Hashable] | None' = None, normalize: 'bool' = False, sort: 'bool' = True, ascending: 'bool' = False, dropna: 'bool' = True)
注:默认subset=None 整行比对,normalize=False 显示出现频率,sort=True 将频率排序,ascending=False 降序排列,dropna=True 忽略NaN。
- DataFrame.value_counts( ):整行比对,显示数据出现频率,按频率降序排列,忽略NaN。
- DataFrame.value_counts(sort=False):整行比对,显示数据出现频率,不排序(按列数据显示),忽略NaN。
- DataFrame.value_counts(ascending=True):整行比对,显示数据出现频率,按频率升序排列,忽略NaN。
- DataFrame.value_counts(normalize=True):整行比对,显示比例而不是频率,按比例降序排列,忽略NaN。
- DataFrame.value_counts(subset=列名, dropna=False):指定列比对,显示数据出现频率,按频率降序排列,不忽略NaN。
(2-4)统计指定轴上 不同数据的数量:nunique
nunique(self, axis: 'Axis' = 0, dropna: 'bool' = True) -> 'Series'
注:默认axis=0 按行轴查看(即各列不同数据的数量),dropna=True 忽略NaN。
- DataFrame.nunique( ):默认统计各列中不同数据的数量,忽略NaN。
- DataFrame.nunique(axis=1):默认统计各行中不同数据的数量,忽略NaN。
- DataFrame.nunique(dropna=False):统计各列中不同数据的数量,不忽略NaN。
3、缺省值处理(判断、填充、删除、替换)
缺省值:NaN(空值,非数值)。None和np.NaN都是缺省值。(np.nan和np.NaN一样都是NaN,需导入numpy,import numpy as np)
(3-1)判断缺省值:isna, isnull, notna, notnull
- DataFrame.isna( ):判断DataFrame中数据是否是NaN,若是NaN则为True,否则为False。
- DataFrame.isnull( ):isnull是isna的别名。
- DataFrame.notna( ):判断DataFrame中数据是否不是NaN,若不是NaN则为True,否则为False。
- DataFrame.notnull( ):notnull是notna的别名。
- 注:均返回DataFrame(数据为布尔值True/False)。
(3-2)填充缺省值:
(3-2-1)指定方式填充:fillna
fillna(self, value: 'object | ArrayLike | None' = None, method: 'FillnaOptions | None' = None, axis: 'Axis | None' = None, inplace: 'bool' = False, limit=None, downcast=None) -> 'DataFrame | None'
注:默认inplace=False 不替换原DataFrame。
- DataFrame.fillna(填充值):所有NaN值用指定填充值填充。
- DataFrame.fillna(method=填充方式):所有NaN值用指定填充方式填充。"backfill"或"bfill"都是用NaN所在位置下一行的数据填充,"ffill"或"pad"都是用NaN所在位置上一行的数据填充。
- DataFrame.fillna(method=填充方式, limit=填充次数, inplace=True):NaN值用指定填充方式填充指定次数,替换原DataFrame。
- DataFrame.fillna(method=填充方式, axis=1):所有NaN值用指定填充方式填充。指定axis=1,则"backfill"或"bfill"都是用NaN所在位置下一列的数据填充,"ffill"或"pad"都是用NaN所在位置上一列的数据填充。
- DataFrame.fillna(字典):字典中键为列名,填充值为列名对应的值。即将NaN值按照字典中相同键(列名)对应的值填充。
- DataFrame.fillna(另一个DataFrame):将NaN值按照另一个DataFrame的相同列名相同行索引位置的值填充。
补充:
- DataFrame.backfill( ):NaN值按该位置下一行的数据填充。若axis=1,则NaN值按该位置下一列的数据填充
- DataFrame.bfill( ):NaN值按该位置下一行的数据填充。若axis=1,则NaN值按该位置下一列的数据填充
- DataFrame.ffill( ):NaN值按该位置上一行的数据填充。若axis=1,则NaN值按该位置上一列的数据填充
- DataFrame.pad( ):NaN值按该位置上一行的数据填充。若axis=1,则NaN值按该位置上一列的数据填充
- 注:均默认inplace=False不替换原DataFrame,默认limit=None所有NaN填充。
(3-2-2)插值方式填充:interpolate
插值法:通过已知的离散的数据点,推算一定范围内新数据点的方法,常用于函数拟合。
线性关系:两个变量之间的关系用图形表示是一条直线。
线性插值法:通过连接两个已知点的直线,近似获取其他未知点的方法。
interpolate(self: 'DataFrame', method: 'str' = 'linear', axis: 'Axis' = 0, limit: 'int | None' = None, inplace: 'bool' = False, limit_direction: 'str | None' = None, limit_area: 'str | None' = None, downcast: 'str | None' = None, **kwargs) -> 'DataFrame | None'
注:默认method='linear' 线性,inplace=False 不替换原DataFrame。
- DataFrame.interpolate( ):线性填充NaN。
- DataFrame.interpolate(method='pad'):指定填充方法为'pad',使用NaN所在位置上一行数据填充。
- DataFrame.interpolate(axis=1):线性填充NaN,指定列轴即横向填充。
- DataFrame.interpolate(limit=填充个数, limit_direction=填充方向, limit_area=填充区域):线性填充NaN,指定填充个数(大于0),指定填充方向('forwar' 从前向后,'backward'从后向前,'both' 两个方向),指定填充区域('inside'有效值包围的NaN,'outside' 有效值之外的NaN)。
- 注:多索引,只能使用默认参数method='linear'。部分指定的method(例如:'krogh','barycentric'等),需要安装scipy。
(3-3)删除缺省值所在行/列:dropna
dropna(self, axis: 'Axis' = 0, how: 'str' = 'any', thresh=None, subset: 'IndexLabel' = None, inplace: 'bool' = False)
注:默认axis=0 按行查看,how='any' 只要有NaN整行删除(不能和参数thresh一起使用),inplace=False 不替换原DataFrame。
- DataFrame.dropna( ):只要有NaN,整行删除。
- DataFrame.dropna(axis=1):只要有NaN,整列删除。
- DataFrame.dropna(how='all'):整行数据都是NaN,整行删除。参数how不能和thresh一起使用。
- DataFrame.dropna(thresh=指定非NaN值):至少有指定数量的非NaN值,该行就保留,即非NaN值少于指定数量,整行删除。参数thresh不能和how一起使用。
- DataFrame.dropna(subset=指定列, inplace=True):查看指定列,该列数据只要有NaN整行删除,并替换原DataFrame。
(3-4)替换值:replace
replace(self, to_replace=None, value=<no_default>, inplace: 'bool' = False, limit=None, regex: 'bool' = False, method: 'str | lib.NoDefault' = <no_default>)
- DataFrame.replace(np.nan, 新值):将NaN值替换成新值。新值可用单个数据,也可列表或字典表示。
- DataFrame.replace(...) 除了替换NaN,可以替换其他数据,还可以用正则表达式替换值。此处忽略。
- 注:np.nan和np.NaN一样都是NaN,需导入numpy(import numpy as np)。
4、合并
(4-1)通过索引,连接另一个DataFrame/Series的列:join
join(self, other: 'DataFrame | Series', on: 'IndexLabel | None' = None, how: 'str' = 'left', lsuffix: 'str' = '', rsuffix: 'str' = '', sort: 'bool' = False) -> 'DataFrame'
注:默认通过索引连接。默认how='left' 左连接。
- DataFrame.join(df2, lsuffix=左列名后缀, rsuffix=右列名后缀):通过索引连接两个DataFrame的列。若列名相同,需设置左/右列名后缀。
- DataFrame.join(df2, how=连接方式):通过索引连接两个DataFrame的列,若列名相同,需设置左/右列名后缀。默认how='left' 左连接。'right' 右连接,'inner' 内连接,'outer' 外连接,'cross' 笛卡尔积。
- DataFrame.join(df2, on=连接列, how=连接方式):指定左DataFrame的连接列,右DataFrame需将连接列设为索引列,指定连接方式(默认左连接)。
how='left' | 左连接 | 按左DataFrame的索引, 右DataFrame没有索引对应的数据,则为NaN |
how='right' | 右连接 | 按右DataFrame的索引, 左DataFrame没有索引对应的数据,则为NaN,若对应多个数据则都显示 |
how='inner' | 内连接 | 两个DataFrame共同索引对应的数据 |
how='outer' | 外连接 | 两个DataFrame的所有索引,各索引对应的数据,没有为NaN |
how='cross' | 笛卡尔积 | X*Y,两个DataFrame的所有组合。 |
- DataFrame.join(Series):DataFrame可以通过索引连接Series。Series必须有name,且name作为列名。
(4-2)指定连接列,连接另一个DataFrame/Series的列:merge
merge(self, right: 'DataFrame | Series', how: 'str' = 'inner', on: 'IndexLabel | None' = None, left_on: 'IndexLabel | None' = None, right_on: 'IndexLabel | None' = None, left_index: 'bool' = False, right_index: 'bool' = False, sort: 'bool' = False, suffixes: 'Suffixes' = ('_x', '_y'), copy: 'bool' = True, indicator: 'bool' = False, validate: 'str | None' = None) -> 'DataFrame'
注:默认how='inner' 内连接。
- DataFrame.merge(df2, left_on=左连接列, right_on=右连接列):分别指定两个DataFrame的连接列(列名不同),默认内连接(两DataFrame连接列都有的数据)。
- DataFrame.merge(df2, left_on=左连接列, right_on=右连接列,how=连接方式):分别指定两个DataFrame的连接列(列名不同),指定连接方式。默认how='inner'内连接。'left'左连接,'right'右连接,'outer'外连接,'cross'笛卡尔积。
- DataFrame.merge(df2, left_on=左连接列, right_on=右连接列,how=连接方式, indicator=True):分别指定两个DataFrame的连接列(列名不同),指定连接方式,并多一列显示是哪一边的数据。
- DataFrame.merge(df2, on=连接列):指定两个DataFrame的连接列(列名相同),默认内连接(两DataFrame连接列都有的数据)。若只有连接列的列名相同,参数on可省略。
- DataFrame.merge(df2, on=连接列,how=连接方式):指定两个DataFrame的连接列(列名相同),指定连接方式。默认how='inner'内连接。'left'左连接,'right'右连接,'outer'外连接,'cross'笛卡尔积。
- DataFrame.merge(df2, on=连接列,how=连接方式, indicator=True):指定两个DataFrame的连接列(列名相同),指定连接方式,并多一列显示是哪一边的数据。
(4-3)尾部追加另一个DataFrame的行:append
append(self, other, ignore_index: 'bool' = False, verify_integrity: 'bool' = False, sort: 'bool' = False) -> 'DataFrame'
- DataFrame.append(df2):从DataFrame尾部追加另一个DataFrame,按列名追加。默认使用原索引。
- DataFrame.append(df2, ignore_index=True):从DataFrame尾部追加另一个DataFrame,按列名追加。忽略索引,使用从0开始的新索引。
- 注:append未来将会被移除,建议使用pd.concat(...)。
(4-4)指定轴,连接另一个DataFrame/Series的列/行:concat
concat(objs: 'Iterable[NDFrame] | Mapping[Hashable, NDFrame]', axis: 'Axis' = 0, join: 'str' = 'outer', ignore_index: 'bool' = False, keys=None, levels=None, names=None, verify_integrity: 'bool' = False, sort: 'bool' = False, copy: 'bool' = True) -> 'DataFrame | Series'
注:默认join='outer' 外连接。
- pd.concat(列表形式):使用列表形式表示需连接的对象。默认DataFrame按列名从尾部追加另一个DataFrame,默认使用原索引。
- pd.concat(列表形式, ignore_index=True, join=连接方式):使用列表形式表示需连接的对象。DataFrame按列名从尾部追加另一个DataFrame,指定连接方式,默认join='outer'外连接。'inner'内连接。忽略索引,则使用从0开始的新索引。
- pd.concat(列表形式, axis=1):使用列表形式表示需连接的对象。指定列轴则DataFrame按索引横向追加另一个DataFrame,使用原列名。
- pd.concat(列表形式, axis=1, ignore_index=True, join=连接方式):使用列表形式表示需连接的对象。指定列轴则DataFrame按索引横向追加另一个DataFrame,指定连接方式,默认join='outer'外连接。'inner'内连接。忽略索引,则使用从0开始的新列名。
5、分组:groupby
groupby(self, by=None, axis: 'Axis' = 0, level: 'Level | None' = None, as_index: 'bool' = True, sort: 'bool' = True, group_keys: 'bool' = True, squeeze: 'bool | lib.NoDefault' = <no_default>, observed: 'bool' = False, dropna: 'bool' = True) -> 'DataFrameGroupBy'
注:默认dropna=True 忽略NaN。
- DataFrame.groupby(指定列):按指定列分组。默认忽略NaN。按多个列分组,可用列表形式表示。
- 分组后进行聚合,若不指定列聚合,则只对数值型的列聚合。
- 分组后类型为DataFrameGroupBy。DataFrameGroupBy官方文档:GroupBy — pandas 2.2.2 documentation (pydata.org)
groupby一般和agg配合使用。agg在指定轴上使用多个操作进行聚合。
agg(self, func=None, axis: 'Axis' = 0, *args, **kwargs)
groupby可根据条件分组。
pandas 各函数官方文档:General functions — pandas 2.2.2 documentation (pydata.org)
DataFrame 各方法官方文档:DataFrame — pandas 2.2.2 documentation (pydata.org)
Series 各方法官方文档:Series — pandas 2.2.2 documentation (pydata.org)