学习网页:
Welcome to Python.orghttps://www.python.org/https://www.python.org/https://www.python.org/
Pandas函数库
Pandas是一个Python库,提供了大量的数据结构和数据分析工具,包括DataFrame和Series等。Pandas的函数非常丰富,可以用于数据的各种操作和处理。
以下是一些Pandas函数的基本用法:
-
读取数据:
pandas.read_csv(filename)
:读取CSV文件。pandas.read_excel(filename)
:读取Excel文件。pandas.read_sql(sql, con)
:从SQL数据库中读取数据。
-
数据清洗:
DataFrame.dropna()
:删除含有空值的行或列。DataFrame.fillna(value)
:填充空值。DataFrame.replace()
:替换值。
-
数据筛选:
DataFrame.loc[]
:基于标签进行筛选。DataFrame.iloc[]
:基于整数位置进行筛选。
-
数据排序:
DataFrame.sort_values()
:根据列的值进行排序。
-
数据聚合:
DataFrame.groupby()
:根据某一列或多列的值进行分组。DataFrame.agg()
:对分组后的数据进行聚合操作,如求和、求平均等。
-
数据重塑:
DataFrame.pivot()
:创建数据透视表。DataFrame.melt()
:将宽格式数据转换为长格式数据。
-
数据连接:
pandas.concat(objs, axis=0)
:沿着axis=0(即行方向)连接多个对象。
-
绘图:
DataFrame.plot()
:绘制图表。
-
缺失值处理:
DataFrame.dropna()
:删除含有空值的行或列。DataFrame.fillna()
:填充空值。
-
重复值处理:
DataFrame.drop_duplicates()
:删除重复的行。11.
- .时间序列处理:
pandas.to_datetime()
:将字符串、整数、浮点数或日期对象转换为日期时间对象。pandas.resample()
:对时间序列数据进行重采样。
12.其他常用函数:
DataFrame.info()
:显示DataFrame的信息概览。DataFrame.describe()
:显示DataFrame的描述统计信息。Series.map()
、Series.apply()
:对Series中的每个元素应用函数。DataFrame.apply()
、DataFrame.applymap()
:对DataFrame中的每个元素或每个单元格应用函数。
小结
这只是Pandas功能的一个子集,Pandas还有许多其他功能和函数,建议查看官方文档或相关教程以获得更全面的了解。
-
以下是一些Pandas函数的示例:
-
1、读取数据:
-
读取CSV文件:
python`import pandas as pd df = pd.read_csv('data.csv')`
-
读取Excel文件:
python`import pandas as pd df = pd.read_excel('data.xlsx')`
-
-
2、数据清洗:
-
删除空值:
python`df = df.dropna() # 删除含有空值的行或列`
-
填充空值:
python`df['column_name'].fillna(value='new_value', inplace=True) # 填充指定列的空值`
-
-
3、数据筛选和查询:
-
使用标签选择数据:
python`df = df.loc[df['column_name'] == 'value'] # 选择某一列中值为'value'的行`
-
-
4、数据排序:
-
根据某一列的值进行排序:
python`df = df.sort_values('column_name') # 对指定列进行升序排序`
-
-
5、数据聚合和统计:
python`df = df.groupby('column_name').sum() # 对按指定列分组的每组数据进行求和操作`
-
6、数据重塑和转换:
- 将宽格式数据转换为长格式数据:
```pythondf = df.melt('column_name') # 将宽表转换为长表,'column_name'为转换的键列
“举个栗子”
-
以下是一个使用Pandas进行数据处理的实际例子:
假设我们有一个包含员工信息的CSV文件,文件名为"employees.csv",内容如下:
id,name,age,department 1,Alice,28,Sales 2,Bob,30,Marketing 3,Charlie,25,HR 4,David,35,Sales 5,Eve,29,Marketing
我们想要对员工信息进行以下处理:
- 读取CSV文件并将其转换为DataFrame对象。
- 删除空值和重复行。
-
下面是相应的Pandas代码示例:
- 根据部门对员工进行分组,并计算每个部门的平均年龄。
- 筛选出平均年龄大于25岁的部门。
- 显示每个部门的员工人数。
import pandas as pd # 读取CSV文件 df = pd.read_csv('employees.csv') # 删除空值和重复行 df = df.dropna().drop_duplicates() # 根据部门对员工进行分组,并计算每个部门的平均年龄 average_age = df.groupby('department')['age'].mean() # 筛选出平均年龄大于25岁的部门 filtered_departments = average_age[average_age > 25].index.tolist() # 显示每个部门的员工人数 department_counts = df[df['department'].isin(filtered_departments)]['department'].value_counts() print(department_counts)
运行以上代码后,将输出每个部门的员工人数,其中平均年龄大于25岁的部门将被筛选出来。
- 将宽格式数据转换为长格式数据: