文章目录
- pandas基本使用
- 一、引言
- 二、安装与导入
- 1、安装 Pandas
- 2、导入 Pandas
- 三、创建数据表
- 1、创建 DataFrame
- 2、查看数据
- 3、数据操作
- 1.1、数据筛选
- 1.2、数据排序
- 1.3、数据分组
- 四、数据清洗
- 1、处理缺失值
- 2、删除重复值
- 五、数据导出
- 1、导出到 CSV
- 2、导出到 Excel
- 四、总结
pandas基本使用
一、引言
Pandas 是基于 Python 的一个开源数据分析库,它提供了快速、灵活以及富有表达力的数据结构,旨在使数据清洗和分析工作变得更加简单易行。Pandas 包含了 Series 和 DataFrame 两种主要的数据结构,可以用于处理结构化数据。Pandas 广泛用于数据挖掘和数据分析,同时也非常适合处理现实世界中的数据。
二、安装与导入
1、安装 Pandas
在开始使用 Pandas 之前,需要先安装它。可以通过 pip 命令轻松安装:
pip install pandas
2、导入 Pandas
在 Python 代码中使用 Pandas 时,通常使用 pd
作为别名:
import pandas as pd
三、创建数据表
1、创建 DataFrame
DataFrame 是 Pandas 中用于数据处理和分析的主要数据结构,类似于 Excel 中的表格。可以手动创建一个 DataFrame,也可以从外部数据源如 CSV 文件、数据库等导入数据。
data = {'City': ['Beijing', 'Shanghai', 'Guangzhou', 'Shenzhen'],'Population': [21500000, 24200000, 13500000, 10700000],'Area': [16410, 6340, 7434, 1996]
}
df = pd.DataFrame(data)
2、查看数据
可以使用 head()
和 tail()
方法来查看 DataFrame 的前几行或后几行数据。
print(df.head()) # 查看前五行
print(df.tail()) # 查看后五行
3、数据操作
Pandas 提供了丰富的数据操作功能,包括数据筛选、排序、分组等。
1.1、数据筛选
可以基于条件来筛选数据:
filtered_data = df[df['Population'] > 20000000]
print(filtered_data)
1.2、数据排序
可以对 DataFrame 进行排序:
sorted_data = df.sort_values(by='Population', ascending=False)
print(sorted_data)
1.3、数据分组
可以使用 groupby
方法对数据进行分组:
grouped_data = df.groupby('City')
print(grouped_data)
四、数据清洗
Pandas 在数据清洗方面也非常强大,可以轻松处理缺失值、重复值等。
1、处理缺失值
可以使用 fillna()
方法填充缺失值:
df.fillna(value=0, inplace=True)
2、删除重复值
可以使用 drop_duplicates()
方法删除重复数据:
df.drop_duplicates(inplace=True)
五、数据导出
分析完成后,可以将数据导出到 CSV 或 Excel 文件中。
1、导出到 CSV
使用 to_csv()
方法:
df.to_csv('output.csv', index=False)
2、导出到 Excel
使用 to_excel()
方法:
df.to_excel('output.xlsx', index=False)
四、总结
Pandas 是一个功能强大的数据分析工具,它提供了丰富的数据结构和操作方法,使得数据分析工作变得简单高效。无论是数据清洗、转换还是分析,Pandas 都能提供有效的解决方案。通过本教程,你已经了解了 Pandas 的基本使用方法,包括数据的创建、操作、清洗和导出。
版权声明:本博客内容为原创,转载请保留原文链接及作者信息。
参考文章:
- Pandas 教程 | 菜鸟教程
- pandas用法-全网最详细教程 - CSDN博客