Pandas -----------------------基础知识（八）

Pandas内置Matplotlib

加载数据

import pandas as pdanscombe = pd.read_csv('/root/pandas_code_ling/data/e_anscombe.csv')
anscombe

dataset_1 = anscombe[anscombe['dataset']=='I']
dataset_1dataset_1.describe()

提供数据

dataset_1 = anscombe[anscombe['dataset']=='I']
dataset_2 = anscombe[anscombe['dataset']=='II']
dataset_3 = anscombe[anscombe['dataset']=='III']
dataset_4 = anscombe[anscombe['dataset']=='IV']

画布

import matplotlib.pyplot as plt# 创建画布
fig = plt.figure(figsize=(16,8))# 向画布添加子图
#子图有两行两列，位置是1
axes1 = fig.add_subplot(2,2,1)
#子图有两行两列，位置是2
axes2 = fig.add_subplot(2,2,2)
#子图有两行两列，位置是3
axes3 = fig.add_subplot(2,2,3)
#子图有两行两列，位置是4
axes4 = fig.add_subplot(2,2,4)

绘图

axes1.plot(dataset_1['x'],dataset_1['y'],'o')
axes2.plot(dataset_2['x'],dataset_2['y'],'o')
axes3.plot(dataset_3['x'],dataset_3['y'],'o')
axes4.plot(dataset_4['x'],dataset_4['y'],'o')axes1.set_title('dataset_1')
axes2.set_title('dataset_2')
axes3.set_title('dataset_3')
axes4.set_title('dataset_4')fig.suptitle('Anscombe Data')
fig

pandas绘图

import pandas as pd
import matplotlib.pyplot as plt# 加载 anscombe数据
anscombe = pd.read_csv('/root/pandas_code_ling/data/e_anscombe.csv')df1 = anscombe[anscombe['dataset']=='I']
df2 = anscombe[anscombe['dataset']=='II']
df3 = anscombe[anscombe['dataset']=='III']
df4 = anscombe[anscombe['dataset']=='IV']print(df1)
print('-------------------------------------')df1.plot()  # 默认折线图
print('-------------------------------------')
df1['x'].plot.bar()# df.plot.line() # 折线图的全写方式
# df1.plot.bar() # 柱状图
# df.plot.barh() # 横向柱状图 （条形图）
# df.plot.hist() # 直方图
# df.plot.box() # 箱形图
# df1.plot.kde() # 核密度估计图
# df.plot.density() # 同 df.plot.kde()
# df1.plot.area() # 面积图
# s.plot.pie() # 饼图
# df.plot.scatter() # 散点图
# df.plot.hexbin() # 六边形箱体图，或简称六边形图
plt.rcParams["font.sans-serif"]=["SimHei"] 
plt.title('统计图')
plt.show()

df1.plot() # 默认折线图
#df1.plot(kind='line') # 结果与df1.plot()
#df1.plot.line() # 结果与df1.plot()
# x轴是索引值，y轴是各列的具体值
# 也可以通过参数指定xy轴对应的列名
df1.plot.line(x='x', y='y')
plt.show()

df1.plot.bar() # 柱状图
df1.plot.bar(stacked=True) # 柱状堆积
# 也可以通过参数指定xy轴对应的列名
df1.plot.bar(x='x', y='y')
plt.show()

df1.plot.barh() # 水平条形图
df1.plot.barh(stacked=True) # 水平条形堆积图
# 也可以通过参数指定xy轴对应的列名
df1.plot.barh(x='x', y='y')
plt.show()

# 饼图，只能展示一维数据
# 参数y指定列名
# 参数autopct='%.2f%%'指定显示百分比 %.2f%%表示保留2位小数
# 参数radius=0.9 指定饼图直径的比例，最大为1
# 参数figsize=(16, 8) 设定图片大小
df1.plot.pie(y='x', autopct='%.2f%%', radius=0.9, figsize=(16, 8)) 
plt.show()

# 饼图，只能展示一维数据
# 参数y指定列名
# 参数autopct='%.2f%%'指定显示百分比 %.2f%%表示保留2位小数
# 参数radius=0.9 指定饼图直径的比例，最大为1
# 参数figsize=(16, 8) 设定图片大小
df1.plot.pie(y='x', autopct='%.2f%%', figsize=(16, 8)) 
plt.show()

# 指定xy轴，grid=True开启背景辅助线
df1.plot.scatter(x='x', y='y', grid=True ,s=df1['x']*100)
plt.show()

df1.boxplot()
# df1.plot.boxplot() # 报错
plt.show()

df1['x'].plot.hist(bins=10)
plt.show()

# gridsize=12设定蜂箱格子的大小，数字越小格子越大
df1.plot.hexbin(x='x', y='y', gridsize=12)
plt.show()

seaborn图表

加载数据

# 导包
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns # Anaconda内置，无需额外安装
# 加载数据
tips_df = pd.read_csv('/root/pandas_code_ling/data/f_tips.csv')
tips_df

tips_df
#%%
# 指定数据集，指定x轴为消费订单金额，y轴为消费金额,
# 散点图通用的可选参数 hue='sex'通过颜色指定分组
# 散点图通用的可选参数 style='smoker' 通过形状指定分组
# 散点图通用的可选参数 size='time' 通过大小指定分组
sns.scatterplot(data=tips_df, x='total_bill', y='tip', hue='sex', style='smoker', size='time'
)
plt.show()

plt.show()
#%%
plt.show()
sns.relplot(data=tips_df, x='total_bill', y='tip')  # 默认 kind='scatter'
sns.relplot(data=tips_df, x='total_bill', y='tip', kind='line')
plt.show()

f = plt.figure()
f.add_subplot(2,1,1)
# 按照x属性所对应的类别分别展示y属性的值，适用于分类数据
# 不同饭点的账单总金额的散点图
sns.stripplot(data=tips_df, x='time', y='total_bill')f.add_subplot(2,1,2)
# hue通用参数按颜色划分
# jitter=True 当数据点重合较多时，尽量分散的展示数据点
# dodge=True 拆分分类
sns.stripplot(data=tips_df, x='time', y='total_bill', jitter=True, dodge=True, hue='day')
plt.show()

# 下图分别描述午餐账单、晚餐账单的最大值、最小值、三个四分位数，以及所有账单金额出现的次数（频率）
sns.violinplot(data=tips_df, x='time', y='total_bill')
plt.show()

plt.show()
# 下图中黑色的粗线条展示了数据的分布(误差线), 线条越短, 数据分布越均匀
# 下图中每个柱的顶点就是该分类y指定列的平均值
sns.barplot(data=tips_df, x='day', y='total_bill')
plt.show()

# 下图分别描述午餐账单、晚餐账单的最大值、最小值、三个四分位数，以及所有账单金额出现的次数（频率）
sns.violinplot(data=tips_df, x='day', y='total_bill')
plt.show()

plt.show()
# 按x指定的列值分组统计出现次数
sns.countplot(data=tips_df, x='day')
plt.show()

plt.show()
# 男女在午餐晚餐的平均消费
new_df = tips_df.pivot_table(index='sex', columns='time', values='total_bill', aggfunc='mean')
print(new_df)
# 输出为热力图：男性在晚餐花费最多
sns.heatmap(data=new_df)
plt.show()

plt.show()
sns.pairplot(tips_df)
# sns.pairplot(df) # 全部数值列进行两两组合
# sns.pairplot(df, vars=['列名1', '列名2']) # 指定要组合展示的列名
plt.show()

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/440939.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

Pandas -----------------------基础知识（八）

Pandas内置Matplotlib

pandas绘图

seaborn图表

相关文章

【SQL】DDL语句

C++模板编程：深入理解分离编译的挑战与解决方案

输电线路缺陷图像检测数据集，导线散股，塔材锈蚀两类，分别为581张和1407张，标注为xml和txt格式 1988张

查看 git log的过程中看到 :说明日志输出可能超出屏幕大小，系统进入了分页模式

【图像处理】多幅不同焦距的同一个物体的平面图象，合成一幅具有立体效果的单幅图像原理（一）

SSH -L 代理与反向代理转发详解

百度文心智能体平台开发萌猫科研加油喵

设计模式之适配器模式(通俗易懂--代码辅助理解【Java版】）

如何用python抓取豆瓣电影TOP250

操作系统 | 学习笔记 | 王道 | 3.1 内存管理概念

Python面向对象基础

分治算法(4)_快速选择_库存管理III_面试题

esp8266 at指令链接wifi时一直connect disconnest

sqli-labs靶场第三关less-3

【js逆向学习】极志愿 javascript+python+rpc

大数据-155 Apache Druid 架构与原理详解数据存储索引服务压缩机制

基于SpringBoot健身房管理系统【附源码】

28 基于51单片机的两路电压检测(ADC0808)

No.6 笔记 | Linux操作系统基础：全面概览与核心要点

【斯坦福CS144】Lab1