【Python】—— 如果使用matplotlib做数据可视化

matplotlib做数据可视化

  • 相关知识
    • 掌握matplotlib的基本使用方法
      • 1. 折线图
      • 2. 散点图
      • 3. 柱状图
      • 4. 饼图
      • 5. 直方图
      • 6. 等高线图
      • 7. 图形定制
    • 掌握数据处理的基本方法
      • 1. 数据筛选
      • 2. 缺失值处理
      • 3. 异常值处理
    • 理解数据可视化的原则和方法
      • 1. 选择合适的图表类型
      • 2. 避免数据混淆
      • 3. 突出重要信息
  • 内容
    • 1、从网站中选取三个国家的从1960-2022年的GDP值,绘制一幅折线图。
      • 方法1
      • 方法2
    • 2、在一幅图中绘制四幅子图
  • 附录

相关知识

掌握matplotlib的基本使用方法

      Matplotlib 是一个用于绘制二维图形的 Python 库,广泛用于数据可视化。它提供了一个类似于 MATLAB 的绘图接口,使得用户可以轻松地创建各种静态、动态、交互式的图形。

以下是 Matplotlib 的一些主要特点和组件:

  1. 简单易用: Matplotlib 提供了一个简单的 API,使得用户可以轻松创建图形,而无需深入了解图形学或复杂的绘图原理。

  2. 多种图形类型: Matplotlib 支持各种常见的图形类型,包括线图、散点图、柱状图、饼图、等高线图等。

  3. 定制性强: 用户可以对图形的各个方面进行精细的定制,包括线型、颜色、标签、标题等。

  4. 支持 LaTeX: Matplotlib 支持使用 LaTeX 标记在图形中添加数学公式。

  5. 多平台支持: Matplotlib 可以在多个平台上运行,包括 Windows、Linux 和 macOS。

  6. 图形导出: 用户可以将图形以多种格式导出,包括 PNG、PDF、SVG 等。

  7. 面向对象的接口: Matplotlib 提供了一个面向对象的接口,允许用户更灵活地控制图形的各个元素。

      Matplotlib 的强大之处在于它的灵活性和广泛的应用领域,从简单的图形到复杂的数据可视化,都可以通过 Matplotlib 轻松实现。
      以下是 Matplotlib 的一些主要功能:

1. 折线图

      使用 plot 函数可以创建折线图,用于表示数据的趋势和变化。

import matplotlib.pyplot as pltx = [1, 2, 3, 4, 5]
y = [2, 4, 6, 8, 10]plt.plot(x, y)
plt.show()

2. 散点图

      使用 scatter 函数可以创建散点图,用于显示两个变量之间的关系。

import matplotlib.pyplot as pltx = [1, 2, 3, 4, 5]
y = [2, 4, 6, 8, 10]plt.scatter(x, y)
plt.show()

3. 柱状图

      使用 barbarh 函数可以创建垂直或水平的柱状图,用于比较不同类别的数据。

import matplotlib.pyplot as pltcategories = ['A', 'B', 'C', 'D']
values = [3, 7, 2, 5]plt.bar(categories, values)
plt.show()

4. 饼图

      使用 pie 函数可以创建饼图,用于显示各部分在整体中的占比。

import matplotlib.pyplot as pltsizes = [30, 20, 25, 15, 10]plt.pie(sizes, labels=['A', 'B', 'C', 'D', 'E'])
plt.show()

5. 直方图

      使用 hist 函数可以创建直方图,用于显示数据的分布情况。

import matplotlib.pyplot as pltdata = [1, 2, 2, 3, 3, 3, 4, 4, 5]plt.hist(data, bins=5)
plt.show()

6. 等高线图

      使用 contour 函数可以创建等高线图,用于表示二维数据的等高线。

import numpy as np
import matplotlib.pyplot as pltx = np.linspace(-5, 5, 100)
y = np.linspace(-5, 5, 100)
X, Y = np.meshgrid(x, y)
Z = np.sin(np.sqrt(X**2 + Y**2))plt.contour(X, Y, Z, cmap='viridis')
plt.show()

7. 图形定制

      用户可以定制图形的各个方面,包括颜色、线型、标签、标题等。

import matplotlib.pyplot as pltx = [1, 2, 3, 4, 5]
y = [2, 4, 6, 8, 10]plt.plot(x, y, color='red', linestyle='--', marker='o', label='Line A')
plt.title('Customized Line Plot')
plt.xlabel('X-axis')
plt.ylabel('Y-axis')
plt.legend()
plt.show()

      这些只是 Matplotlib 的一小部分功能,该库还支持更多高级的功能,如图形的注释、图形的嵌套、3D 图形、动画等。Matplotlib 的文档和示例库是学习和探索更多功能的好资源。
      访问以下链接https://matplotlib.org/stable/gallery/index.html可以了解到更多功能并获取官方教程。

掌握数据处理的基本方法

1. 数据筛选

使用 Pandas 进行数据筛选,例如选择满足某个条件的行。

import pandas as pd# 假设 df 是一个数据框
filtered_data = df[df['column'] > 10]

2. 缺失值处理

处理缺失值,可以使用 Pandas 的 dropna()fillna() 方法。

import pandas as pd# 删除包含缺失值的行
df.dropna()# 使用特定值填充缺失值
df.fillna(0)

3. 异常值处理

识别和处理异常值,可以通过统计方法或可视化方法来检测异常值。

import pandas as pd# 使用描述性统计分析识别异常值
mean = df['column'].mean()
std = df['column'].std()
threshold = mean + 3 * std# 删除超过阈值的异常值
df = df[df['column'] < threshold]

理解数据可视化的原则和方法

1. 选择合适的图表类型

      根据数据的特性和目标,选择合适的图表类型,例如使用折线图表示趋势,柱状图比较类别等。

2. 避免数据混淆

      确保图表清晰易懂,避免使用过于复杂的图表或颜色,以防止数据混淆。

3. 突出重要信息

      通过调整图表的样式,突出重要的数据信息,如使用颜色或标签来强调关键数据点。

能够根据实际需求选择合适的图表类型
     选择适当的图表类型,考虑数据的结构和目标,例如使用散点图展示相关性,饼图表示比例,柱状图比较类别等。

能够根据实际需求调整图表的属性和样式
     根据图表的目标和观众,调整图表的属性和样式,包括颜色、线型、标签、标题等,以提高图表的可读性和美观性。

内容

1、从网站中选取三个国家的从1960-2022年的GDP值,绘制一幅折线图。

      数据来自网站,点击以下链接可查看原网页:
      https://www.kylc.com/stats/global/yearly_overview/g_gdp.html
      网址内容截图(查看数据):
在这里插入图片描述


方法1

部分代码截图:
在这里插入图片描述

运行结果(折线图):
在这里插入图片描述

方法2

部分代码截图:
在这里插入图片描述

运行结果(折线图):
在这里插入图片描述

2、在一幅图中绘制四幅子图

  • 反映国内或者国际上主要手机品牌在某年或者某季度的销量的饼图。
  • 反映广东省各市的GDP。横
  • 广州市房价平均值的柱状图。
  • 绘制广东省2022年的高考一分段的散点图。

部分代码截图:
在这里插入图片描述

运行结果:
在这里插入图片描述

附录

  1. 从网站中选取三个国家的从1960-2022年的GDP值,绘制一幅折线图。:

方法1:

import os
import matplotlib.pyplot as plt
import pandas as pd# 设置支持中文的Matplotlib字体
plt.rcParams['font.sans-serif'] = ['Microsoft YaHei']# 读取数据
file_path = os.path.abspath('GDP.csv')
data = pd.read_csv(file_path, encoding='gbk')
# 提取数据
years = data['年份']
usa_gdp = data['美国GDP(万亿)']
uk_gdp = data['英国GDP(万亿)']
china_gdp = data['中国GDP (万亿)']
# 绘制折线图
fig, ax = plt.subplots()
ax.plot(years, usa_gdp, Label='美国')
ax.plot(years, uk_gdp, Label='英国')
ax.plot(years, china_gdp, label='中国')
ax.set_xlabel('年份')
ax.set_ylabel('GDP (万亿)')
ax.set_title('1960-2022年各国GDP')
ax.Tegend()
plt.show()

方法2:

import urllib.request
import re
import pandas as pd
import csv
import matplotlib.pyplot as plt
from matplotlib import font_manager
my_font = font_manager.FontProperties(fname="/System/Library/Fonts/PingFang.ttc")
#网页数据分析
def getdata(url):req = urllib.request.Request(url)req.add_header('User-Agent',' Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36')#设置请求头信息data = urllib.request.urlopen(req).read().decode('utf-8')str1 = str(data)pat = '''<tr><td>(.*?)</td><td>(.*?)</td><td>(.*?)</td><td>(.*?)\(.*?</td><td>.*?</td></tr>'''#网页分析进行选定内容,正则表达result = re.compile(pat).findall(str1)return result
#网页数据存储
def datastorage():for i in range(1960, 2023):print('正在收集第%d年数据' % i)rank = []country = []zhou = []total = []url = 'https://www.kuaiyilicai.com/stats/global/yearly/g_gdp/' + str(i) + '.html'data = getdata(url)for j in range(0, len(data)):rank.append(data[j][0])#当页排名country.append(data[j][1])#国家zhou.append(data[j][2])#所在州total.append(data[j][3])#GDPdataframe = pd.DataFrame({'排名': rank, '国家/地区': country, '所在洲': zhou, 'GDP(美元计)': total})dataframe.to_csv(str(i) + "年世界gdp排名.csv", index=False, sep=',', encoding="utf_8_sig", mode="a+")print(i, '年数据收集完成')
datastorage()
#文字转数字
def str2value(valueStr):valueStr = re.sub(r'亿', '00000000', valueStr)  # 将"亿"替换为8个零valueStr = re.sub(r'万', '0000', valueStr)  # 将"万"替换为4个零valueStr = re.sub(r'\.|,', '', valueStr)  # 去除小数点和逗号return int(valueStr)
timegdp = list(range(1960,2023))
zhongdata = []
meidata = []
yingdata = []
print("打开文件,搜索需要内容中.....")
for i in range(1960,2023):csv_reader = csv.reader(open(str(i) + "年世界gdp排名.csv",encoding="utf-8"))for row in csv_reader:if row[1]=='中国':zhongdata.append(row[3])if row[1]=='美国':meidata.append(row[3])if row[1]=='英国':yingdata.append(row[3])
result = [str2value(valueStr) for valueStr in zhongdata]
result1 = [str2value(valueStr) for valueStr in meidata]
result2 = [str2value(valueStr) for valueStr in yingdata]
# 画图
plt.plot(timegdp, result, 'b*--', alpha=0.5, linewidth=1, label='PRC')
plt.plot(timegdp, result1, 'rs--', alpha=0.5, linewidth=1, label='USA')
plt.plot(timegdp, result2, 'go--', alpha=0.5, linewidth=1, label='UK')
plt.legend()  # 显示上面的label
plt.xlabel('时间')
plt.ylabel('GDP')  # accuracy
# plt.ylim(-1,1)#仅设置y轴坐标范围
plt.show()
  1. 在一幅图中绘制四幅子图
import matplotlib
import matplotlib.pyplot as plt
import numpy as np
import pandas as pdmatplotlib.use('TkAgg')
# 设置Matplotlib的默认字体,并忽略警告
plt.rcParams['font.sans-serif'] = ['Microsoft YaHei']
plt.rcParams['axes.unicode_minus'] = Falsephone_brands = ['Apple(苹果)', 'samsung(三星)', 'Xiaomi(小米)', 'OPPO(欧珀)', 'vivo(维沃)', '其他']
phone_sales = [19, 22, 13, 9, 9, 28]cities = ['深圳', '广州', '佛山', '东莞', '惠州', '珠海', '茂名', '江门', '湛江', '中山', '汕头', '肇庆', '揭阳','清远', '韶关', '阳江', '汕尾', '梅州', '潮州', '河源', '云浮']
gdp_values = [32387.68, 28839, 12698.39, 11200.32, 5401.24, 4045.45, 3904.63, 3773.41, 3712.56, 3631.28, 3017.44,2705.05, 2260.98, 2032.02, 1563.93, 1535.02, 1322.02, 1318.21, 1312.98, 1294.57, 1162.43]districts = ['天河区', '越秀区', '海珠区', '荔湾区', '白云区', '番禺区', '黄埔区', '南沙区', '增城区', '花都区','从化区']
house_prices = [74723, 72121, 58268, 50631, 49639, 38788, 28890, 23567, 21942, 19420, 16160]# 柱状图
fig, axes = plt.subplots(2, 2, figsize=(18, 10))# 饼图 - 手机销量
axes[0, 0].pie(phone_sales, labels=phone_brands, autopct='%1.1f%%', startangle=90)
axes[0, 0].set_title('2022 年全年手机市场销售份额')# 柱状图 - GDP
axes[0, 1].bar(cities, gdp_values, color='skyblue')
axes[0, 1].set_title('2022年广东省21市GDP排名')
axes[0, 1].set_xlabel('城市')
axes[0, 1].set_ylabel('GDP (亿元)')# 柱状图 - 房价
axes[1, 0].barh(districts, house_prices, color='salmon')
axes[1, 0].set_title('广州市各区平均房价')
axes[1, 0].set_xlabel('房价 (元/平方米)')
axes[1, 0].set_ylabel('区域')# 散点图 - 高考一分段
df = pd.read_excel('分数.xlsx', engine='openpyxl')
# # 显示数据
# print(df)
# 提取需要绘制的数据列
province_scores = df['分数']  # np.random.randint(400, 700, 100)
province_ranks = df['人数']  # np.random.randint(1, 101, 100)axes[1, 1].scatter(province_scores, province_ranks, color='green', alpha=0.4)
axes[1, 1].set_title('广东省2022年历史类一分一段统计')
axes[1, 1].set_xlabel('分数')
axes[1, 1].set_ylabel('人数')
# 设置X轴刻度位置和标签
xticks = np.arange(0, 800, 50)
axes[1, 1].set_xticks(xticks)
axes[1, 1].set_xticklabels([str(x) for x in xticks])
# 设置Y轴刻度位置和标签
yticks = np.arange(0, 1300, 100)
axes[1, 1].set_yticks(yticks)
axes[1, 1].set_yticklabels([str(y) for y in yticks])plt.tight_layout()
plt.show()

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/220725.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

金智融门户(统一身份认证)同步数据至钉钉通讯录

前言:因全面使用金智融门户和数据资产平台,二十几个信息系统已实现统一身份认证和数据同步,目前单位使用的钉钉尚未同步组织机构和用户信息,职工入职、离职、调岗时都需要手工在钉钉后台操作,一是操作繁琐,二是钉钉通讯录更新不及时或经常遗漏,带来管理问题。通过金智融…

.NET 自定义中间件 判断是否存在 AllowAnonymousAttribute 特性 来判断是否需要身份验证

public Task InvokeAsync(HttpContext context){// 获取终点路由特性var endpointFeature context.Features.Get<IEndpointFeature>();// 获取是否定义了特性var attribute endpointFeature?.Endpoint?.Metadata?.GetMetadata<AllowAnonymousAttribute>();if …

修复泰坦陨落2缺少msvcr120.dll的5种方法,亲测有效

游戏《泰坦陨落2》缺少msvcr120.dll的问题困扰着许多玩家。这个问题的主要原因可能是系统环境不完整、软件或游戏版本不匹配、DLL文件丢失或损坏以及杀毒软件误判等。msvcr120.dll是Microsoft Visual C 2013 Redistributable的一个组件&#xff0c;它包含了许多运行库文件&…

LeetCode 142. 环形链表 II

给定一个链表的头节点 head &#xff0c;返回链表开始入环的第一个节点。 如果链表无环&#xff0c;则返回 null。 如果链表中有某个节点&#xff0c;可以通过连续跟踪 next 指针再次到达&#xff0c;则链表中存在环。 为了表示给定链表中的环&#xff0c;评测系统内部使用整…

运维实践|采集MySQL数据出现many connection errors

文章目录 问题出现问题分析当前环境问题分析 解决方案1 检查调度事件任务是否开启2 开启调度事件任务3 创建一张日志表4 创建函数存储过程5 创建事件定时器6 开启事件调度任务7 检查核实是否创建 总结 问题出现 最近在做OGG结构化数据采集工作&#xff0c;在数据采集过程中&am…

【微服务】Spring Aop原理深入解析

目录 一、前言 二、aop概述 2.1 什么是AOP 2.2 AOP中的一些概念 2.2.1 aop通知类型 2.3 AOP实现原理 2.3.1 aop中的代理实现 2.4 静态代理与动态代理 2.4.1 静态代理实现 三、 jdk动态代理与cglib代理 3.1 jdk动态代理 3.1.1 jdk代理示例 3.1.2 jdk动态代理模拟实现…

用23种设计模式打造一个cocos creator的游戏框架----(二十)解析器模式

1、模式标准 模式名称&#xff1a;解析器模式 模式分类&#xff1a;行为型 模式意图&#xff1a;给定一个语言&#xff0c;定义它的文法的一种表示&#xff0c;并定义一个解释器&#xff0c;这个解释器使用该表示来解释语言中的句子。 结构图&#xff1a; 适用于&#xff1…

TikTok矩阵玩法分享,如何建立TikTok矩阵?

矩阵是在 TikTok 上非常常见的营销方式&#xff0c;很多卖家想要通过矩阵化运营快速涨粉。但要想做好TikTok矩阵&#xff0c;需要有明确的方向和计划。下面东哥我将分享一些做TikTok矩阵的玩法&#xff0c;帮助大家更好地搭建自己的TikTok矩阵。 了解TikTok矩阵 TikTok矩阵是一…

Qt 数据库QSqlDatabase使用记录

记录一些在QT中使用QSqlDatabase操作数据库时&#xff0c;需要注意的地方 创建数据库 bool CDBOperatorAbstract::_openDBConn(CDatabaseConfig config) {QWriteLocker locker(&m_locker);QSqlDatabase db;if(QSqlDatabase::contains(m_connectionName)){db QSqlDatabas…

微信小程序校园跑腿系统怎么做,如何做,要做多久

​ 在这个互联网快速发展、信息爆炸的时代&#xff0c;人人都离不开手机&#xff0c;每个人都忙于各种各样的事情&#xff0c;大学生也一样&#xff0c;有忙于学习&#xff0c;忙于考研&#xff0c;忙着赚学分&#xff0c;忙于参加社团&#xff0c;当然也有忙于打游戏的&#x…

数据可视化---饼图、环形图、雷达图

类别内容导航机器学习机器学习算法应用场景与评价指标机器学习算法—分类机器学习算法—回归机器学习算法—聚类机器学习算法—异常检测机器学习算法—时间序列数据可视化数据可视化—折线图数据可视化—箱线图数据可视化—柱状图数据可视化—饼图、环形图、雷达图统计学检验箱…

PDF转为图片

PDF转为图片 背景pdf展示目标效果 发展过程最终解决方案&#xff1a;python PDF转图片pdf2image注意&#xff1a;poppler 安装 背景 最近接了一项目&#xff0c;主要的需求就是本地的文联单位&#xff0c;需要做一个电子刊物阅览的网站&#xff0c;将民族的刊物发布到网站上供…

LVS简介及LVS-NAT负载均衡群集的搭建

目录 LVS群集简介 群集的含义和应用场景 性能扩展方式 群集的分类 负载均衡&#xff08;LB&#xff09; 高可用&#xff08;HA&#xff09; 高性能运算&#xff08;HPC&#xff09; LVS的三种工作模式 NAT 地址转换 TUN IP隧道 IP Tunnel DR 直接路由 Direct Rout…

Xpath注入

这里学习一下xpath注入 xpath其实是前端匹配树的内容 爬虫用的挺多的 XPATH注入学习 - 先知社区 查询简单xpath注入 index.php <?php if(file_exists(t3stt3st.xml)) { $xml simplexml_load_file(t3stt3st.xml); $user$_GET[user]; $query"user/username[name&q…

SLAM学习——相机模型(针孔+鱼眼)

针孔相机模型 针孔相机模型是很常用&#xff0c;而且有效的模型&#xff0c;它描述了一束光线通过针孔之后&#xff0c;在针孔背面投影成像的关系&#xff0c;基于针孔的投影过程可以通过针孔和畸变两个模型来描述。 模型中有四个坐标系&#xff0c;分别为world&#xff0c;c…

机器学习 | SVM支持向量机

欲穷千里目&#xff0c;更上一层楼。 一个空间的混乱在更高维度的空间往往意味着秩序。 Machine-Learning: 《机器学习必修课&#xff1a;经典算法与Python实战》配套代码 - Gitee.com 1、核心思想及原理 针对线性模型中分类两类点的直线如何确定。这是一个ill-posed problem。…

Unity中URP下的菲涅尔效果实现(个性化修改)

文章目录 前言一、我们修正一下上篇文章中&#xff0c;可能遗留的Bug1、N向量 变为 单位向量2、使颜色范围在合理区间 二、实现菲涅尔效果强弱可自定义调节三、修改菲涅尔效果颜色1、在属性面板定义颜色属性2、在常量缓冲区申明该参数3、在片元着色器中&#xff0c;用颜色和菲涅…

使用 React 实现自定义数据展示日历组件

目录 背景实现日历组件父组件数据 效果最后 背景 项目中需要实现一个日历组件&#xff0c;并且需要展示月&#xff0c;日所对应的数据&#xff08;因为项目需求问题&#xff0c;就不统计年数据总量&#xff09;。网上找了一堆&#xff0c;基本都不大符合项目需求&#xff0c;且…

Java 基础学习(十一)File类与I/O操作

1 File类 1.1 File类概述 1.1.1 什么是File类 File是java.io包下作为文件和目录的类。File类定义了一些与平台无关的方法来操作文件&#xff0c;通过调用File类中的方法可以得到文件和目录的描述信息&#xff0c;包括名称、所在路径、读写性和长度等&#xff0c;还可以对文件…

计算机网络:物理层(编码与调制)

今天又学会了一个知识&#xff0c;加油&#xff01; 目录 一、基带信号与宽带信号 1、基带信号 2、宽带信号 3、选择 4、关系 二、数字数据编码为数字信号 1、非归零编码【NRZ】 2、曼彻斯特编码 3、差分曼彻斯特编码 4、归零编码【RZ】 5、反向不归零编码【NRZI】 …