爬虫项目基础知识详解

文章目录

  • Python爬虫项目基础知识
    • 一、爬虫与数据分析
      • 1.1 Python中的requests库
        • Requests 库的安装
        • Requests 库的 get() 方法
        • 爬取网页的通用代码框架
        • HTTP 协议及 Requests 库方法
        • Requests 库主要方法解析
      • 1.2 python中的json库
      • 1.3 xpath学习之python中lxml库
        • html了解
        • html结构
        • html标签
        • html属性
      • 1.4xpath
        • xpath定义
        • xpath常见使用方法
        • xpath的谓语结构
      • 1.5 表格操作openpyxl
        • 演示代码
        • 创建工作簿
        • 操作数据
        • 一个单元格
        • 多个单元格
        • 仅值
        • 数据存储
        • 保存到文件
        • 另存为流
        • 从文件加载
      • 1.5 python中的时间库time
    • 二、可视化
      • 2.1 matplotlib模块学习
        • 2.2.1 折线图
          • a. 设置画布大小:
          • b. 自定义x轴、y轴刻度
          • c. x轴显示中文
          • d. 轴标签和标题
          • e. 添加网格线
          • f. 同一图中同时绘制多条折线
          • g. 同时绘制两个图
          • h. 绘制数学函数图像
          • i. 设置字体大小
        • 2.2.2 散点图绘制
        • 2.2.3 柱状图
          • a. 多组柱状图
          • b. 垂直水平方向的柱状图
        • 2.2.4 直方图
        • 2.2.5 饼图
      • 2.2 seaborn模块学习
        • 2.2.1 relplot()函数
          • 散点型
          • 折线型
        • 2.2.2 分类型绘图
          • 条形图
        • 2.2.3 泰坦尼克号案例学习
        • 2.2.4 箱体型绘图
        • 2.2.5 分布型绘图
          • 四变量两两关系分布图
        • 2.2.3 泰坦尼克号案例学习
        • 2.2.4 箱体型绘图
        • 2.2.5 分布型绘图
          • 四变量两两关系分布图
      • 2.3 pyecharts模块学习

Python爬虫项目基础知识

仅供参考,合法爬取

一、爬虫与数据分析

1.1 Python中的requests库

Requests 库的安装

Win 平台:“以管理员身份运行” cmd,执行 pip install requests,等待安装

Requests 库的安装小测

image-20240118171338025

Requests 库的 get() 方法

image-20240118171354536

response n. 响应;反应;回答
Response 对象包含服务器返回的所有信息,也包含请求的 Request 信息

r = requests.get( url , params=None , **kwargs )
//---url:拟获取页面的 url 链接
//---params:url 中的额外参数,字典或字节流格式,可选
//---**kwargs:12 个控制访问的参数

[补充]:参考 get 方法的文档可以看出 get 方法使用了 request 方法进行封装,也就是说 request 库一共提供 7 常用方法,除了第一个 request 方法外,其它的 6 个方法都是通过调用 request 方法实现的。其实也可以这样认为 requests 库其实只有一个方法,就是 request 方法,但是为了让大家编写程序更方便,提供了额外 6 个方法。

Requests 库的 2 个重要对象

image-20240118171405196

Response 对象的属性

属性说明
r.status_codeHTTP请求的返回状态, 200表示连接成功, 404表示失败
r.textHTTP响应内容的字符串形式,即, url对应的页面内容
r.encoding从HTTP header中猜测的响应内容编码方式
r.apparent_encoding从内容中分析出的响应内容编码方式(备选编码方式)
r.contentHTTP响应内容的二进制形式

r.status_code:只要不是200其实都是连接失败的 !!!!

image-20240118171414007

在使用 get 方法获取网上资源的基本流程:

image-20240118171420242

理解 Response 的编码:

  • r.encoding:编码方式是从 http 的 heder 中的 charset 字段获得的,如果 header 中不存在 charset,则默认认为编码为 ISO-8859-1,这样的编码不能解析中文。r.text 根据 r.encoding 显示网页内容
  • r.apparent_encoding:根据 http 的内容部分,而不是头部分,去分析内容中出现文本可能的编码形式。即根据网页内容分析出的编码方式, 可以看作是 r.encoding 的备选

image-20240118171429462

image-20240118171439275

为什么将 r.apparent_encoding 解析出来的编码方式赋给 r.encoding 后,网页中的中文就可以分析出来,难道 r.text 是以 r.encoding 的方式进行编码的吗?为什么头部分析出来的编码方式会与内容解析出来的不同?
答:r.text 是以 r.encoding 的方式进行编码

爬取网页的通用代码框架

在介绍爬取网页的通用代码框架之前,我们需要理解 Requests 库的异常

image-20240118171447618

r.raise_for_status():在方法内部判断 r.status_code 是否等于 200,不需要增加额外的 if 语句,该语句便于利用 try-except 进行异常处理,如果状态码不是200,产生异常 requests.HTTPError。

import requests
def getHTMLText(url):try:r = requests.get(url)r.raise_for_status()r.encoding = r.apparent_encodingreturn r.textexcept:# print(r.status_code)return "产生异常!"
if __name__=="__main__":url = "http://www.baidu.com"print(getHTMLText(url))
HTTP 协议及 Requests 库方法

HTTP,HyperText Transfer Protocol,超文本传输协议。是一个基于 “请求与响应” 模式的、无状态的应用层协议。无状态指的是第一次请求与第二次请求之间并没有相关的关联。HTTP 协议采用 URL 作为定位网络资源的标识。

URL 格式如下:http://host[:port][path]
      host:合法的 Internet 主机域名或 IP 地址
      port:端口号,缺省端口为 80
      path:请求资源的路径
HTTP 实例:http://www.bit.edu.cn
      http://220,181,111,188/duty

文件的路径一样,只不过这个文件不在电脑里,在 internet 上,那每一个 URL,对应了 internet 上的一个数据资源。

HTTP 协议对资源的操作

image-20240118171454085

理解 PATCH 和 PUT 的区别
假设 URL 位置有一组数据 UserInfo,包括 UserID、UserName 等20个字段
需求:用户修改了 UserName,其他不变。
采用 PATCH,仅向 URL 提交 UserName 的局部更新请求。
采用 PUT,必须将所有 20 个字段一并提交到 URL,未提交字段被删除。
PATCH 的最主要好处:节省网络带宽(当 URL 对应的资源是很庞大资源的时候)

image-20240118171500682

HTTP 协议与 Requests 库

image-20240118171508561

Requests 库的 head() 方法

image-20240118171518220

  • r.headers : 以字典对象存储服务器响应头,但是这个字典比较特殊,字典键不区分大小写,若键不存在则返回 None
Requests 库主要方法解析

Requests 库的 7 个主要方法

方法说明
requests.request()构造一个请求,支撑以下各方法的基础方法
requests.get()获取HTML网页的主要方法,对应于HTTP的GET
requests.head()获取HTML网页头信息的方法,对应于HTTP的HEAD
requests.post()向HTML网页提交POST请求的方法,对应于HTTP的POST
requests.put()向HTML网页提交PUT请求的方法,对应于HTTP的PUT
requests.patch()向HTML网页提交PUT请求的方法,对应于HTTP的PATCH
requests.delete()向HTML页面提交删除请求,对应于HTTP的DELETE
requests.request(method, url, **kwargs)
  • method:请求方式,对应get/put/post等七种
    • r = requests. request('GET', url, **kwargs)
    • r = requests.request('HEAD', url, **kwargs)
    • r = requests.request('POST', url, **kwargs)
    • r = requests.request('PUT', url, **kwargs)
    • r = requests.request('PATCH', url, **kwargs)
    • r = requests.request('delete', url, **kwargs)
    • r = requests.request('OPTIONS', url, **kwargs)
  • OPTIONS:向服务器获取一些服务器跟客户端能够打交道的参数,并不与获取资源直接相关。
  • url:拟获取页面的url链接
  • **kwargs:控制访问的参数,共 13 个
    • params:字典或字节序列,作为参数增加到ur1中
    • data:字典、字节序列或文件对象,作为Request的内容
    • json:JSON格式的数据,作为Request的内容
    • headers:字典,HTTP定制头
    • cookies:字典或CookieJar,Request中的cookie
    • auth:元组,支持HTTP认证功能
    • files:字典类型,传输文件
    • timeout:设定超时时间,秒为单位
    • proxies:字典类型,设定访问代理服务器,可以增加登录认证
    • redirects:True/False,默认为 True,重定向开关
    • stream:True/False,默认为 True,获取内容立即下载开关
    • verify:True/False,默认为 True,认证 SSL 证书开关
    • cert:本地 SSL 证书路径

使用示例:

kv = {'cn': '导演', 'pcn': '娱乐明星'}
r = requests.request('GET', 'http://tieba.baidu.com/f/index/forumpark', params=kv)
r.encoding = r.apparent_encoding
print(r.url)

这两种方法是等价的:
r = requests.request("get", "http://www.baidu.com")
r = requests.get("http://www.baidu.com")

fs = {'file':open('data.x1s','rb')}
r = requests.request('pOST','http://python123.io/ws',files=fs) 
pxs = { 'http':'http://xxx:xxx''https':'https://xxxx:xxx'         }
r = requests.request('GET','http://www.baidu.com',proxies=pxs) 

http 协议中,向某一个 url 提交资源的功能在服务器上是严格受控的,因为这存在很大的安全问题。

网络爬虫的尺寸:

小规模,数据量小中规模,数据规模较大大规模,搜索引擎
爬取速度不敏感爬取速度敏感爬取速度关键
Requests 库Scrapy 库定制开发
爬取网页、玩转网页爬取网站、爬取系列网站爬取全网

1.2 python中的json库

  • json数据是一种只包含双引号的字符串格式,任何对象经过json序列化后单引号也会转成双引号。
import jsondic={'name':'xiaohu'}
print(json.dumps(dic))   #{"name": "xiaohu"}i=8
print(json.dumps(i))   # 8
print(type(json.dumps(i)))  #<class 'str'>s='hello'
print(json.dumps(s))   #"hello"
print(type(json.dumps(s)))  #<class 'str'>l=[12,34]
print(json.dumps(l))   #[11, 22]
  • JSON表示的对象就是标准的JavaScript语言的对象,JSON和Python内置的数据类型对应如下:

    JSON类型Python类型
    {}dict
    []list
    “string”str
    数字int 或者float
    true/falseTrue/False
    nullNone
  • dumps()和loads()函数

f=open('序列化对象','w')
f.write(j)  #-------------------打开、写入两步等价于json.dump(dic,f)
f.close()
#-----------------------------反序列化<br>
import json
f=open('序列化对象')
data=json.loads(f.read())   #  打开、读两步等价于data=json.load(f)
  • 无论数据是怎样创建的,只要满足json格式,就可以json.loads出来,不一定非要dumps的数据才能loads
  • json.dumps()中的ensure_ascii=False

在使用json.dumps时要注意一个问题

image-20240118171535061

输出的会是
‘中国’ 中的ascii 字符码,而不是真正的中文。

这是因为json.dumps 序列化时对中文默认使用的ascii编码.想输出真正的中文需要指定ensure_ascii=False:

image-20240118171544569

python数据格式切换json的方法

json.dumps(data) python ---->json 数据格式转换

json.dump(data, filename) python ---->json 将转换后的数据保存到filename文件中

json.loads(data) json —>python 数据格式转换

json.load(data, filename) json —>python 将转换后的数据保存到filename文件中

1.3 xpath学习之python中lxml库

html了解

超文本标记语言,是用来描述网页的一种语言。主要用于控制数据的显示和外观。HTML文档一定意义上可以被称为网页。但反过来说网页不仅仅是HTML,网页本质有三部分构成:负责内容结构的HTML,负责表现的CSS,以及负责行为的javascript。本文主要分享的是最核心的内容结构部分。

html结构

完整的HTML文件至少包括标签、标签、标签和标签,并且这些标签都是成对出现的,开头标签为<>,结束标签为</>,在这两个标签之间添加内容。通过这些标签中的相关属性可以设置页面的背景色、背景图像等。<br/> 例如,我们打开豆瓣首页,摁下键盘上的F12键,打开浏览器自带**“开发者工具”**,可以看到一个完整的html文档结构,如下图

image-20240118171552633

从上图可以看出,一个完整的html文档主要包含三部分:DTD文档头,head头部信息和body正文信息。其中DTD文档头用来告诉浏览器执行标准是什么(比如html4或是html5),head头部信息用来说明浏览器的编码方式和文档头名称,body顾名思义就是浏览器的正文部分。

html标签

作为开始和结束的标记,由尖括号包围的关键词,比如 ,标签对中的第一个标签是开始标签,第二个标签是结束标签。html中常见标签如下:

image-20240118171601142

其中, “< ul >< li >”是一种嵌套顺序,无序列表,成对出现;li的父元素必须是ul或者ol,不同之处在于ol是一种有序列列表,而ul是无序列表;

html属性

属性是用来修饰标签的,放在开始标签里里面,html中常见四大属性:

属性说明
class规定元素的类名,大多数时候用于指定样式表中的类
id唯一标识一个元素的属性,在html里面必须是唯一的
href指定超链接目标的url
src指定图像的url

1.4xpath

xpath定义

是一种路径查询语言,简单的说就是利用一个路径表达式从html文档中找到我们需要的数据位置,进而将其写入到本地或者数据库中。(可以将xpath类比为sql结构化查询语言)

xpath常见使用方法
符号功能
//表示在整个文本中查找,是一种相对路径
/表示则表示从根节点开始查找,是一种绝对路径
text()找出文本值
@找出标签对应的属性值,比如@href就是找出对应的href链接
.表示当前节点
表示当前节点的父节点

当然xpath除了上述常见用法外,还存两种比较特殊的用法:以相同的字符开头;标签套标签。

用法1:以相同的字符开头:starts-with(@属性部分,属性字符相同部分

用法2:标签套标签:string(.)

#以相同的字符开头
#比如我们想同时提取到下列html中三条文本内容的话,就需要使用starts-with方法
html1 = """
<!DOCTYPE html>
<html><head lang='en'><meta charest='utf-8'><title></title></head><body><div id="test-1">需要的内容1</div><div id="test-2">需要的内容2</div><div id="testfault">需要的内容3</div></body>
</html>
"""#爬取代码
from lxml import etree
selector = etree.HTML(html1)
content  = selector.xpath('//div[starts-with(@id,"test")]/text()')
for each in content:print each

还有一种是标签套标签形式,参考如下例子

html2 = """
<!DOCTYPE html>
<html><head lang='en'><meta charest='utf-8'><title></title></head><body><div id="test3">我左青龙,<span id='tiger'>右白虎<ul>上朱雀,<li>下玄武,</li></ul></span>龙头在胸口</div></body>
</html>
"""
#如果我们想爬取的内容是html文档中的所有文本的话,需要使用string方法进行提取
selector2 = etree.HTML(html2)
content2  = selector2.xpath('//div[@id="test3"]')[0] #列表,只有一个元素
info = content2.xpath('string(.)')
content3 = info.replace('\n','').replace(' ','')
print content3
xpath的谓语结构

所谓"谓语条件",就是对路径表达式的附加条件。所有的条件,都写在方括号"[]"中,表示对节点进行进一步的筛选。例如:

<?xml version="1.0" encoding="ISO-8859-1"?>
<bookstore><book><title lang="eng">Harry Potter</title><price>29.99</price></book><book><title lang="eng">Learning XML</title><price>39.95</price></book><book><title lang="eng">Harry Potter</title><price>29.99</price></book><book><title lang="eng">Learning XML</title><price>39.95</price></book><book><title lang="eng">Harry Potter</title><price>29.99</price></book><book><title lang="eng">Learning XML</title><price>39.95</price></book>
</bookstore>

下面从几个简单的例子让大家体会一下

  • /bookstore/book[1] :表示选择bookstore的第一个book子元素。
  • /bookstore/book[last()] :表示选择bookstore的最后一个book子元素。
  • /bookstore/book[last()-1] :表示选择bookstore的倒数第二个book子元素。
  • /bookstore/book[position()❤️] :表示选择bookstore的前两个book子元素。
  • //title[@lang] :表示选择所有具有lang属性的title节点。
  • //title[@lang=‘eng’] :表示选择所有lang属性的值等于"eng"的title节点。
<tr><td valign="top"><input type="radio" name="payment" value="1" checked="" iscod="0"></td><td valign="top"><strong>数加科技</strong></td>
</tr>
//strong[text()="数加科技"]/../../td[1]/input
函数说明举例
contains选取属性或者文本包含某些字符//div[contains(@id, ‘data’)] 选取 id 属性包含 data 的 div 元素 //div[contains(string(), ‘支付宝’)] 选取内部文本包含“支付宝”的 div 元素
starts-with选取属性或者文本以某些字符开头//div[starts-with(@id, ‘data’)] 选取 id 属性以 data 开头的 div 元素 //div[starts-with(string(), ‘银联’)] 选取内部文本以“银联”开头的 div 元素
ends-with选取属性或者文本以某些字符开头//div[ends-with(@id, ‘require’)] 选取 id 属性以 require 结尾的 div 元素 //div[ends-with(string(), ‘支付’)] 选取内部文本以“支付”结尾的 div 元素

1.5 表格操作openpyxl

用于读取和写入 Excel 2010 xlsx/xlsm/xltx/xltm 文件。通过 pip install openpyxl 命令下载 openpyxl 库。

演示代码

通过下面的演示代码,可以快速创建一个名为 sample.xlsx 的表格文件:

from openpyxl import Workbook
import datetime# 创建一个工作簿
wb = Workbook()
# 获取活动工作表
ws = wb.active
# 数据可以直接分配到单元格
ws['A1'] = 42
# 行也可以追加
ws.append([1, 2, 3])
# Python类型将自动转换
ws['A2'] = datetime.datetime.now()
# 保存文件
wb.save("sample.xlsx")

image-20240118171613207

创建工作簿

不需要提前在文件系统上创建文件,直接就可以使用 openpyxl 开始创建表格。先导入 Workbook 类,再使用 Workbook.active 方法获取一个工作表:

from openpyxl import Workbook
wb = Workbook()
ws = wb.active

默认情况下 Workbook.active(value) 方法中的 value0,即使用此方法获得第一个工作表,我们可以修改此值。也可以使用 Workbook.create_sheet() 方法创建新的工作表:

# 在末尾插入(默认)
ws1 = wb.create_sheet("Mysheet")
# 插入第一个位置
ws2 = wb.create_sheet("Mysheet", 0)
# 倒数第二个位置插入
ws3 = wb.create_sheet("Mysheet", -1)

我们可以随时通过 Worksheet.title 属性更改工作表名称:

ws.title = "New Title"

给工作表命名后,就可以将其作为工作簿的键值,以指向对应的工作表,并可以使用 Workbook.sheetname 属性查看工作簿中所有工作表的名称,亦可以遍历工作表:

ws3 = wb["New Title"]print(wb.sheetnames)  # ['Sheet2', 'New Title', 'Sheet1']for sheet in wb:print(sheet.title)

我们可以复制某个工作簿,创建一个副本。该行为仅复制单元格(值、样式、超链接、注释)和某些工作表属性(尺寸、格式、属性),如果工作簿以 read-onlywrite-only 只读模式打开,则不能复制工作表:

source = wb.active
target = wb.copy_worksheet(source)
操作数据

单元格可以直接作为工作表中的键值进行访问,例如返回 A4 处的单元格,如果不存在则创建一个单元格,可以直接分配值:

c = ws['A4']
ws['A4'] = 4
一个单元格

通过 Worksheet.cell() 方法可以使用 定位要访问的单元格:

d = ws.cell(row=4, column=2, value=10)
多个单元格

我们可以通过切片访问单元格范围,行或列的范围可以用类似方法获得:

cell_range = ws['A1':'C2']
colC = ws['C']
col_range = ws['C:D']
row10 = ws[10]
row_range = ws[5:10]

也可以使用 Worksheet.iter_rows()Worksheet.iter_cols() 方法获取行、列,但是由于性能原因,这两个方法在 只读 模式下不可用:

for row in ws.iter_rows(min_row=1, max_col=3, max_row=2):for cell in row:print(cell)
# <Cell Sheet1.A1>
# <Cell Sheet1.B1>
# <Cell Sheet1.C1>
# <Cell Sheet1.A2>
# <Cell Sheet1.B2>
# <Cell Sheet1.C2>
for col in ws.iter_cols(min_row=1, max_col=3, max_row=2):for cell in col:print(cell)
# <Cell Sheet1.A1>
# <Cell Sheet1.A2>
# <Cell Sheet1.B1>
# <Cell Sheet1.B2>
# <Cell Sheet1.C1>
# <Cell Sheet1.C2>

如果需要遍历所有行或列,则可以使用 Worksheet.rowsWorksheet.columns 属性,但是同样在 只读 模式下不可用:

ws = wb.active
ws['C9'] = 'hello world'
tuple(ws.rows)
# ((<Cell Sheet.A1>, <Cell Sheet.B1>, <Cell Sheet.C1>),
# (<Cell Sheet.A2>, <Cell Sheet.B2>, <Cell Sheet.C2>),
# (<Cell Sheet.A3>, <Cell Sheet.B3>, <Cell Sheet.C3>),
# (<Cell Sheet.A4>, <Cell Sheet.B4>, <Cell Sheet.C4>),
# (<Cell Sheet.A5>, <Cell Sheet.B5>, <Cell Sheet.C5>),
# (<Cell Sheet.A6>, <Cell Sheet.B6>, <Cell Sheet.C6>),
# (<Cell Sheet.A7>, <Cell Sheet.B7>, <Cell Sheet.C7>),
# (<Cell Sheet.A8>, <Cell Sheet.B8>, <Cell Sheet.C8>),
# (<Cell Sheet.A9>, <Cell Sheet.B9>, <Cell Sheet.C9>))
tuple(ws.columns)
# ((<Cell Sheet.A1>,
# <Cell Sheet.A2>,
# <Cell Sheet.A3>,
# <Cell Sheet.A4>,
# <Cell Sheet.A5>,
# <Cell Sheet.A6>,
# ...
# <Cell Sheet.C9>))
仅值

如果只需要工作表中的值,则可以使用 Worksheet.columns 属性,这会遍历工作表中的所有行,但仅返回单元格的值:

for row in ws.values:for value in row:print(value)

通过 Worksheet.iter_rows()Worksheet.iter_cols() 可以获取 values_only 参数,只返回单元格的值:

for row in ws.iter_rows(min_row=1, max_col=3, max_row=2, values_only=True):print(row)
# (None, None, None)
# (None, None, None)

如果我们只需要工作表的 最大行数最大列数,可以使用 max_rowmax_column 属性获取,例如一个4行15列的工作表:

print(ws.max_row)  # 4
print(ws.max_column)  # 15
数据存储

有了 Cell 就可以为其分配一个值:

c.value = 'hello, world'
print(c.value)  # 'hello, world'
d.value = 3.14
print(d.value)  # 3.14
保存到文件

保存工作簿的最简单、安全的方法是使用对象的 Workbook.save() 方法:

wb = Workbook()
wb.save('balances.xlsx')

如果文件已经存在,此操作将覆盖现有文件,不会抛出异常或警告。

另存为流

如果要将文件保存到流中,例如在使用Web应用程序(PyramidFlaskDjango)时,只需使用 NamedTemporaryFile() 方法即可:

from tempfile import NamedTemporaryFile
from openpyxl import Workbook
wb = Workbook()
with NamedTemporaryFile() as tmp:wb.save(tmp.name)tmp.seek(0)stream = tmp.read()

我们也可以指定属性 template=True,将工作簿另存为模板:

wb = load_workbook('document.xlsx')
wb.template = True
wb.save('document_template.xltx')

或将 template 属性设置为 False(默认),以另存为文档:

wb = load_workbook('document_template.xltx')
wb.template = False
wb.save('document.xlsx', as_template=False)
从文件加载

可以通过 openpyxl.load_workbook() 打开现有的工作簿:

from openpyxl import load_workbook
wb2 = load_workbook('test.xlsx')
print(wb2.sheetnames)  # ['Sheet2', 'New Title', 'Sheet1']

1.5 python中的时间库time

import time
store_date = time.strftime('%Y-%m-%d %H:%M:%S', time.localtime(int(time.time())))
print("今天是 beijingriqi_%s,%s" % (store_date, 'asda'))
[output]:
今天是 beijingriqi_2022-04-17 23:30:43,asda

二、可视化

2.1 matplotlib模块学习

快速安装

pip install matplotlib
2.2.1 折线图
import matplotlib.pyplot as plt
import randomx=range(10) # 定义x轴的数据 列表的数据类型
y=[random.uniform(15,35) for i in x] # 定义y轴的数据  # 列表的数据类型plt.plot(x, y) # 绘制图像
plt.savefig('a1.png') # 保存图像 在当前目录保存名为test.png的图片,必须在show方法前否则图片就是空白
# plt.show() # 展示图像

image-20240118171629356

a. 设置画布大小:

我们使用plt.figure()函数来设置画布大小,其参数如下:

  • figsize : 设置画布的大小,单位英寸 长,宽
  • dpi : 设置清晰度
import matplotlib.pyplot as plt
import randomx=range(10) # 定义x轴的数据
y=[random.uniform(15,35) for i in x] # 定义y轴的数据plt.figure(figsize=(20,8),dpi=80) # 设置画布大小与清晰度plt.plot(x, y) # 绘制图像
plt.show() # 展示图像

image-20240118171637095

b. 自定义x轴、y轴刻度

xticks,yticks使用自定义刻度的函数,它有两个参数:

  • ticks:要显示x轴的刻度
  • labels:给对应的x刻度设置一个标签,并且覆盖之前的刻度,与传入ticks的列表长度要相等。

x轴每隔2两个数显示

import matplotlib.pyplot as plt
import randomx=range(10) # 定义x轴的数据
y=[random.uniform(15,35) for i in x] # 定义y轴的数据plt.figure(figsize=(20,8),dpi=80) # 设置画布大小与清晰度plt.xticks(x[::1]) # 定义显示的x轴步长为1plt.plot(x, y) # 绘制图像
plt.show() # 展示图像

image-20240118171644583

c. x轴显示中文

matplotlib默认字体是不支持中文的需要更改,有多种方法,现在只提供一种

import matplotlib.pyplot as plt
import randomx=range(10) # 定义x轴的数据
y=[random.uniform(15,35) for i in x] # 定义y轴的数据plt.figure(figsize=(20,8),dpi=80) # 设置画布大小与清晰度plt.xticks(x[::2],["1月","2月","3月","4月","5月"]) # 第二个参数可以指定显示字符串,不过传入xticks的这两个参数长度要相等plt.plot(x, y) # 绘制图像
plt.show() # 展示图像

image-20240118171652537

修改matplotlib默认字体,使它支持显示中文

方法一:

import matplotlib.pyplot as plt
import randomplt.rcParams['font.sans-serif']=['SimHei']  # 用来正常显示中文标签x=range(10) # 定义x轴的数据
y=[random.uniform(15,35) for i in x] # 定义y轴的数据plt.figure(figsize=(20,8),dpi=80) # 设置画布大小与清晰度plt.xticks(x[::2],["1月","2月","3月","4月","5月"]) # 第二个参数可以指定显示字符串,不过传入xticks的这两个参数长度要相等plt.plot(x, y) # 绘制图像
plt.show() # 展示图像

方法二:

修改全局字体样式,需要使用 matplotlib 模块的 rcParamsfrom matplotlib import rcParamsrcParams['font.family'] = 'SimHei' # 黑体

常用字体

宋体:SimSun
黑体:SimHei
微软雅黑:Microsoft YaHei
微软正黑体:Microsoft JhengHei
新宋体:NSimSun
新细明体:PMingLiU
细明体:MingLiU
标楷体:DFKai-SB
仿宋:FangSong
楷体:KaiTi
隶书:LiSu
幼圆:YouYuan
华文细黑:STXihei
华文楷体:STKaiti
华文宋体:STSong
华文中宋:STZhongsong
华文仿宋:STFangsong
方正舒体:FZShuTi
方正姚体:FZYaoti
华文彩云:STCaiyun
华文琥珀:STHupo
华文隶书:STLiti
华文行楷:STXingkai
华文新魏:STXinwei
d. 轴标签和标题

xlabelylabel使用修改x,y轴标签

title可修改标题

import matplotlib.pyplot as plt
import randomplt.rcParams['font.sans-serif']=['SimHei']  # 用来正常显示中文标签x=range(10) # 定义x轴的数据
y=[random.uniform(15,35) for i in x] # 定义y轴的数据plt.figure(figsize=(20,8),dpi=80) # 设置画布大小与清晰度plt.xticks(x[::2],["1月","2月","3月","4月","5月"]) # 第二个参数可以指定显示字符串,不过传入xticks的这两个参数长度要相等plt.xlabel("时间变化") # 修改标签
plt.ylabel("温度变化")plt.title("我是标题") # 修改标题plt.plot(x, y) # 绘制图像
plt.show() # 展示图像

image-20240118171701090

e. 添加网格线

grid方法来设置图表中的网格线

import matplotlib.pyplot as plt
import randomplt.rcParams['font.sans-serif']=['SimHei']  # 用来正常显示中文标签x=range(60) # 定义x轴的数据
y=[random.uniform(15,18) for i in x] # 定义y轴的数据plt.figure(figsize=(20,8),dpi=80) # 设置画布大小与清晰度plt.plot(x, y) # 绘制图像plt.xticks(x[::5],["{}分钟".format(i) for i in x][::5]) # 第二个参数可以指定显示字符串,不过传入xticks的这两个参数长度要相等
plt.yticks(range(0,40,5)) # 自定义y轴刻度
plt.xlabel("时间变化") # 修改标签
plt.ylabel("温度变化")plt.title("我是标题") # 修改标题# 增加网格显示,0.5表示透明度为50%
plt.grid(linestyle="--",alpha=0.5)plt.show() # 展示图像

image-20240118171710232

f. 同一图中同时绘制多条折线

只是数据多准备一份罢了,基本什么区别
例外再添加上图例legend,可读性更好

import matplotlib.pyplot as plt
import randomplt.rcParams['font.sans-serif']=['SimHei']  # 用来正常显示中文标签x=range(60) # 定义x轴的数据
y_1=[random.uniform(15,18) for i in x] # 定义y轴的数据
y_2=[random.uniform(1,3) for i in x] # 定义y轴的数据plt.figure(figsize=(20,8),dpi=80) # 设置画布大小与清晰度plt.plot(x, y_1,label="上海") # 绘制图像
plt.plot(x, y_2,label="北京") # 绘制图像plt.xticks(x[::5],["{}分钟".format(i) for i in x][::5]) # 第二个参数可以指定显示字符串,不过传入xticks的这两个参数长度要相等
plt.yticks(range(0,40,5)) # 自定义y轴刻度plt.xlabel("时间变化") # 修改标签
plt.ylabel("温度变化")plt.title("我是标题") # 修改标题# 增加网格显示,0.5表示透明度为50%
plt.grid(linestyle="--",alpha=0.5)plt.legend() #绘制图例plt.show() # 展示图像

image-20240118171718829

g. 同时绘制两个图
import matplotlib.pyplot as plt
import randomplt.rcParams['font.sans-serif']=['SimHei']  # 用来正常显示中文标签
plt.rcParams['axes.unicode_minus'] = False  # 用来正常显示负号# x,y轴的数据
x=range(60)
y_shanghai=[random.uniform(15,18) for i in x]
# 另一个城市
y_beijing=[random.uniform(1,3) for i in x]'''
fig 表示的是要绘制的一个画布,
ax 表示的是在fig这个画布的对象上,具体要绘制的对象子图。
'''
fig, ax = plt.subplots(1,2,figsize=(20,8),dpi=80) # 把画布分成一行两列ax[0].plot(x,y_shanghai,'b--',label='上海') 
ax[1].plot(x,y_beijing,'r',label='北京')# 图例,必须在plot后面 简单显示图例
ax[0].legend()
ax[1].legend()
# 修改x y刻度
x_label=["11点{}分".format(i) for i in range(60)]
ax[0].set_xticks(x[::5],x_label[::5])
ax[0].set_yticks(range(0,40,5))ax[1].set_xticks(x[::5],x_label[::5])
ax[1].set_yticks(range(0,40,5))
# 增加网格显示
ax[0].grid(linestyle="--",alpha=0.5)ax[1].grid(linestyle="--",alpha=0.5)# 添加描述信息
ax[0].set_xlabel('时间变化')
ax[0].set_ylabel('温度变化')
ax[0].set_title('上海城市11点到12点每分钟的温度变化状况1')ax[1].set_xlabel('时间变化')
ax[1].set_ylabel('温度变化')
ax[1].set_title('北京城市11点到12点每分钟的温度变化状况2')
plt.show()

image-20240118171725665

h. 绘制数学函数图像
import matplotlib.pyplot as plt
import numpy as np; x=np.linspace(-10,10,1000000)
y=x**2plt.figure(figsize=(8,8),dpi=80)
plt.grid(linestyle='--',alpha=0.5)
plt.plot(x,x**2) 
plt.show()

image-20240118171741397

i. 设置字体大小

在前面的例子中感觉显示的字体太小了,看的不舒服,现在来设置一下。
通过plt.rcParams['font.size']=18来指定字体的大小

import matplotlib.pyplot as plt
import randomplt.rcParams['font.sans-serif']=['SimHei']  # 用来正常显示中文标签
plt.rcParams['font.size']=18  # 设置字体大小
x=range(60) # 定义x轴的数据
y=[random.uniform(15,18) for i in x] # 定义y轴的数据plt.figure(figsize=(20,8),dpi=80) # 设置画布大小与清晰度plt.plot(x, y) # 绘制图像plt.xticks(x[::5],["{}分钟".format(i) for i in x][::5]) # 第二个参数可以指定显示字符串,不过传入xticks的这两个参数长度要相等
plt.yticks(range(0,40,5)) # 自定义y轴刻度
plt.xlabel("时间变化") # 修改标签
plt.ylabel("温度变化")plt.title("我是标题") # 修改标题# 增加网格显示,0.5表示透明度为50%
plt.grid(linestyle="--",alpha=0.5)plt.show() # 展示图像

image-20240118171753445

2.2.2 散点图绘制

主要使用scatter方法来绘制散点图,参数如下:
参数说明:

  • x,y:长度相同的数组,也就是我们即将绘制散点图的数据点,输入数据。
  • s:点的大小,默认 20,也可以是个数组,数组每个参数为对应点的大小。
  • c:点的颜色,默认蓝色 ‘b’,也可以是个 RGB 或 RGBA 二维行数组。
  • marker:点的样式,默认小圆圈 ‘o’。
  • cmap:Colormap,默认 None,标量或者是一个 colormap 的名字,只有 c 是一个浮点数数组的时才使用。如果没有申明就是 image.cmap。
  • norm:Normalize,默认 None,数据亮度在 0-1 之间,只有 c 是一个浮点数的数组的时才使用。
  • vmin,vmax::亮度设置,在 norm 参数存在时会忽略。
  • alpha::透明度设置,0-1 之间,默认 None,即不透明。
  • linewidths::标记点的长度。
  • edgecolors::颜色或颜色序列,默认为 ‘face’,可选值有 ‘face’, ‘none’, None。
  • plotnonfinite::布尔值,设置是否使用非限定的 c ( inf, -inf 或 nan) 绘制点。
  • **kwargs::其他参数。
import matplotlib.pyplot as plt
import numpy as np
plt.rcParams['font.size'] = 18
x = np.array([1, 2, 3, 4, 5, 6, 7, 8])
y = np.array([1, 4, 9, 16, 7, 11, 23, 18])
sizes = np.array([20,50,100,200,500,1000,60,90])
plt.figure(figsize=(8,8),dpi=80)
plt.scatter(x,y,s=sizes) # 绘制散点图
plt.show()# 注意:散点图的数据是一维矩阵 并非是列表数据类型

image-20240118171805569

2.2.3 柱状图

主要使用 bar() 方法来绘制柱形图。
bar() 方法语法格式如下:

  • x:浮点型数组,柱形图的 x 轴数据。
  • height:浮点型数组,柱形图的高度。
  • width:浮点型数组,柱形图的宽度。
  • bottom:浮点型数组,底座的 y 坐标,默认 0。
  • align:柱形图与 x 坐标的对齐方式,‘center’ 以 x 位置为中心,这是默认值。 ‘edge’:将柱形图的左边缘与 x 位置对齐。要对齐右边缘的条形,可以传递负数的宽度值及 align=‘edge’。
  • **kwargs::其他参数。
import matplotlib.pyplot as plt
import numpy as np
plt.rcParams['font.sans-serif']=['SimHei']  # 用来正常显示中文标签
movie_names = ['雷神3:诸神黄昏','正义联盟','东方快车谋杀案','寻梦环游记','全球风暴', '降魔传','追捕','七十七天','密战','狂兽','其它']
tickets = [73853,57767,22354,15969,14839,8725,8716,8318,7916,6764,52222]
x = range(len(movie_names))plt.figure(figsize=(20,8),dpi=80)
plt.bar(x,tickets,color=['b','g','r','c','m','y','k'])
plt.xticks(x,movie_names)
plt.title('电影票房收入对比')
plt.grid(linestyle='--',alpha=0.5)
plt.show()

image-20240118171821841

a. 多组柱状图
import matplotlib.pyplot as plt
import numpy as npplt.rcParams['font.sans-serif']=['SimHei']  # 用来正常显示中文标签
plt.rcParams['axes.unicode_minus'] = False  # 用来正常显示负号movie_name = ['雷神3:诸神黄昏','正义联盟','寻梦环游记']
first_day = [10587.6,10062.5,1275.7]
first_weekend=[36224.9,34479.6,11830]plt.figure(figsize=(20,8),dpi=80)x=range(len(movie_name))
plt.bar(x,first_day,width=0.2,label='首日票房') # 绘制第一组柱状图
plt.bar([i+0.2 for i in x],first_weekend,width=0.2,label='首周票房') # 绘制第二组柱状图plt.legend() # 绘制图例plt.xticks([i+0.1 for i in x],movie_name) # 修改x轴刻度plt.show()

image-20240118171829046

b. 垂直水平方向的柱状图

垂直方向的柱状图可以使用barh() 方法来设置:

import matplotlib.pyplot as pltx = ["Runoob-1", "Runoob-2", "Runoob-3", "C-RUNOOB"]
y = [12, 22, 6, 18]
plt.figure(figsize=(20,8),dpi=80)
plt.barh(x,y)
plt.show()

image-20240118171836316

2.2.4 直方图

使用hist()方法来绘制直方图

import matplotlib.pyplot as pltplt.rcParams['font.sans-serif']=['SimHei']  # 用来正常显示中文标签
plt.rcParams['axes.unicode_minus'] = False  # 用来正常显示负号import matplotlib.pyplot as plt# 电影时长分布状况
time = [131,  98, 125, 131, 124, 139, 131, 117, 128, 108, 135, 138, 131, 102, 107, 114, 119, 128, 121, 142, 127, 130, 124, 101, 110, 116, 117, 110, 128, 128, 115,  99, 136, 126, 134,  95, 138, 117, 111,78, 132, 124, 113, 150, 110, 117,  86,  95, 144, 105, 126, 130,126, 130, 126, 116, 123, 106, 112, 138, 123,  86, 101,  99, 136,123, 117, 119, 105, 137, 123, 128, 125, 104, 109, 134, 125, 127,105, 120, 107, 129, 116, 108, 132, 103, 136, 118, 102, 120, 114,105, 115, 132, 145, 119, 121, 112, 139, 125, 138, 109, 132, 134,156, 106, 117, 127, 144, 139, 139, 119, 140,  83, 110, 102,123,107, 143, 115, 136, 118, 139, 123, 112, 118, 125, 109, 119, 133,112, 114, 122, 109, 106, 123, 116, 131, 127, 115, 118, 112, 135,115, 146, 137, 116, 103, 144,  83, 123, 111, 110, 111, 100, 154,136, 100, 118, 119, 133, 134, 106, 129, 126, 110, 111, 109, 141,120, 117, 106, 149, 122, 122, 110, 118, 127, 121, 114, 125, 126,114, 140, 103, 130, 141, 117, 106, 114, 121, 114, 133, 137,  92,121, 112, 146,  97, 137, 105,  98, 117, 112,  81,  97, 139, 113,134, 106, 144, 110, 137, 137, 111, 104, 117, 100, 111, 101, 110,105, 129, 137, 112, 120, 113, 133, 112,  83,  94, 146, 133, 101,131, 116, 111,  84, 137, 115, 122, 106, 144, 109, 123, 116, 111,111, 133, 150]
plt.figure(figsize=(20,8),dpi=80)distince = 2 # 每组的间距
plt.hist(time,(max(time)-min(time))//distince)
plt.xticks(range(min(time),max(time)+2,distince))plt.grid(linestyle='--',alpha=0.5)
plt.xlabel('电影时长大小')
plt.ylabel('电影的数据量')
plt.title("电影时长分布")
plt.show()

image-20240118171844291

2.2.5 饼图

使用 pyplot 中的 pie() 方法来绘制饼图。
参数说明:

  • x:浮点型数组,表示每个扇形的面积。
  • explode:数组,表示各个扇形之间的间隔,默认值为0。
  • labels:列表,各个扇形的标签,默认值为 None。
  • colors:数组,表示各个扇形的颜色,默认值为 None。
  • autopct:设置饼图内各个扇形百分比显示格式,%d%% 整数百分比,%0.1f 一位小数, %0.1f%% 一位小数百分比, %0.2f%% 两位小数百分比。
  • labeldistance:标签标记的绘制位置,相对于半径的比例,默认值为 1.1,如 <1则绘制在饼图内侧。
  • pctdistance::类似于 labeldistance,指定 autopct 的位置刻度,默认值为 0.6。
  • shadow::布尔值 True 或 False,设置饼图的阴影,默认为 False,不设置阴影。
  • radius::设置饼图的半径,默认为 1。
  • startangle::起始绘制饼图的角度,默认为从 x 轴正方向逆时针画起,如设定 =90 则从 y 轴正方向画起。
  • counterclock:布尔值,设置指针方向,默认为 True,即逆时针,False 为顺时针。
  • wedgeprops :字典类型,默认值 None。参数字典传递给 wedge 对象用来画一个饼图。例如:wedgeprops={‘linewidth’:5} 设置 wedge 线宽为5。
  • textprops :字典类型,默认值为:None。传递给 text 对象的字典参数,用于设置标签(labels)和比例文字的格式。
  • center :浮点类型的列表,默认值:(0,0)。用于设置图标中心位置。
    frame :布尔类型,默认值:False。如果是 True,绘制带有表的轴框架。
    rotatelabels :布尔类型,默认为 False。如果为 True,旋转每个 label 到指定的角度。
import matplotlib.pyplot as pltplt.rcParams['font.sans-serif']=['SimHei']  # 用来正常显示中文标签
plt.rcParams['axes.unicode_minus'] = False  # 用来正常显示负号movie_name = ['雷神3:诸神黄昏','正义联盟','东方快车谋杀案','寻梦环游记','全球风暴','降魔传','追捕','七十七天','密战','狂兽','其它']
place_count = [60605,54546,45819,28243,13270,9945,7679,6799,6101,4621,20105]
plt.figure(figsize=(20,8),dpi=80)
plt.pie(place_count,labels=movie_name,autopct='%1.2f%%')
plt.legend()
plt.axis('equal') # 确保饼图能化成一个圆
plt.show()

image-20240118171851989

2.2 seaborn模块学习

下载模块

pip install seaborn

引入模块

import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

读取数据

tips = pd.read_csv('tips.csv')
tips.head()

image-20240118171900251

2.2.1 relplot()函数

seaborn.relplot()
这个函数功能非常强大,可以用来表示多个变量之间的关联关系。默认情况下是绘制散点图,也可以绘制线性图,具体绘制什么图形是通过kind参数来决定的。实际上以下两个函数就是relplot的特例:
散点类型:scatterplot -> relplot(kind=“scatter”)
线性类型:lineplot -> relplot(kind=“line”)

参数:x, y    vectors or keys in data指定x轴和y轴上位置的变量hue    vector or key in data将生成具有不同颜色的元素的分组变量。可以是按类别的(categorical),也可以是数字的,不过在后一种情况下,颜色映射的行为会有所不同。size    vector or key in data将生成不同大小元素的分组变量。可以是按类别的(categorical),也可以是数字的,在后一种情况下,大小映射的行为会有所不同。style   vector or key in data将生成具有不同样式的元素的分组变量。可以具有数字数据类型,但将始终被视为按类别的(categorical)。data    pandas.DataFrame, numpy.ndarray, mapping, or sequence输入数据结构。要么是可以分配给命名变量的向量的长形式集合,要么是将进行内部整形的宽形式数据集。row, col    vectors or keys in data定义要在不同面上绘制的子集的变量。col_wrap   int以该宽度“包裹”列变量,使列面跨越多行。与行方面不兼容。row_order, col_order   lists of strings按顺序组织网格中的行和/或列,否则将从数据对象推断顺序。palette   string, list, dict, or matplotlib.colors.Colormap映射色调时选择要使用的颜色的方法。字符串值传递给color_palete()。List或dict值表示按类别的映射,而colormap对象表示数字映射。hue_order   vector of strings指定色调语义分类级别的处理和打印顺序。hue_norm    tuple or matplotlib.colors.Normalize以数据单位设置归一化范围的一对值,或将从数据单位映射到[0,1]区间的对象。用法意味着数字映射。sizes  list, dict, or tuple确定使用大小时如何选择大小的对象。它始终可以是大小值列表或大小变量到大小的dict映射级别。当大小为数字时,它也可以是一个元组,指定要使用的最小和最大大小,以便在此范围内规范化其他值。size_order   list指定大小变量级别的出现顺序,否则将根据数据确定。大小变量为数字时不相关。size_norm   tuple or Normalize object当尺寸变量为数字时,以数据单位进行归一化,以缩放打印对象。style_order  list指定样式变量级别的外观顺序,否则将根据数据确定。当样式变量为数字时不相关。dashes  boolean, list, or dictionary用于确定如何为样式变量的不同级别绘制线。设置为True将使用默认的破折号代码,或者可以将破折号代码列表或样式变量的字典映射级别传递给破折号代码。设置为False将对所有子集使用实线。破折号在matplotlib中指定:一个(段、间隙)长度的元组,或一个用于绘制实线的空字符串。markers  boolean, list, or dictionary确定如何为样式变量的不同级别绘制标记。设置为True将使用默认标记,或者可以将标记列表或将样式变量的字典映射级别传递给标记。设置为False将绘制无标记线。标记在matplotlib中指定。legend    “auto”, “brief”, “full”, or False如何绘制图例。如果“简短”,数字色调和大小变量将用均匀分布的值样本表示。如果“已满”,每组将在图例中获得一个条目。如果为“自动”,则根据级别数在简短表示或完整表示之间进行选择。如果为False,则不添加图例数据,也不绘制图例。kind  stringKind of plot to draw(这是一种要绘制的图), corresponding to a seaborn relational plot. Options are {scatter and line}.height   scalar每个面的高度(英寸)aspect   scalar每个面的纵横比,因此纵横比*高度(aspect*height)表示每个面的宽度facet_kws  dict要传递到FacetGrid的其他关键字参数的字典.units  vector or key in data识别采样单位的分组变量。使用时,将为每个单元绘制一条具有适当语义的单独线,但不会添加图例条目。当不需要精确身份时,用于显示实验重复的分布。kwargs  key, value pairings其他关键字参数传递给底层plotting函数。Returns
散点型

需求1:分析每周每天花销总额与小费的关系

sns.relplot(x='total_bill',y='tip',data=tips).savefig('pngs/a1.png')

image-20240118171909263

可以发现:消费越高,小费越高;小费集中在1-5之间

需求2:按天分析每天花销总额与小费的关系(分类 hue=‘day’)

sns.relplot(x='total_bill',y='tip',data=data,hue='day').savefig('pngs/a1.png')

image-20240118171916183

可以发现:星期六花销最高,对应的小费也越高

需求3:按午餐和晚餐分类并按天分析每天花销总额与小费的关系(col= ‘time’)

sns.relplot(x='total_bill',y='tip',data = data,hue='day',col='time').savefig('pngs/a1.png')

image-20240118171923001

需求4:按性别分析午餐和晚餐,哪个性别付的小费最多(row=‘sex’)

sns.relplot(x='total_bill',y='tip',data = data,hue='day',col='time',row='sex').savefig('pngs/a1.png')

image-20240118171935877

折线型

案例1:

sns.relplot(x='total_bill',y='tip',data=data,kind='line').savefig('pngs/a1.png')

image-20240118171944124

案例2:

sns.relplot(x='total_bill',y='tip',data=data,kind='line',hue='day').savefig('pngs/a1.png')

image-20240118171950370

案例3:

sns.relplot(x='total_bill',y='tip',data=data,kind='line',hue='day',col='time').savefig('pngs/a1.png')

image-20240118171957272

案例4:

sns.relplot(x='total_bill',y='tip',data=data,kind='line',hue='day',col='time',row='sex').savefig('pngs/a1.png')

image-20240118172013711

案例5:

sns.relplot(x="timepoint", y="signal", data=fmri, kind="line", errorbar=('ci', 60), hue="region", col="event",style="region").savefig('pngs/a1.png')

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

案例6:

sns.relplot(x="timepoint",y="signal",data=fmri,kind="line",errorbar=('ci', 60),hue="region",col="event").savefig('pngs/a1.png')

image-20240118172020864

案例七:

sns.relplot(x="timepoint",y="signal",data=fmri,kind="line",errorbar=None,hue="region",col="event",style="region").savefig('pngs/a1.png')

image-20240118172030195

2.2.2 分类型绘图

分类统计图,则是根据分类,统计每个分类下的数据的个数或者比例。有以下几种方式:
条形图:barplot() (with kind=“bar”)
柱状图:countplot() (with kind=“count”)
点线图:pointplot() (with kind=“point”)

条形图

seaborn中的条形图具有统计功能,可以统计出比例,平均数,也可以按照你想要的统计函数来统计。

sns.catplot(x='day',y='total_bill',data = data).savefig('pngs/a1.png')

image-20240118172037852

sns.catplot(x='day',y='total_bill',data = data,hue='time').savefig('pngs/a1.png')

image-20240118172044322

sns.catplot(x='day',y='total_bill',data = data,hue='time',row = 'sex').savefig('pngs/a1.png')

image-20240118172054172

sns.catplot(x='day',y='total_bill',data = data,kind='bar').savefig('pngs/a1.png')

image-20240118172102638

sns.catplot(x='day',y='total_bill',data = data,kind='bar',estimator = sum).savefig('pngs/a1.png')

image-20240118172110152

sns.catplot(x='day',y='total_bill',data = data,kind='bar',estimator = sum,hue='time').savefig('pngs/a1.png')

image-20240118172118200

sns.catplot(x='day',y='total_bill',data = data,kind='bar',estimator = sum,hue='time',row='sex').savefig('pngs/a1.png')

image-20240118172128621

2.2.3 泰坦尼克号案例学习

需求1:分析男女获救比例

data1 = pd.read_csv('titanic.csv')
sns.catplot(x='sex',y='survived',data=data1,kind='bar').savefig('pngs/a1.png')

image-20240118172137365

需求2:按舱位分析,男女获救比例

sns.catplot(x='sex',y='survived',data=data1,kind='bar',hue='class').savefig('pngs/a1.png')

image-20240118172145105

可以发现:女性获救比例高于男性,说明人类在灾难面前,往往考虑更多的弱势群体。三等舱获救比例高于一二等舱,说明阶层越高获得的特权就越高

2.2.4 箱体型绘图
sns.boxplot(x='day',y='tip',data=data)

image-20240118172153299

可以发现:以星期天为例,小费平均值为3,最高值将近7,最低值低于1,全天无异常值。

2.2.5 分布型绘图

sns.distplot(),bins柱子分布个数

需求1:泰坦尼克号,所有乘客年龄分布状况

sns.distplot(data1['age'],bins=20)

image-20240118172201301

需求2:二变量分布图

sns.jointplot(x='total_bill',y='tip',data=data,kind='hex')

image-20240118172235455

'''
参数如下:
height图形大小设置
ratio主图和副图之间的比例
space 副图与主图之间的距离
'''sns.jointplot(x='total_bill',y='tip',data=data,kind='hex',gridsize=15,height=10,ratio=3,space=0,marginal_kws={"rug":True,"kde":True},color="red")

image-20240118172243222

四变量两两关系分布图
sns.pairplot(data)

image-20240118172258576

g(‘pngs/a1.png’)


[外链图片转存中...(img-klt2HOrv-1733294501869)]```python
sns.catplot(x='day',y='total_bill',data = data,kind='bar',estimator = sum,hue='time',row='sex').savefig('pngs/a1.png')

[外链图片转存中…(img-B5raV7HW-1733294501869)]

2.2.3 泰坦尼克号案例学习

需求1:分析男女获救比例

data1 = pd.read_csv('titanic.csv')
sns.catplot(x='sex',y='survived',data=data1,kind='bar').savefig('pngs/a1.png')

[外链图片转存中…(img-suebEPMu-1733294501869)]

需求2:按舱位分析,男女获救比例

sns.catplot(x='sex',y='survived',data=data1,kind='bar',hue='class').savefig('pngs/a1.png')

[外链图片转存中…(img-7EWEpfpl-1733294501869)]

可以发现:女性获救比例高于男性,说明人类在灾难面前,往往考虑更多的弱势群体。三等舱获救比例高于一二等舱,说明阶层越高获得的特权就越高

2.2.4 箱体型绘图
sns.boxplot(x='day',y='tip',data=data)

[外链图片转存中…(img-3m00zP2D-1733294501869)]

可以发现:以星期天为例,小费平均值为3,最高值将近7,最低值低于1,全天无异常值。

2.2.5 分布型绘图

sns.distplot(),bins柱子分布个数

需求1:泰坦尼克号,所有乘客年龄分布状况

sns.distplot(data1['age'],bins=20)

[外链图片转存中…(img-i3zi7EvU-1733294501869)]

需求2:二变量分布图

[外链图片转存中…(img-Zuyxo6sI-1733294501869)]

sns.jointplot(x='total_bill',y='tip',data=data,kind='hex')

[外链图片转存中…(img-LmPMQMTl-1733294501869)]

'''
参数如下:
height图形大小设置
ratio主图和副图之间的比例
space 副图与主图之间的距离
'''sns.jointplot(x='total_bill',y='tip',data=data,kind='hex',gridsize=15,height=10,ratio=3,space=0,marginal_kws={"rug":True,"kde":True},color="red")

[外链图片转存中…(img-L7pROiv7-1733294501869)]

四变量两两关系分布图
sns.pairplot(data)

[外链图片转存中…(img-ezmckPla-1733294501870)]

2.3 pyecharts模块学习

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/485265.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Tomcat,javaweb, servlet , springBoot

在server.xml里配置服务器 <scope>provided</scope>打包的时候&#xff0c;这个jar包不会被打进去&#xff0c;因为tomcat已将封装了这个jar包&#xff0c;没必要要这个

棋牌项目Go的日志打印问题

棋牌项目Go的日志打印问题 项目使用 go work 管理模块 github.com/spf13/viper 通过 application.yml 加载配置 $ tree . ├── README.md ├── common │ ├── application.yml │ ├── config │ │ └── config.go │ ├── go.mod │ ├── go.su…

【Linux操作系统】多线程控制(创建,等待,终止、分离)

目录 一、线程与轻量级进程的关系二、进程创建1.线程创建线程创建函数&#xff08;pthread&#xff09;查看和理解线程id主线程与其他线程之间的关系 三、线程等待&#xff08;回收&#xff09;四、线程退出线程退出情况线程退出方法 五、线程分离线程的优点线程的缺点 一、线程…

小程序 —— Day1

组件 — view和scroll-view view 类似于HTML中的div&#xff0c;是一个块级元素 案例&#xff1a;通过view组件实现页面的基础布局 scroll-view 可滚动的视图区域&#xff0c;用来实现滚动列表效果 案例&#xff1a;实现纵向滚动效果 scroll-x属性&#xff1a;允许横向滚动…

快速构建NLP理论知识体系

NLP理论知识体系 一句话解释NLPNLP模型及原理简述1、Rag 一句话解释NLP 如果我们要实现机器翻译、情感分析、问答系统、文本摘要、聊天机器人、构造智能化的辅助文件填写模板&#xff0c;NLP可以通过现成的模型对输入的语音、文字、图片进行处理&#xff08;分词、标词性、去停…

Kafka的消费消息是如何传递的?

大家好&#xff0c;我是锋哥。今天分享关于【Kafka的消费消息是如何传递的&#xff1f;】面试题。希望对大家有帮助&#xff1b; Kafka的消费消息是如何传递的&#xff1f; 1000道 互联网大厂Java工程师 精选面试题-Java资源分享网 Kafka 的消息传递是通过 消费者&#xff08…

shell脚本实战案例

文章目录 实战第一坑功能说明脚本实现 实战第一坑 实战第一坑&#xff1a;在Windows系统写了一个脚本&#xff0c;比如上面&#xff0c;随后上传到服务&#xff0c;执行会报错 原因&#xff1a; 解决方案&#xff1a;在linux系统touch文件&#xff0c;并通过vim添加内容&…

Android 使用 Canvas 和 Paint 实现圆形图片

学习笔记 效果展示: 全部代码: public class YuanActivity extends AppCompatActivity {private ActivityYuanBinding binding;Overrideprotected void onCreate(Bundle savedInstanceState) {super.onCreate(savedInstanceState);// 通过 DataBinding 获取布局文件binding …

敖汉宝塔油页岩露天矿山安全自动化监测

1. 项目简介 本次项目位于内蒙古自治区赤峰市敖汉旗宝国吐乡大青山村&#xff0c;地理位置好。主营许可经营项目&#xff1a;无一般经营项目&#xff1a;页岩油生产&#xff1b;页岩油、润滑油、建筑材料&#xff08;不含油漆&#xff09;销售等单位规模1-20人&#xff0c;单位…

fedora下Jetbrains系列IDE窗口中文乱码解决方法

可以看到窗口右部分的中文内容为小方块。 进入 Settings - Appearance & Behavior - Appearance - Use custom font : Note Sans Mono CJK SC &#xff0c;设置后如下图&#xff1a;

LeetCode题练习与总结:删除二叉搜索树中的节点--450

一、题目描述 给定一个二叉搜索树的根节点 root 和一个值 key&#xff0c;删除二叉搜索树中的 key 对应的节点&#xff0c;并保证二叉搜索树的性质不变。返回二叉搜索树&#xff08;有可能被更新&#xff09;的根节点的引用。 一般来说&#xff0c;删除节点可分为两个步骤&am…

Python_Flask03

这篇文章主要介绍的是数据库的增删改查操作&#xff0c;无多余好说的。 from flask import Flask from flask_sqlalchemy import SQLAlchemy from sqlalchemy import text from flask_migrate import Migrateapp Flask(__name__)# 本地基础信息的主机名 HOSTNAME "127.0…

我国基本比例尺地形图介绍

目录 1.前言2.大中小比例尺划分3.使用的投影4.使用3度带6度带&#xff1f;5.详细介绍1:100万地形图1:50万地形图1:25万地形图1:10万地形图1:5万地形图1:2.5万地形图1:1万地形图1:5000地形图 6.总结 1.前言 本文搜集整理了我国国家基本比例尺地形图的情况&#xff0c;共11种&…

离线安装ollama到服务器

搜了很多教程不满意,弄了半天才弄好&#xff0c;这里记录下&#xff0c;方便以后的人用&#xff0c;那个在线下载太慢&#xff0c;怕不是得下载到明年。 一.从官网下在liunx版的tgz安装包 Releases ollama/ollama (github.com) 查看自己的服务器信息&#xff08;参考 https:/…

Face2QR:可根据人脸图像生成二维码,还可以扫描,以后个人名片就这样用了!

今天给大家介绍的是一种专为生成个性化二维码而设计的新方法Face2QR&#xff0c;可以将美观、人脸识别和可扫描性完美地融合在一起。 下图展示为Face2QR 生成的面部图像&#xff08;第一行&#xff09;和二维码图像&#xff08;第二行&#xff09;。生成的二维码不仅忠实地保留…

WHLUG丨deepin、华中科技大学开放原子开源俱乐部、 RustSBI 和清华大学开源操作系统训练营共话开源新生代成长之路

2024年11月30日下午&#xff0c;由 deepin&#xff08;深度&#xff09;社区联合华中科技大学开放原子开源俱乐部、 RustSBI 开源社区和清华大学开源操作系统训练营共同举办的WHLUG&#xff08;武汉Linux用户组&#xff09;线下沙龙在华中科技大学成功举办。 本次活动聚集了50余…

排查bug的通用思路

⭐️前言⭐️ APP点击某个按钮没有反应/PC端执行某个操作后&#xff0c;响应较慢&#xff0c;通用的问题排查方法: 从多个角度来排查问题 &#x1f349;欢迎点赞 &#x1f44d; 收藏 ⭐留言评论 &#x1f349;博主将持续更新学习记录收获&#xff0c;友友们有任何问题可以在评…

Uniapp的App环境下使用Map获取缩放比例

概述 目前我试过的就是你用vue后缀是拿不到比例的你可以用nvue当然uniapp的uvue应该是更加可以的我使用的是高德所以你得在高德的后台声请原生的Android的key才可以如果是vue3的开发模式的话不用使用this来获取当前对象使用scale对象来接受和改变缩放比例会比较友好然后直接走…

如何利用Java爬虫获得商品类目

在当今数字化时代&#xff0c;数据已成为企业最宝贵的资产之一。获取和分析数据的能力对于任何希望在市场上保持竞争力的企业来说都是至关重要的。对于电子商务平台和市场研究公司而言&#xff0c;获取商品类目数据尤为重要&#xff0c;因为这些数据可以帮助他们更好地理解市场…

筑起厂区安全--叉车安全防护装置全解析

在繁忙的工业生产领域中&#xff0c;叉车作为搬运工&#xff0c;穿梭于仓储与生产线之间。然而&#xff0c;叉车的高效运作背后&#xff0c;也隐藏着诸多安全风险&#xff0c;尤其是在那些空间狭小、物流繁忙的环境中。为了降低这些潜在的危险&#xff0c;叉车安全防护装置便成…