02、爬虫数据解析-Re解析

数据解析的目的是不拿到页面的全部内容,只拿到部分我们想要的内容内容。

Re解析就是正则解析,效率高准确性高。学习本节内容前需要学会基础的正则表达式。

一、正则匹配规则

1、常用元字符

.       匹配除换行符以外的字符

\w    匹配字母或数字或下划线

\s     匹配任意的空白符

\d     匹配数字

\n     匹配一个换行符

\t      匹配一个制表符

^      匹配字符串的开始

$      匹配字符串的结尾

 \W   匹配非字母或数字或下划线

\D     匹配非数字

\S     匹配非空白符

a|b    匹配字符a或字符b

()       匹配括号内的表达式,也表示一个组

[...]    匹配字符组中的字符

[^...]   匹配除了字符组中字符的所有字符

2、量词:控制前面的元字符出现的次数

*        重复0次或更多次

+       重复一次或更多次

?      重复0次或一次

{n}     重复n次

{n,}    重复n次或更多次

{n,m} 重复n到m次

3、贪婪匹配和非贪婪匹配(重要)

.*     贪婪匹配

.*?   惰性匹配

二、Re模块

re模块中只需要记住以下几种功能就够用了

1、re.findall

匹配字符串中所有的符合正则的内容,返回list

import re
list = re.findall(r"\d+","我的电话号是:10086,小红的电话是100000")
print(list)
#运行结果:['10086', '100000']

2、re.finditer(重点)

和findall差不多,只不过这时返回的是迭代器

因为findall返回列表,当页面上数据较大时,list就会非常大,效率不高。

从迭代器中拿到内容需要.group()

import re
it = re.finditer(r"\d+","我的电话号是:10086,小红的电话是100000")
print(it)
#返回结果:<callable_iterator object at 0x000001914FB0D850>for i in it:print(i.group())
#返回结果
# 10086
# 100000

3、re.search

进行匹配,但是如果匹配到了第一个结果,就会返回这个结果。如果匹配不上search返回的是None。

如果拿到了返回的依然是迭代器,使用.group()取到匹配的内容

import re
s = re.search(r"\d+","我的电话号是:10086,小红的电话是100000")
print(s.group())
#返回结果 10086

4、re.match

只能从字符串的开头进行匹配。相当于在正则表达式前面加了一个^

import re
s1 = re.match(r"\d+","我的电话号是:10086,小红的电话是100000")
print(s1.group()) #报错,未找到
s2 = re.match(r"\d+","10086,小红的电话是100000")
print(s2.group()) #返回10086

5、预加载正则表达式(re.compile(r"\d+"))

当后面正则较为复杂的时候,就可以使用预加载,先写规则。

import re
obj = re.compile(r"\d+")
ret = obj.finditer("我的电话号是:10086,小红的电话是100000")
for it in ret:print(it.group())

6、单独提取正则中的内容

re.S的作用是让.能匹配换行符

obj = re.compile(r"<div class='.*?'><span id='\d'>(?P<hello>.*?)</span></div>", re.S)#re.S的作用是让.能匹配换行符
ret = obj.finditer(s)
for it in ret:print(it.group("hello"))
# 小米
# 华为
# 三星
# 苹果

三、实战:豆瓣top250

1、需求:

拿到排行榜的电影名称,年份,评价,打分,并使用csvwriter写入到csv文件中

2、思路:

(1)拿到页面源代码 requests

(2)通过re来提取到想要的有效信息 re

import re
import requests
import csvurl = "http://movie.douban.com/top250"
headers ={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/126.0.0.0 Safari/537.36 Edg/126.0.0.0"
}
resp = requests.get(url,headers=headers)
page_content = resp.text
#解析数据
obj = re.compile(r'<li>.*?<div class="item".*?<span class="title">(?P<name>.*?)</span>.*?'r'<p class="">.*?<br>(?P<time>.*?)&nbsp.*?'r'<span class="rating_num" property="v:average">(?P<score>.*?)</span>.*?'r'<span>(?P<judge>.*?)人评价</span>', re.S)
ret = obj.finditer(page_content)
f = open("data.csv",mode="w",encoding="utf-8")
csvwriter = csv.writer(f)
for it in ret:# print(it.group("name"))# print(it.group("time").strip())# print(it.group("score"))# print(it.group("judge"))dic = it.groupdict()dic['time'] = dic['time'].strip()#因为年份后面有空格,单独处理csvwriter.writerow(dic.values())
resp.close()

 结果:

四、实战:屠戮盗版天堂电影信息

1、需求:

想拿到2024必看篇的所有电影下载地址。

2、思路

(1)定位到2024必看篇

(2)从2024必看篇中提取到子页面的链接地址

(3)请求子页面的链接地址,拿到我们想要的下载地址

注:此站点进行了反爬措施,需要添加User-Agent和Cookie。并且编码为gb2312,需要设置。

import requests
import re
url = "https://www.dytt89.com/"
headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/126.0.0.0 Safari/537.36 Edg/126.0.0.0","Cookie":"guardok=VxXtQIYG+FVwAJLu76U/QvRiEyoXdFVFLcCsBijzPzwTF6G1uhyRle6K2pHzz4oYx32wQY0n0W/gv80enczOuA==; __vtins__KSHU1VNqce379XHB=%7B%22sid%22%3A%20%222408df8b-f3ee-5771-b99c-a0b206621ca0%22%2C%20%22vd%22%3A%201%2C%20%22stt%22%3A%200%2C%20%22dr%22%3A%200%2C%20%22expires%22%3A%201722072217375%2C%20%22ct%22%3A%201722070417375%7D; __51uvsct__KSHU1VNqce379XHB=1; __51vcke__KSHU1VNqce379XHB=8133f70d-0abb-5af7-91dc-fbf00581cf6a; __51vuft__KSHU1VNqce379XHB=1722070417377; Hm_lvt_93b4a7c2e07353c3853ac17a86d4c8a4=1722070418; Hm_lpvt_93b4a7c2e07353c3853ac17a86d4c8a4=1722070418; HMACCOUNT=4AF1B6073CA4B2F3; Hm_lvt_8e745928b4c636da693d2c43470f5413=1722070418; Hm_lpvt_8e745928b4c636da693d2c43470f5413=1722070418; Hm_lvt_0113b461c3b631f7a568630be1134d3d=1722070418; Hm_lpvt_0113b461c3b631f7a568630be1134d3d=1722070418"
}
resp = requests.get(url, verify=False,headers=headers)#verify=False去掉安全验证
resp.encoding = "gb2312"
# print(resp.text)#定位到2024必看
obj1 = re.compile(r'2024必看热片.*?<ul>(.*?)</ul>', re.S)
obj2 = re.compile(r"a href='(?P<href>.*?)'",re.S)
obj3 = re.compile(r'译  名(?P<movie>.*?)<br />.*?WORD-WRAP: break-word" bgcolor="#fdfddf"><a href="(?P<download>.*?)">', re.S)
result1 = obj1.finditer(resp.text)
for it in result1:ul = it.group()#提取子页面链接result2 = obj2.finditer(ul)for it2 in result2:href = "https://www.dytt89.com/"+it2.group("href")#请求子页面链接resp2 = requests.get(href, headers=headers,verify=False)resp2.encoding = "gb2312"#拿到子页面链接的下载地址result3 = obj3.finditer(resp2.text)for it3 in result3:print(it3.group("movie"))print(it3.group("download"))resp2.close()
resp.close()

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/385055.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

我当初装anaconda的时候浏览器默认下载路径在d盘,现在想用ipython的时候用不了了咋办?...

点击上方“Python爬虫与数据挖掘”&#xff0c;进行关注 回复“书籍”即可获赠Python从入门到进阶共10本电子书 今 日 鸡 汤 红豆生南国&#xff0c;春来发几枝。 大家好&#xff0c;我是Python进阶者。 一、前言 前几天在Python白银交流群【041】问了一个Python环境的问题&am…

Vue中el的两种写法

大家好我是前端寄术区博主PleaSure乐事。今天了解到了Vue当中有关el的两种写法&#xff0c;记录下来与大家分享&#xff0c;希望对大家有所帮助。 方法一 解释 第一种方法我们直接用new创建并初始化一个新的 Vue 实例&#xff0c;并定义了 Vue 实例的数据对象&#xff0c;在给…

postman请求响应加解密

部分接口&#xff0c;需要请求加密后&#xff0c;在发动到后端。同时后端返回的响应内容&#xff0c;也是经过了加密。此时&#xff0c;我们先和开发获取到对应的【密钥】&#xff0c;然后在postman的预执行、后执行加入js脚本对明文请求进行加密&#xff0c;然后在发送请求&am…

【Vue实战教程】之 Vue Router 路由详解

Vue Router路由 1 路由基础 1.1 什么是路由 用Vue.js创建的项目是单页面应用&#xff0c;如果想要在项目中模拟出来类似于页面跳转的效果&#xff0c;就要使用路由。其实&#xff0c;我们不能只从字面的意思来理解路由&#xff0c;从字面上来看&#xff0c;很容易把路由联想…

WordPress插件介绍页源码单页Html

源码介绍 WordPress插件介绍页源码单页Html源码&#xff0c;这是一款产品介绍使用页面&#xff0c;也可以用来做其他软件或者应用介绍下载页&#xff0c;界面简约美观&#xff0c;源码由HTMLCSSJS组成&#xff0c;双击html文件可以本地运行效果&#xff0c;也可以上传到服务器…

Angular由一个bug说起之八:实践中遇到的一个数据颗粒度的问题

互联网产品离不开数据处理&#xff0c;数据处理有一些基本的原则包括&#xff1a;准确性、‌完整性、‌一致性、‌保密性、‌及时性。‌ 准确性&#xff1a;是数据处理的首要目标&#xff0c;‌确保数据的真实性和可靠性。‌准确的数据是进行分析和决策的基础&#xff0c;‌因此…

transformers进行学习率调整lr_scheduler(warmup)

一、get_scheduler实现warmup 1、warmup基本思想 Warmup&#xff08;预热&#xff09;是深度学习训练中的一种技巧&#xff0c;旨在逐步增加学习率以稳定训练过程&#xff0c;特别是在训练的早期阶段。它主要用于防止在训练初期因学习率过大导致的模型参数剧烈波动或不稳定。…

Unity3D之TCP网络通信(客户端)

文章目录 概述TCP核心类异步机制 Unity中创建TCP客户端Unity中其它脚本获取TCP客户端接受到的数据后续改进 本文将以Unity3D应用项目作为客户端去连接制定的服务器为例进行相关说明。 Unity官网参考资料&#xff1a; https://developer.unity.cn/projects/6572ea1bedbc2a001ef…

20240725java的Controller、DAO、DO、Mapper、Service层、反射、AOP注解等内容的学习

在Java开发中&#xff0c;‌controller、‌dao、‌do、‌mapper等概念通常与MVC&#xff08;‌Model-View-Controller&#xff09;‌架构和分层设计相关。‌这些概念各自承担着不同的职责&#xff0c;‌共同协作以构建和运行一个应用程序。‌以下是这些概念的解释&#xff1a;‌…

当全球银行系统“崩溃”时会发生什么?

有句名言&#xff1a;“当美国打喷嚏时&#xff0c;世界就会感冒……”换句话说&#xff0c;当人们对美国及其经济稳定性的信心下降时&#xff0c;其他经济体&#xff08;以及黄金、白银和股票等资产&#xff09;的价值往往会下降。 与任何其他资产类别一样&#xff0c;加密货…

黑马JavaWeb企业级开发(知识清单)03——HTML实现正文:排版(音视频、换行、段落)、布局标签(div、span)、盒子模型

文章目录 前言一、正文排版1. 视频标签: < video >2. 音频标签: < audio >3. 换行标签: < br >4. 段落标签 < p >5. vscode实现 二、布局1. 盒子模型2. 布局标签< div >和< span >3. VScode实现 三、源代码和运行结果总结 前言 本篇文章是…

leetcode3098. 求出所有子序列的能量和

官解 class Solution(object):# 定义常量mod int(1e9 7) # 模数&#xff0c;用于防止结果溢出inf float(inf) # 无穷大&#xff0c;用于初始化时的特殊值def sumOfPowers(self, nums, k):n len(nums) # 数组长度res 0 # 用于存储最终结果# 三维动态规划表&#xff0c;…

24.7.17数据结构|顺序表

目录 大O的工程意义&#xff1f; 线性表 引入&#xff1a; 主要掌握【代码实现】&#xff1a; 一、线性结构 1、逻辑描述 2、顺序表 1、如何定义结构 1&#xff09;静态顺序表 1&#xff09;动态顺序表 2、写代码 &#xff08;1&#xff09;【clion创建工程】 ​编…

【数据结构】详解二叉树及其操作

无论你觉得自己多么的了不起&#xff0c;也永远有人比你更强。&#x1f493;&#x1f493;&#x1f493; 目录 ✨说在前面 &#x1f34b;知识点一&#xff1a;二叉树的遍历 • &#x1f330;1.创建一棵二叉树 • &#x1f330;2.二叉树的遍历 •&#x1f525;前序遍历 •&a…

Apache DolphinScheduler 3.2.2 版本正式发布!

Apache DolphinScheduler 3.2.2 版本正式发布&#xff01; 近日&#xff0c;Apache DolphinScheduler 发布了 3.2.2 版本。此版本主要基于 3.2.1 版本进行了 bug 修复&#xff0c;新增若干特性&#xff0c;并进行了众多改进和 Bug 修复&#xff0c;以及文档修复等。 &#x1…

【前端 08】简单学习js字符串

JavaScript中的String对象详解 在JavaScript中&#xff0c;字符串&#xff08;String&#xff09;是一种非常基础且常用的数据类型&#xff0c;用于表示文本数据。虽然JavaScript中的字符串是原始数据类型&#xff0c;但它们的行为类似于对象&#xff0c;因为JavaScript为字符…

谷粒商城实战笔记-52~53-商品服务-API-三级分类-新增-修改

文章目录 一&#xff0c;52-商品服务-API-三级分类-新增-新增效果完成1&#xff0c;点击Append按钮&#xff0c;显示弹窗2&#xff0c;测试完整代码 二&#xff0c;53-商品服务-API-三级分类-修改-修改效果完成1&#xff0c;添加Edit按钮并绑定事件2&#xff0c;修改弹窗确定按…

vue3-print-nb实现打印pdf分页

安装插件 npm install vue3-print-nb --savevue3 引入 import print from vue3-print-nb // 打印插件 app.use(print)使用 这里使用的是对象配置方式 对象配置方式——在js中定义一个对象&#xff0c;对象中可配置打印区域相关属性&#xff0c;在需要打印的单据内容最外面的…

【Django】在vscode中新建Django应用并新增路由

文章目录 打开一个终端输入新建app命令在app下的views.py内写一个视图app路由引入该视图项目路由引入app路由项目(settings.py)引入app&#xff08;AntappConfig配置类&#xff09;运行项目 打开一个终端 输入新建app命令 python manage.py startapp antapp在app下的views.py内…

MySQL第一阶段:多表查询、事务

继续我的MySQL之旅&#xff0c;继续上篇的DDL、DML、DQL、以及一些约束&#xff0c;该到了多表查询和事务的学习总结&#xff0c;以及相关的案例实现&#xff0c;为未来的复习以及深入的理解做好知识储备。 目录 多表查询 连接查询 内连接 外连接 子查询 事务 事务简介…