《0基础》学习Python——第二十二讲__网络爬虫/<5>爬取豆瓣电影封面图

一、爬取豆瓣电影的图片封面

        1、经过上节课我们所爬取的豆瓣电影的电影名、年份、国家、导演、主演、剧情,那么接下来我们将学习如何去爬取这些电影的图片,并将这些图片存放在文件夹中。

        2、过程实现:

        2.1、获取网页源码

        首先还是和爬取电影名一样,先从网页获取到URL、然后再发送get请求、进行UA伪装,此处的代码如下:

if __name__ == '__main__':# UA伪装head = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/126.0.0.0 Safari/537.36 Edg/126.0.0.0'}# 获取urlurl = 'https://movie.douban.com/top250'# 发送请求response = requests.get(url, headers=head)# 返回数据类型cont_text = response.textprint(cont_text)#打印数据,用于查看是否爬取成功

       此时有打印结果说明获取网页信息成功,接下来继续对这段长数据进行处理

注意:部分网页需要登录账号才能爬取,此时需要在URL那一栏找到Cookie

53e60b2071684a658acbbf0632dd7f0d.png

       

        复制这段Cookie所对应的内容,将它增加到head里面去,如下列代码

# UA伪装head = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/126.0.0.0 Safari/537.36 Edg/126.0.0.0','Cookie':"ll="118183"; bid=H3WRaEnQCkI; _pk_id.100001.4cf6=5df013865257fa4c.1721368722.; __yadk_uid=rm8FHEGxJVSUzh7rJTZUbbphUwvgHrjb; _pk_ref.100001.4cf6=%5B%22%22%2C%22%22%2C1721535985%2C%22https%3A%2F%2Fcn.bing.com%2F%22%5D; __utma=30149280.1409929673.1721368655.1721448364.1721535985.8; __utmc=30149280; __utma=223695111.1684481215.1721368722.1721448364.1721535985.5; __utmc=223695111"}

Cookie:用于记录用户的个人偏好和行为,例如登录信息、购物车内容、网站语言等。它们还可以用于跟踪用户的浏览行为和收集统计信息,以便网站可以优化用户体验和提供相关的广告。此为用户私密信息,不要随意传播

        

        2.2、找到图片所对应的标签位置

9e7693f18c18452db5b3872f2a4437c0.png

        2.2.1、定位所需内容所处标签位置

        用以下代码直接定位到 li 标签位置,并获取所有的 li 标签信息

cont_text = response.text# print(cont_text)#打印数据,用于查看是否爬取成功#对得到的数据进行解析tree=etree.HTML(cont_text)# print(tree)#获取所有的li标签lis_li=tree.xpath("//ol[@class='grid_view']/li")# print(lis_li)

其打印结果为element对象:

b2f73dbc8a9f4b3aa1bb69f29a20b7d7.png

        2.2.2、获取图片的URL:

    for li in lis_li:#对单个li标签进行xpath处理#xpath返回列表,用join去除列表img_url="".join(li.xpath('./div/div[1]/a/img/@src'))print(img_url)

即获取所有li标签,然后再通过xpath获取到图片的URL:

其打印结果为:

af7466414acb4917a2475731964a912b.png

2.3、通过图片URL获取图片的二进制数据

有了图片的URL即可再通过get请求得到图片的二进制数据,因为图片是以二进制数据的类型存放,代码如下

img_url="".join(li.xpath('./div/div[1]/a/img/@src'))# print(img_url)#发送get请求img_response=requests.get(img_url,headers=head)#获取图片的二进制数据img_con=img_response.content#此处img_response.content没有用text是因为图片数据是二进制print(img_con)

其打印结果为二进制数据:530eedd281264a48b4d51b73e4d42548.png

2.4、存放图片到文件夹

        将获取的图片信息分别写入文件,存放在文件夹中,将图片名后缀名改为JPG格式即可完成图片的爬取

2.4.1  导入一个库用来创建文件夹来存放图片

import os.path

其创建方式为:

import os.pathos.mkdir('./film_pic') #此处为在当前代码同级目录下创建一个名为film_pic的文件夹

2.4.2 创建图片文件

命名图片名后,以二进制模式写入图片二进制编码数据:

with open(f'./film_pic/{i}.jpg','wb') as fp:fp.write(img_con)

2.5 爬取成功图片

b8565e99d0d44b01b7b6373c4d545818.png

二、完整代码实现

import os.path #导入包用来创建新的文件夹
import requests
from lxml import etreeif __name__ == '__main__':# UA伪装head = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/126.0.0.0 Safari/537.36 Edg/126.0.0.0'}# 获取urlurl = 'https://movie.douban.com/top250'# 发送请求response = requests.get(url,headers=head)# 返回数据类型cont_text = response.text# print(cont_text)#打印数据,用于查看是否爬取成功#对得到的数据进行解析tree=etree.HTML(cont_text)# print(tree)#获取所有的li标签lis_li=tree.xpath("//ol[@class='grid_view']/li")# print(lis_li)#将每一条li标签分别提取出来os.mkdir('./film_pic') #创建同级文件夹用来存放图片文件i=0for li in lis_li:#对单个li标签进行xpath处理#xpath返回列表,用join去除列表img_url="".join(li.xpath('./div/div[1]/a/img/@src'))# print(img_url)#发送get请求img_response=requests.get(img_url,headers=head)#获取图片的二进制数据img_con=img_response.contentprint(img_con)with open(f'./film_pic/{i}.jpg','wb') as fp:fp.write(img_con)i=i+1

三、随机生成UA标识

import fake_useragent#随机生成浏览器标识,其中包括window、mac、Android、iOS系统
head={'User-Agent':fake_useragent.UserAgent().random
}

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/381633.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

FreeU: Free Lunch in Diffusion U-Net

FreeU:扩散 U-Net 模型的免费午餐 论文链接:https://arxiv.org/abs/2309.11497 代码链接:https://github.com/ChenyangSi/FreeU 项目链接:https://chenyangsi.top/FreeU/(CVPR2024) Abstract 在本文中,…

python3.10.4——windows环境安装

python下载官网:https://www.python.org/downloads/ 如果安装在C盘,需要右键→选择“以管理员身份运行” 勾选2个按钮,选择自定义安装 全部选择,点击Next 更改安装路径 命令行检查python是否安装成功: 出现版本号说明…

web前端学习笔记Day02

web学习Day02 一、页面布局 盒子模型 盒子将页面的所有标签都包含在了一个矩形区域content(内容区域)->padding(内边距区域)->border(边框区域)->margin(外边距区域) div标签: 一行只能显示一个(独占一行)width默认为父元素宽度&#xff0c…

21k star 开源项目,让模糊图像秒变高清!

不知道大家有没有遇到这样的需求:电脑里有一些很久之前保存的好看的图片,但是因为分辨率不高,当做壁纸使用会变得模糊。或者是从网上下载的需要使用的图片,找不到更高清的版本导致使用效果不好。之前分享过基于 Real-ESRGAN 算法修…

安全与便捷并行,打造高效易用的用户支付体验

在当今数字时代,快捷、安全的支付方式已经成为用户日常生活中不可或缺的一部分。不论是在线购物、订阅服务,还是线下消费,用户都期望享受流畅且安全的支付体验。作为开发者,选择适合的支付服务不仅关乎用户体验,更直接…

开源模型应用落地-FastAPI-助力模型交互-进阶篇-中间件(四)

一、前言 FastAPI 的高级用法可以为开发人员带来许多好处。它能帮助实现更复杂的路由逻辑和参数处理,使应用程序能够处理各种不同的请求场景,提高应用程序的灵活性和可扩展性。 在数据验证和转换方面,高级用法提供了更精细和准确的控制&#…

【优秀设计案例】基于K-Means聚类算法的球员数据聚类分析设计与实现

背景及意义 随着NBA比赛的日益竞争激烈,球队需要更加深入地了解球员的能力和特征,以制定更有效的战术和球队管理策略。而NBA球员的统计数据包含了大量有价值的信息,通过对这些数据进行聚类分析,可以揭示出球员之间的相似性和差异…

套接字编程一(简单的UDP网络程序)

文章目录 一、 理解源IP地址和目的IP地址二、 认识端口号1. 理解 "端口号" 和 "进程ID"2. 理解源端口号和目的端口号 三、 认识协议1. 认识TCP协议2. 认识UDP协议 四、 网络字节序五、 socket编程接口1. socket 常见API2. sockaddr结构(1&#…

Leetcode1688. 比赛中的配对次数

问题描述: 给你一个整数 n ,表示比赛中的队伍数。比赛遵循一种独特的赛制: 如果当前队伍数是 偶数 ,那么每支队伍都会与另一支队伍配对。总共进行 n / 2 场比赛,且产生 n / 2 支队伍进入下一轮。如果当前队伍数为 奇…

如何获得Cesium的TileSet并设置本地服务器的Url

一.总体思路 首先使用管理者获得TileSet,通过JSON文件读写,调用对应的Cesium内部提供的函数。 UE5中Json文件的读取与解析 - 知乎 (zhihu.com) 不太了解JSON的可以学习这个。 二.具体实现 1.创建Actor,并且 如何获得Cesium的TileSet,设置本地Url 一…

PHP连接MySQL数据库

PHP本身不具备操作MySQL数据库的能力,需要借助MySQL扩展来实现。 1、PHP加载MySQL扩展:php.ini文件中。(不要用记事本打开) 2、PHP中所有扩展都是在ext的文件夹中,需要指定扩展所在路径:extension_dir。 3、…

Vue项目实现单点登录(SSO)的逻辑和基本流程

项目集群如果一个一个登录会非常麻烦,尤其是一些大企业或者多项目使用一套体系数据的环境中,这时候登录中心也就应用而生, 今天简单说一下vue sso的实现思路,vue项目实现单点登录(SSO)通常涉及以下几个步骤…

【数据结构】排序算法——Lessen1

Hi~!这里是奋斗的小羊,很荣幸您能阅读我的文章,诚请评论指点,欢迎欢迎 ~~ 💥💥个人主页:奋斗的小羊 💥💥所属专栏:C语言 🚀本系列文章为个人学习…

防御保护课-防火墙接口配置实验

一、实验拓扑 (我做实验用的图如下) 二、实验要求 1.防火墙向下使用子接口分别对应生产区和办公区 2.所有分区设备可以ping通网关 三、实验思路 配IP; 划分vlan并配置vlan; 配置路由和安全策略。 四、实验配置 1、画图并…

【引领未来智造新纪元:量化机器人的革命性应用】

在日新月异的科技浪潮中,量化机器人正以其超凡的智慧与精准的操作,悄然改变着各行各业的生产面貌,成为推动产业升级、提升竞争力的关键力量。今天,让我们一同探索量化机器人在不同领域的广泛应用价值,见证它如何以科技…

相对定位语法:css+xpath基础语法使用-定位页面元素

文章目录 CSS相对定位获取元素关系定位顺序关系 XPath相对定位基础语法顺序关系-通过索引获取元素选取元素 总结 ✨✨✨学习的道路很枯燥,希望我们能并肩走下来! 编程真是一件很奇妙的东西。你只是浅尝辄止,那么只会觉得枯燥乏味&#xff0c…

python基础语法 007 文件操作-2文件支持模式文件的内置函数

1.3 文件支持的模式 模式含义ropen a file for reading(default)wopen a file for writing,creates a new file if it does not exist or truncates the file if it exists x open a file foe exclusive creation. if the file already exists, the operation fails.独创模式&…

数据结构day4

一、思维导图 二、课后练习 头文件 #ifndef LINKLIST_H #define LINKLIST_H #include <myhead.h>//定义数据类型 typedef int datatype;//定义节点类型 typedef struct Node {union{int len; //头结点数据域datatype data; //普通节点数据域};struct Node *next; …

PyTorch 深度学习实践-处理多维特征的输入

视频指路 参考博客笔记 参考笔记二 通过多个线性模型来模拟非线性的空间变换&#xff0c;矩阵计算就是不同维度之间的空间转换 说明&#xff1a;1、乘的权重(w)都一样&#xff0c;加的偏置(b)也一样。b变成矩阵时使用广播机制。神经网络的参数w和b是网络需要学习的&#xff0c…

浏览器跨tab页面通信方式总结

需求&#xff1a; 浏览器不同 tab 标签页之间是独立的&#xff0c; 如果要通信必须通过特殊手段来实现跨标签页通信。 1.StorageEvent 事件 当一个标签页 localStorage 变化时&#xff08;sessionStorage 无效&#xff09;&#xff0c;同源下另一个或其他所有标签页使用 DO…