python爬取百度图片

1.查询数据

打开网页。

https://cn.bing.com/images/search?q=%E7%99%BE%E5%BA%A6%E5%9B%BE%E7%89%87&form=HDRSC2&first=1&cw=1585&ch=924

 我们右键查看网页源代码,发现能找到我们需要的img衔接,但是这是一个动态网页。我们每次向下滑动网页,会发现图片更新,而图片更新一般伴随着异步请求。

并且我们打开控制台,如下图所示:

1.点击网络 2.点击Fetch/XHR 

 随着向下滑动:

下图红框异步请求次数增多。

我们将异步请求衔接,在另一个标签页打开。

发现这个异步请求的响应数据有我们需要的图片。

2.请求数据

我们在上面知道是一个动态网页之后,并且找到请求img的地址之后,我们是不是要探寻请求url的规律,发现是如何向下滚动,出现新的图片?

经过查找对比,发现这几个请求参数,新的请求会发生变化。

 然后,我们通过对这几个参数修改进行请求,发现实际起作用的是first。也就是图片起始索引。

另外,q也就是我们搜索的数据进行url编码之后的东西。

3.解析数据

我们找到我们找寻的图片在哪里,但是发现请求响应的是一堆html + css + js代码,因此我们需要对其进行过滤,只找到我们需要的img的url。

我们在打开刚才的那个异步请求url,查看页面源代码。

将前端代码,粘贴到在线 HTML 格式化工具,HTML 代码美化工具 - 在线工具-wetools.com微工具

这个html格式化工具里面,格式化后,将格式化后的代码,粘贴到vscode里面。 

 我们查看代码发现,我们需要img的url,是在下图所示的层级结构里面:

 更往上的html层级结构为:

 因此我们的python爬虫代码可以这样写:

from lxml import etree
import requests
from fake_useragent import UserAgentif __name__ == '__main__':headers = {'User-Agent': UserAgent().random}url = "https://cn.bing.com/images/async?q=%e7%99%be%e5%ba%a6%e5%9b%be%e7%89%87&first=162" \"&count=35&cw=1177&ch=909&relp=35&apc=0&datsrc=I&layout=RowBased&mmasync=1&dgState=x*740_y*940_h*180_c*3_i*106_r*20&" \"IG=1EA071CC53E44DFA8101AF041D481594&SFX=4&iid=images.5563"# 请求响应数据html = requests.get(url=url,headers=headers).textp = etree.HTML(html)img_list = []# 解析响应数据ul_list = p.xpath('//ul[@data-row]')     # 基准表达式for ul in ul_list:li_list = ul.xpath('.//li[@data-idx]')for li in li_list:img1_list = list(li.xpath('.//img[contains(@class,"mimg")]/@src'))img2_list = list(li.xpath('.//img[contains(@class,"cimg")]/@src'))for img1 in img1_list:img_list.append(img1)for img2 in img2_list:img_list.append(img2)print(img_list)

4.将图片保存到本地

我们将上述img 衔接,再次进行请求并下载到本地。

    # 保存图片def save_images(self, img_list, dir_path, q):# 不存在,创建目录dir_path = dir_path + '/' + q + "/"if not os.path.exists(dir_path):os.makedirs(dir_path)i = 1for img in  img_list:img_path = '{}{}-{}.jpg'.format(dir_path,q,i)self.save_image(img_path,img)i += 1# 保存图片def save_image(self,img_path,img):html = requests.get(url=img,headers=self.get_headers()).contentwith open(img_path,'wb') as f:f.write(html)

4.完整代码

from lxml import etree
import requests
from fake_useragent import UserAgent
from urllib import parse
import osclass BaiduSpider:def __init__(self):self.url = "https://cn.bing.com/images/async?q={}&first={}&count=35&cw=1177&ch=909" \"&relp=35&apc=0&datsrc=I&layout=RowBased&mmasync=1"# 获取请求头def get_headers(self):return {'User-Agent': UserAgent().random}# 获取响应数据def get_html(self, q, first):q = parse.quote(q)url = self.url.format(q, first)html = requests.get(url=url, headers=self.get_headers()).textreturn html# 解析响应数据def parse_html(self, html):p = etree.HTML(html)img_list = []# 基准表达式ul_list = p.xpath('//ul[@data-row]')for ul in ul_list:li_list = ul.xpath('.//li[@data-idx]')for li in li_list:img1_list = list(li.xpath('.//img[contains(@class,"mimg")]/@src'))img2_list = list(li.xpath('.//img[contains(@class,"cimg")]/@src'))for img1 in img1_list:img_list.append(img1)for img2 in img2_list:img_list.append(img2)print(img_list)return img_list# 保存图片列表def save_images(self, img_list, dir_path, q):# 不存在,创建目录dir_path = dir_path + '/' + q + "/"if not os.path.exists(dir_path):os.makedirs(dir_path)i = 1for img in  img_list:img_path = '{}{}-{}.jpg'.format(dir_path,q,i)self.save_image(img_path,img)i += 1# 保存图片def save_image(self,img_path,img):html = requests.get(url=img,headers=self.get_headers()).contentwith open(img_path,'wb') as f:f.write(html)# 入口函数def run(self):q = input("请输入搜索内容:")first = int(input("请输入起始页数:"))dir_path = "../img"html = self.get_html(q, first)img_list = self.parse_html(html)self.save_images(img_list, dir_path, q)if __name__ == '__main__':bds = BaiduSpider()bds.run()

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/145885.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

RHEL8.0安装+基础命令练习+discuz(lamp)论坛搭建

上课练习环境: RHEL8.0系统镜像下载: 链接1:https://pan.baidu.com/s/1wX2j-aTO1VRcHQYpCDYnEg 提取码:6buv 链接2:https://ws28.cn/f/32i4oq8p5r1 (下载完2个文件后只需要解压001,推荐压缩…

Ubuntu服务器安全性提升:修改SSH默认端口号

在Ubuntu服务器上,SSH(Secure Shell)是一种至关重要的远程连接工具。它提供了一种安全的方式来远程连接和管理计算机系统,通过加密通信来确保数据的保密性和完整性。SSH协议广泛用于计算机网络中,用于远程管理、文件传…

打包python模块代码到pypi

python中,我们会在自己业务中,重复性的使用某些功能。我们可以把这些公用的模块,打包上传,然后给需要的人使用,pypi给我们提供了这个机会 本期目录 一、准备工作 二、编写文件 三、上传下载 一、准备工作 1、需要git…

妙不可言的Python之旅----(一)

初识Python python的起源 1989年,为了打发圣诞节假期,Gudio van Rossum吉多 范罗苏姆(龟叔)决心开发一个新的解释程序(Python雏形) 1991年,第一个Python解释器诞生 Python这个名字&#xff…

ubuntu 18.04 LTS安装opencv 3.4.16 + opencv_contrib 3.4.16

1.下载 opencv 3.4.16 opencv_contrib 3.4.16 其中,opencv_contrib解压后的多个文件夹复制到opencv内、合并 2.安装 参考博文: https://zhuanlan.zhihu.com/p/650792342 https://zhuanlan.zhihu.com/p/87197806 其中 (1)cmake前…

Redis与分布式-哨兵模式

接上文 Redis与分布式-主从复制 1.哨兵模式 启动一个哨兵,只需要修改配置文件即可, sentinel monitor lbwnb 1247.0.0.1 6001 1先将所有服务关闭,然后修改配置文件,redis Master,redis Slave,redis Slave…

基于大语言模型扬长避短架构服务

秘诀: 扬泛化之长, 避时延之短

最新AI智能创作系统ChatGPT商业源码+详细图文搭建部署教程+AI绘画系统

一、AI系统介绍 SparkAi创作系统是基于国外很火的ChatGPT进行开发的Ai智能问答系统。本期针对源码系统整体测试下来非常完美,可以说SparkAi是目前国内一款的ChatGPT对接OpenAI软件系统。那么如何搭建部署AI创作ChatGPT?小编这里写一个详细图文教程吧&am…

Python学习之索引与切片

Python学习之索引与切片 s “0abcdefghijklmnopqrstuvwxyz”,第一个元素‘0’,索引号为0,最后一个元素‘z’,索引号为26 1. s[0]获取索引号为0的元素 2. s[1:3]获取索引号为1的元素,直到但不包括索引号为3的元素。即…

西门子S7-1200使用LRCF通信库与安川机器人进行EthernetIP通信的具体方法示例

西门子S7-1200使用LRCF通信库与安川机器人进行EthernetIP通信的具体方法示例 准备条件: PLC:S7-1200 1214C DC/DC/DC 系统版本4.5及以上。 机器人控制柜:安川YRC1000。 软件:TIA V17 PLC做主站,机器人做从站。 具体方法可参考以下内容: 使用的库文件为西门子 1200系列…

源码编译安装systemtap

目录 编译环境 编译步骤 编译环境 阿里云ubuntu20.04 编译步骤 1 先安装elfutils,参见我的前一篇博客 源码编译elfutils_金色熊族的博客-CSDN博客 2 下载systemtap源码 3 解压 解压后的文件夹与elfutils的文件夹应该是平行的,如下图&#xff1a…

网页一直跳转到国家反诈中心页面

很明显,我进入的是vscode的官方下载地址。 但是一直会出现反诈中心的拦截 我们需要在控制面板中,找到网络, 将Internet 协议版本 4 (TCP/IPv4)的属性改成 使用下面的DNS 服务地址(E):8.8.8.8 这样就可以正常访问相关的页面了

ElementPlus

1.国际化--中文 import ElementPlus from element-plus import zhCn from element-plus/dist/locale/zh-cn.mjsapp.use(ElementPlus, {locale: zhCn, }) 2.排序

Redis各数据类型特定的命令和用法 1.0版本

目录 一、Sring数据类型1.1 概述1.2 set/get/append/strlen命令1.3 incr/decr/incrby/decrby 命令1.4 getset命令1.5 setex命令1.6 setnx命令1.7 mset/mget/msetnx命令 二、List数据类型2.1 概述2.2 lpush/lpushx/lrange命令2.3 lpop/llen命令2.4 lrem/lset/lindex/ltrim命令2.…

Linux Ubuntu配置Git的方法

本文介绍在Linux操作系统的Ubuntu版本中,配置分布式开源版本控制系统Git,随后基于Git克隆GitHub中项目的代码的详细方法。 在之前的文章分布式版本控制系统Git的下载、安装与使用其复制GitHub项目代码的方法(https://blog.csdn.net/zhebushib…

思维模型 周期

本系列文章 主要是 分享 思维模型,涉及各个领域,重在提升认知。周期是一个看似极为简单,但背后却蕴藏着大智慧的模型,了解周期,对于了解王朝更替,数学之美,经济运转等都有帮助。 1 周期的应用 …

番外5:下载+安装+配置Linux

任务前期工作: 01. 电脑已安装好VMware Workstation软件; 02.提前下载好Rhel-8.iso映像文件(文件较大一般在9.4GB,建议采用迅雷下载),本人使用的以下版本(地址ed2k://|file|rhel-8.4-x86_64-dvd…

1.物联网射频识别,RFID概念、组成、中间件、标准,全球物品编码——EPC码

1.RFID概念 RFID是Radio Frequency Identification的缩写,又称无线射频识别,是一种通信技术,可通过无线电讯号识别特定目标并读写相关数据,而无需与被识别物体建立机械或光学接触。 RFID(Radio Frequency Identificati…

神经网络中的知识蒸馏

多分类交叉熵损失函数:每个样本的标签已经给出,模型给出在三种动物上的预测概率。将全部样本都被正确预测的概率求得为0.70.50.1,也称为似然概率。优化的目标就是希望似然概率最大化。如果样本很多,概率不断连乘,就会造…

【C++】单例模式

文章目录 一. 介绍二. 饿汉模式三. 懒汉模式四. 饿汉模式和懒汉模式对比 一. 介绍 单例模式是属于设计模式的一种,那什么是设计模式呢? 设计模式(Design Pattern)是一套被反复使用、多数人知晓的、经过分类的、代码设计经验的总…