爬虫——Requests库的使用

在爬虫开发中,HTTP请求是与服务器进行交互的关键操作。通过发送HTTP请求,爬虫可以获取目标网页或接口的数据,而有效地处理请求和响应是爬虫能够高效且稳定运行的基础。Requests库作为Python中最常用的HTTP请求库,因其简洁、易用和强大的功能,广泛应用于爬虫开发中。本章将详细介绍如何使用Requests库进行HTTP请求的处理,以及如何应对各种实际问题,如设置请求头、处理Cookies、设置超时和重试机制等。

第一节:Requests库的使用

1.1 发送GET和POST请求

Requests库支持多种HTTP请求方式,其中最常用的是GET请求和POST请求。GET请求通常用于获取网页或接口数据,而POST请求则用于向服务器发送数据。掌握这两种请求的使用方式是进行网页抓取的基础。

1.1.1 发送GET请求

GET请求是HTTP协议中最常见的请求方式,用于请求指定的资源或数据。使用Requests发送GET请求非常简单,只需要调用requests.get()方法,并传入目标URL。

import requests# 发送GET请求
response = requests.get('https://www.example.com')# 获取响应内容
print(response.status_code)  # 状态码
print(response.text)          # 网页内容

注意

  • response.status_code 返回HTTP响应的状态码,200表示请求成功。
  • response.text 返回的是响应的内容,即网页的HTML源代码。
1.1.2 发送POST请求

POST请求用于向服务器提交数据,通常用于表单提交或API数据创建。使用requests.post()方法可以发送POST请求,常见的请求体格式有JSON、form-data等。

import requests# 准备要发送的数据
data = {'username': 'myuser','password': 'mypassword'
}# 发送POST请求
response = requests.post('https://www.example.com/login', data=data)# 获取响应内容
print(response.status_code)
print(response.text)

对于JSON格式的POST请求,可以设置请求头为application/json,并将数据以JSON格式发送:

import requests
import json# 准备要发送的JSON数据
data = {'username': 'myuser','password': 'mypassword'
}# 发送POST请求
response = requests.post('https://www.example.com/login', json=data)print(response.status_code)
print(response.json())  # 返回JSON格式的响应

关键点

  • 使用data=发送表单数据(application/x-www-form-urlencoded)。
  • 使用json=发送JSON数据(application/json)。
  • response.json()用于解析返回的JSON格式响应,返回Python字典。
1.2 处理Cookies和Headers

在爬虫中,常常需要模拟浏览器行为,这时处理Cookies和Headers是非常重要的。通过设置请求头(Headers)和Cookies,爬虫能够模仿真实用户访问网站的行为,避免被反爬虫机制阻止。

1.2.1 设置请求头(Headers)

请求头是HTTP请求中的一部分,包含了请求的元信息,如User-AgentContent-TypeAuthorization等。正确地设置请求头能够帮助爬虫绕过一些简单的反爬虫措施。

import requests# 设置自定义请求头
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
}# 发送GET请求,带上请求头
response = requests.get('https://www.example.com', headers=headers)print(response.status_code)
print(response.text)

常见的请求头:

  • User-Agent: 用于标识客户端浏览器类型。
  • Accept: 告诉服务器客户端能接受哪些格式的数据(如application/jsontext/html等)。
  • Authorization: 用于认证,通常携带API的访问Token。
  • Referer: 表示当前请求的来源页面。
1.2.2 处理Cookies

Cookies是服务器在浏览器端存储的小块数据,用于保持会话状态。通过Requests发送请求时,可以手动传递Cookies,或者在会话中自动管理Cookies。

传递Cookies

import requests# 设置Cookies
cookies = {'sessionid': '1234567890abcdef'
}# 发送GET请求,带上Cookies
response = requests.get('https://www.example.com', cookies=cookies)print(response.status_code)
print(response.text)

自动处理Cookies: 通过requests.Session()Requests库会自动管理Cookies,包括存储和传递Cookies。

import requests# 创建会话对象
session = requests.Session()# 发送请求时,自动保存并传递Cookies
response = session.get('https://www.example.com')print(response.status_code)
print(response.text)# 关闭会话
session.close()

会话(Session)

  • 会话对象requests.Session()用于在多个请求之间保持某些参数(如Cookies、Headers)的一致性。
  • 可以在同一个会话中发送多个请求,requests.Session()会自动管理Cookies,模拟持续的用户会话。
1.3 设置超时和重试机制

在爬虫中,网络请求的超时和重试机制是非常重要的,它能帮助我们确保爬虫在遇到网络波动时不会一直等待,或者避免频繁请求失败导致程序崩溃。

1.3.1 设置请求超时

设置超时可以防止爬虫因为请求阻塞过长时间而无法继续执行。当网络连接过慢或者目标网站响应时间过长时,设置超时是十分必要的。

import requests# 设置超时为5秒
response = requests.get('https://www.example.com', timeout=5)print(response.status_code)
print(response.text)

超时参数

  • timeout 参数接受一个整数或元组(连接时间,响应时间)。例如,timeout=(3, 5) 表示连接超时为3秒,响应超时为5秒。
1.3.2 设置重试机制

爬虫请求有时会因为临时的网络问题或服务器响应过慢而失败。为此,我们可以实现自动重试机制,在请求失败时自动重试。

可以使用requests.adapters.HTTPAdapterurllib3的重试功能来实现重试机制。

import requests
from requests.adapters import HTTPAdapter
from urllib3.util.retry import Retry# 创建一个Session对象
session = requests.Session()# 配置重试策略
retry = Retry(total=3,           # 最大重试次数backoff_factor=1,  # 重试的延迟时间间隔(每次重试等待时间为backoff_factor * (2 ^ (重试次数 - 1)))status_forcelist=[500, 502, 503, 504]  # 对哪些HTTP状态码进行重试
)# 配置重试策略到Session
adapter = HTTPAdapter(max_retries=retry)
session.mount('http://', adapter)
session.mount('https://', adapter)# 发送请求
response = session.get('https://www.example.com')print(response.status_code)
print(response.text)# 关闭会话
session.close()

重试策略参数

  • total:最大重试次数。
  • backoff_factor:控制重试间隔时间的因子。
  • status_forcelist:指定哪些HTTP状态码触发重试,通常500、502、503、504等服务器错误码会触发重试。
1.4 错误处理与异常捕获

在实际开发中,我们还需要处理各种请求可能遇到的异常情况。Requests库提供了丰富的错误处理机制,可以捕获网络异常、超时异常等。

import requests
from requests.exceptions import RequestException, Timeouttry:response = requests.get('https://www.example.com', timeout=5)response.raise_for_status()  # 如果返回状态码不是200,抛出异常
except Timeout:print("请求超时")
except RequestException as e:print(f"请求错误:{e}")
else:print("请求成功")print(response.text)

常见异常:

  • requests.exceptions.Timeout:请求超时。
  • requests.exceptions.RequestException:所有Request异常的基类。

小结

通过Requests库的使用,我们可以轻松地发送GET和POST请求,模拟浏览器请求,管理Cookies和Headers,并处理请求的超时和重试机制。掌握这些技能,可以帮助爬虫开发者更好地与目标网站进行交互,处理复杂的请求和响应,从而提高爬虫的效率和稳定性。在后续章节中,我们将继续深入讨论如何解析和提取网页中的数据,进一步提升爬虫的功能和性能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/473591.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于python Django的boss直聘数据采集与分析预测系统,爬虫可以在线采集,实时动态显示爬取数据,预测基于技能匹配的预测模型

本系统是基于Python Django框架构建的“Boss直聘”数据采集与分析预测系统,旨在通过技能匹配的方式对招聘信息进行分析与预测,帮助求职者根据自身技能找到最合适的职位,同时为招聘方提供更精准的候选人推荐。系统的核心预测模型基于职位需求技…

pytest | 框架的简单使用

这里写目录标题 单个文件测试方法执行测试套件的子集测试名称的子字符串根据应用的标记进行选择 其他常见的测试命令 pytest框架的使用示例 pytest将运行当前目录及其子目录中test_*.py或 *_test.py 形式的所有 文件 文件内的函数名称可以test* 或者test_* 开头 单个文件测试…

杰控通过 OPCproxy 获取数据发送到服务器

把数据从 杰控 取出来发到服务器 前提你在杰控中已经有变量了(wincc 也适用) 打开你的opcproxy 软件包 opcvarFile 添加变量 写文件就写到 了 opcproxy.ini中 这个文件里就是会读取到的数据 然后 opcproxy.exe发送到桌面快捷方式再考回来 &#…

Ubuntu 的 ROS 操作系统 turtlebot3 导航仿真

引言 导航仿真是机器人自动化系统中不可或缺的一部分,能够帮助开发者在虚拟环境中测试机器人在复杂场景下的运动与路径规划。 在 Gazebo 仿真环境中,TurtleBot3 配合 ROS 操作系统提供了强大的导航功能。在进行导航仿真时,首先需要准备地图&…

Django5 2024全栈开发指南(一):框架简介、环境搭建与项目结构

目录 一、Python Web框架要点二、Django流程2.1 Django介绍2.1.1 简介2.1.2 特点2.1.3 MVT模式2.1.4 Django新特性2.1.5 Django学习资料 2.2 搭建Django框架开发环境2.2.1 安装Python语言环境2.2.2 安装Django框架 2.3 创建Django项目2.4 Pycharm创建项目2.5 初试Django52.5.1 …

Vue3 -- 项目配置之eslint【企业级项目配置保姆级教程1】

下面是项目级完整配置1➡eslint:【吐血分享,博主踩过的坑你跳过去!!跳不过去?太过分了给博主打钱】 浏览器自动打开项目: 你想释放双手吗?你想每天早上打开电脑运行完项目自动在浏览器打开吗&a…

【流量分析】常见webshell流量分析

免责声明:本文仅作分享! 对于常见的webshell工具,就要知攻善防;后门脚本的执行导致webshell的连接,对于默认的脚本要了解,才能更清晰,更方便应对。 (这里仅针对部分后门代码进行流量…

【MQTT.fx 客户端接入 阿里云平台信息配置】

1、打开界面,点击如下图⚙图标 2、点击左下角➕,添加新的配置,Profile Name 同阿里云平台设备名。 3、打开已经配置好的阿里云平台,进入设备信息界面,点击“MQTT连接参数”, 4、其他参数,对…

抽象java入门1.5.3.1——类的进阶

前言:在研究神技代码Hello word的时候,发现了一个重大公式bug,在代码溯源中,我发现了一个奇怪的东西,就是OUT不是类中类(不是常规类的写法) 内容总结: 代码运行的顺序复习 正片开始…

vue2+3 —— Day5/6

自定义指令 自定义指令 需求&#xff1a;当页面加载时&#xff0c;让元素获取焦点&#xff08;一进页面&#xff0c;输入框就获取焦点&#xff09; 常规操作&#xff1a;操作dom “dom元素.focus()” 获取dom元素还要用ref 和 $refs <input ref"inp" type&quo…

JAVA-链表

1.链表的概念及结构 链表是一种物理存储结构上非连续存储结构(逻辑上连续)&#xff0c;数据元素的逻辑顺序是通过链表中的引用链接次序实现的 。 注意&#xff1a; 根据上图可看出&#xff0c;链表是在逻辑结构连续的&#xff0c;但是在物理结构上不一定现实中的结点一般都是通…

RTSP播放器EasyPlayer.js播放器UniApp或者内嵌其他App里面webview需要截图下载

EasyPlayer.js H5播放器&#xff0c;是一款能够同时支持HTTP、HTTP-FLV、HLS&#xff08;m3u8&#xff09;、WS、WEBRTC、FMP4视频直播与视频点播等多种协议&#xff0c;支持H.264、H.265、AAC、G711A、Mp3等多种音视频编码格式&#xff0c;支持MSE、WASM、WebCodec等多种解码方…

DB Type

P位 p 1时段描述符有效&#xff0c;p 0时段描述符无效 Base Base被分成了三个部分&#xff0c;按照实际拼接即可 G位 如果G 0 说明描述符中Limit的单位是字节&#xff0c;如果是G 1 &#xff0c;那么limit的描述的单位是页也就是4kb S位 S 1 表示代码段或者数据段描…

【Fargo】23:采集时间转rtp时间

RTP时间戳 编码会沿用当前时间,以毫秒计算,而rtp传输系统采用的是时间基准并不是当前时间RTP 时间戳为了多媒体不同流之间实现同步而设计的。Mediasoup的clockrate参数就是指定这个的 采集实现戳是当前时间uint32类型的毫秒,如果使用rtp发送h264编码的rtp包,时间戳要怎么打…

Android Osmdroid + 天地图 (一)

Osmdroid 天地图 前言正文一、配置build.gradle二、配置AndroidManifest.xml三、获取天地图的API Key① 获取开发版SHA1② 获取发布版SHA1 四、请求权限五、显示地图六、源码 前言 Osmdroid是一款完全开源的地图基本操作SDK&#xff0c;我们可以通过这个SDK去加一些地图API&am…

HTML5+CSS前端开发【保姆级教学】+新闻文章初体验

Hello&#xff0c;各位编程猿们&#xff01;上一篇文章介绍了前端以及软件的安装&#xff0c;这一篇我们要继续讲解页面更多知识点&#xff0c;教大家做一篇新闻题材的文章 新闻文章 当我们点开浏览器经常看到各种各样的文章&#xff0c;今天我们就来看看大家最喜欢关注的体育…

无人机动力系统测试-实测数据与CFD模拟仿真数据关联对比分析

我们经常被问到这样的问题&#xff1a;“我们计划运行 CFD 仿真&#xff0c;我们还需要对电机和螺旋桨进行实验测试吗&#xff1f;我们可能有偏见&#xff0c;但我们的答案始终是肯定的&#xff0c;而且有充分的理由。我们自己执行了大量的 CFD 仿真&#xff0c;但我们承认&…

【HarmonyOS】鸿蒙系统在租房项目中的项目实战(二)

从今天开始&#xff0c;博主将开设一门新的专栏用来讲解市面上比较热门的技术 “鸿蒙开发”&#xff0c;对于刚接触这项技术的小伙伴在学习鸿蒙开发之前&#xff0c;有必要先了解一下鸿蒙&#xff0c;从你的角度来讲&#xff0c;你认为什么是鸿蒙呢&#xff1f;它出现的意义又是…

深度学习神经网络创新点方向

一、引言 深度学习神经网络在过去几十年里取得了令人瞩目的成就&#xff0c;从图像识别、语音处理到自然语言理解等众多领域都有广泛应用。然而&#xff0c;随着数据量的不断增长和应用场景的日益复杂&#xff0c;对神经网络的创新需求也愈发迫切。本文将探讨深度学习神经网络…

C++析构函数详解

C析构函数详解&#xff1a;对象销毁与资源清理 在 C 中&#xff0c;析构函数是与构造函数相对应的特殊成员函数&#xff0c;它在对象生命周期结束时被自动调用&#xff0c;用于执行对象销毁之前的清理操作。析构函数主要用于释放对象占用的资源&#xff0c;如动态分配的内存、打…