网络爬虫【爬虫库request】

我叫不三不四，很高兴见到大家，欢迎一起学习交流和进步

今天来讲一讲爬虫

Requests是Python的一个很实用的HTTP客户端库，完全满足如今网络爬虫的需求。与Urllib对比，Requests不仅具备Urllib的全部功能；在开发使用上，语法简单易懂，完全符合Python优雅、简洁的特性；在兼容性上，完全兼容Python 2和Python 3，具有较强的适用性。

请求方式

HTTP的请求方式分为GET和POST

GET请求

url语法如下：

# 不带参数
url_without_params = "https://www.baidu.com/"# 带参数 wd
url_with_params = "https://www.baidu.com/s?参数名=参数值"

注：如果一个URL有多个参数，参数之间用“&”连接，并且，request对于带参数的url请求有两种处理方式：

import requests# 第一种方式
r = requests.get('https://www.baidu.com/s?参数名=参数值')# 第二种方式
url = 'https://www.baidu.com/s'
params = {'参数名': '参数值'}
# 左边 params 在 GET 请求中表示设置参数
r = requests.get(url, params=params)# 输出生成的 URL
print(r.url)

对于动态变化的参数，我们可以采用%s来占位的方式来处理：

url_template = 'https://www.baidu.com/s?参数名=%s'
search_term = '参数值'# 使用字符串格式化将搜索词插入到URL中
formatted_url = url_template % search_termprint(formatted_url)

这样输出的将会是：

https://www.baidu.com/s?参数名=参数值

POST请求

POST请求常用来提交表单，表单数据就是POST的请求参数。在 requests 中实现POST请求时，需要设置 data 参数，数据格式可以是字典、元组、列表或JSON。不同格式各有优势。

# 字典类型
data = {'key1': 'value1', 'key2': 'value2'}# 元组或列表
# 这里应该是元组的列表，而不是元组中包含元组
tuple_list = (('key1', 'value1'), ('key2', 'value2'))# JSON
import json# 将字典转换为JSON
data_json = json.dumps(data)# 发送POST请求
import requests
r = requests.post("https://www.baidu.com/", data=data_json)
print(r.text)

tips：什么是JOSN：

JSON（JavaScript Object Notation）是一种轻量级的数据交换格式，易于人阅读和编写，同时也易于机器解析和生成。它基于JavaScript编程语言的一个子集，但是它是独立于语言的，许多不同的编程语言都支持生成和解析JSON数据，使其成为理想的数据交换语言。

JSON是构建在两种结构之上的：

1. 键值对：数据以`名称/值`对的形式存储，其中名称（或称为键）是一个字符串，而值可以是字符串、数字、数组、布尔值或另一个JSON对象。

2. 数组：数据以有序的列表形式存储，列表中的每个元素可以是字符串、数字、数组、布尔值或另一个JSON对象。

一个典型的JSON对象示例如下：

{"name": "John Doe","age": 30,"is_student": false,"hobbies": ["reading", "gaming", "sports"],"address": {"street": "123 Main St","city": "Anytown","state": "CA","zip": "12345"}
}

在这个例子中，`name`、`age`、`is_student`、`hobbies`和`address`是键，而它们对应的值分别是字符串、数字、布尔值、字符串数组和另一个JSON对象。

JSON因其简洁和易于解析的特性，在Web开发中被广泛用于客户端和服务器之间的数据交换。例如，当一个Web应用从服务器请求数据时，服务器通常会以JSON格式返回数据，然后Web应用可以使用JavaScript轻松地解析这些数据并更新用户界面。

`requests.Response`对象的属性和方法

1.基本响应信息

• `r.status_code`

• 作用：返回响应状态码（如200、404、500等）。

• 使用场景：判断请求是否成功。

• `r.reason`

• 作用：返回响应状态码的文本描述（如`OK`、`Not Found`等）。

• 使用场景：提供更详细的响应状态描述。

• `r.url`

• 作用：返回实际请求的URL（可能经过重定向后的最终URL）。

• 使用场景：确认请求的最终地址。

2.响应内容

• `r.raw`

• 作用：返回原始响应体，可以通过`r.raw.read()`读取。

• 使用场景：处理二进制数据或流式响应。

• `r.content`

• 作用：以字节方式返回响应体，需要手动解码。

• 使用场景：处理二进制文件（如图片、视频）。

• `r.text`

• 作用：以字符串方式返回响应体，会自动根据响应头的`Content-Type`或`Content-Encoding`解码。

• 使用场景：处理文本内容（如HTML、JSON）。

• `r.json()`

• 作用：将响应体解析为JSON对象。

• 使用场景：处理JSON格式的响应数据。

• `r.encoding`

• 作用：返回响应的编码格式（如`utf-8`）。

• 使用场景：确认或修改响应的编码。

• `r.apparent_encoding`

• 作用：基于响应内容分析得出的编码格式（可能与`r.encoding`不同）。

• 使用场景：当`r.encoding`为空或不准确时，作为备选编码。

3.响应头和Cookie

• `r.headers`

• 作用：以字典形式返回响应头，字典键不区分大小写。

• 使用场景：获取响应头中的信息（如`Content-Type`、`Content-Length`等）。

• `r.cookies`

• 作用：返回请求后的Cookie对象。

• 使用场景：获取服务器返回的Cookie信息。

• `r.links`

• 作用：返回响应头中的`Link`字段内容，以字典形式存储。

• 使用场景：处理分页或资源链接。

4.重定向和跳转

• `r.history`

• 作用：返回一个包含所有中间跳转响应的列表。

• 使用场景：跟踪请求的跳转路径。

• `r.is_redirect`

• 作用：判断响应是否是重定向（如301、302状态码）。

• 使用场景：控制重定向逻辑。

• `r.is_permanent_redirect`

• 作用：判断响应是否是永久重定向（301状态码）。

• 使用场景：处理需要更新URL的重定向。

• `r.next`

• 作用：返回下一个响应对象（如果存在重定向）。

• 使用场景：手动处理重定向时获取下一个响应。

5.性能和资源管理

• `r.elapsed`

• 作用：返回从发送请求到收到响应的总耗时（`timedelta`对象）。

• 使用场景：用于性能测试或监控请求的响应时间。

• `r.close()`

• 作用：关闭响应对象，释放资源。

• 使用场景：在使用`r.raw`或处理大文件时，手动关闭响应对象以释放资源。

6.迭代和流式处理

• `r.iter_content(chunk_size=1, decode_unicode=False)`

• 作用：以迭代的方式逐块读取响应内容，适合处理大文件。

• 参数：

• `chunk_size`：每次读取的块大小（以字节为单位）。

• `decode_unicode`：是否将内容解码为Unicode。

• 使用场景：下载大文件时逐块写入磁盘，避免占用过多内存。

• `r.iter_lines(decode_unicode=False, chunk_size=512)`

• 作用：以迭代的方式逐行读取响应内容，适合处理文本数据。

• 参数：

• `decode_unicode`：是否将内容解码为Unicode。

• `chunk_size`：每次读取的块大小。

• 使用场景：处理日志文件或文本数据时逐行读取。

7.请求信息

• `r.request`

• 作用：返回发送的请求对象（`requests.PreparedRequest`）。

• 使用场景：调试或查看发送的请求细节（如请求头、请求体等）。

8.异常处理

• `r.raise_for_status()`

• 作用：如果响应状态码表示请求失败（非200响应），则抛出异常。

• 使用场景：在需要严格处理请求失败时，自动抛出异常。

提交复杂的请求

在进行网络爬虫开发或与 Web API 交互时，我们常常需要对 HTTP 请求进行定制化处理，以满足各种复杂场景的需求。本文将详细介绍如何使用 Python 的 Requests 库实现复杂网络访问，包括添加请求头、使用代理 IP、证书验证、超时设置以及使用 Cookies 等常用功能。

一、添加请求头

在 HTTP 请求中，请求头（Headers）是客户端向服务器发送额外信息的重要载体，例如指定客户端的类型、语言、接受的数据类型等。通过设置请求头，可以模拟不同的浏览器或客户端行为，从而提高请求的成功率和兼容性。

以下是添加请求头的代码示例：

import requests# 定义请求头
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3","Accept-Language": "en-US,en;q=0.9","Accept-Encoding": "gzip, deflate, br"
}# 发送请求并设置 headers 参数
response = requests.get("https://example.com", headers=headers)# 打印响应内容
print(response.text)

在上述代码中，我们首先定义了一个名为`headers`的字典，其中包含了常见的请求头字段，如`User-Agent`、`Accept-Language`和`Accept-Encoding`。然后在`requests.get`方法中通过`headers`参数将该字典传递给请求，从而在发送请求时附加了这些自定义的请求头信息。

二、使用代理 IP

在某些情况下，我们可能需要通过代理服务器来发送请求，例如隐藏真实 IP 地址、访问受限地区的内容等。Requests 库支持使用代理 IP，其使用方法与添加请求头类似，只需设置`proxies`参数即可。

以下是使用代理 IP 的代码示例：

import requests# 定义代理 IP
proxies = {"http": "http://123.45.67.89:8080","https": "https://123.45.67.89:8080"
}# 发送请求并设置 proxies 参数
response = requests.get("https://example.com", proxies=proxies)# 打印响应内容
print(response.text)

在代码中，`proxies`是一个字典，其键分别为`"http"`和`"https"`，对应的值是代理服务器的地址和端口号。通过设置`proxies`参数，Requests 库会将请求通过指定的代理服务器发送出去。

需要注意的是，在使用代理 IP 时，应确保代理服务器的地址和端口号是有效的，并且代理服务器支持目标网站的访问。此外，代理服务器可能会对请求进行限制或修改，因此在使用过程中需要根据实际情况进行调试和优化。

三、证书验证

在与 HTTPS 网站进行交互时，证书验证是一个重要的安全机制。默认情况下，Requests 库会对 HTTPS 证书进行验证，以确保通信的安全性。然而，在某些开发或测试环境中，我们可能需要关闭证书验证，或者使用自定义的证书文件。

以下是证书验证的代码示例：

关闭证书验证

import requests# 发送请求并关闭证书验证
response = requests.get("https://example.com", verify=False)# 打印响应内容
print(response.text)

在上述代码中，通过将`verify`参数设置为`False`，可以关闭对 HTTPS 证书的验证。这在开发过程中用于测试或访问自签名证书的网站时非常有用，但在生产环境中不建议关闭证书验证，因为这会降低通信的安全性。

使用自定义证书文件

import requests# 发送请求并指定证书文件路径
response = requests.get("https://example.com", verify="/path/to/certificate.pem")# 打印响应内容
print(response.text)

如果需要使用自定义的证书文件进行验证，可以将`verify`参数的值设置为证书文件的路径。这在访问需要特定证书验证的网站时非常有用，例如企业内部的 HTTPS 服务。

四、超时设置

在网络请求过程中，由于网络延迟、服务器响应缓慢等原因，可能会导致请求长时间没有得到响应。为了避免程序无限等待，可以通过设置超时时间来限制请求的等待时间。

以下是超时设置的代码示例：

import requests# 发送请求并设置超时时间为 5 秒
try:response = requests.get("https://example.com", timeout=5)print(response.text)
except requests.exceptions.Timeout:print("请求超时")

在代码中，通过设置`timeout`参数的值为`5`，表示请求的超时时间为 5 秒。如果在 5 秒内没有收到服务器的响应，Requests 库会抛出一个`Timeout`异常。通过捕获该异常，可以对超时情况进行相应的处理，例如重试请求或提示用户。

需要注意的是，超时时间的设置应根据实际需求进行调整。如果目标网站的响应速度较慢，可以适当增加超时时间；如果对响应速度要求较高，可以适当减少超时时间。

五、使用 Cookies

Cookies 是服务器存储在客户端的一小段文本信息，用于标识用户身份、记录用户偏好等。在使用 Requests 库发送请求时，可以通过设置`cookies`参数来使用 Cookies，从而实现会话管理等功能。

以下是使用 Cookies 的代码示例：
（从字符串转换 Cookies）

import requests# 从浏览器获取的 Cookies 字符串
temp_cookies = "cookie1=value1; cookie2=value2"# 将 Cookies 字符串转换为字典
cookies = {}
for cookie in temp_cookies.split("; "):key, value = cookie.split("=")cookies[key] = value# 发送请求并设置 cookies 参数
response = requests.get("https://example.com", cookies=cookies)# 打印响应内容
print(response.text)

在上述代码中，`temp_cookies`是从浏览器的开发者工具中获取的 Cookies 字符串。通过两次分割操作，第一次以`"; "`分割得到列表 A，第二次对列表 A 中的每个元素以`"="`分割得到字典的键值对，从而将 Cookies 字符串转换为字典格式。然后在`requests.get`方法中通过`cookies`参数将该字典传递给请求，即可在请求中使用这些 Cookies。

使用 RequestsCookieJar 对象

import requests# 发送请求并获取服务器返回的 Cookies
response = requests.get("https://example.com")
cookies = response.cookies# 打印 Cookies 信息
print(cookies)# 再次发送请求并使用获取到的 Cookies
response = requests.get("https://example.com", cookies=cookies)# 打印响应内容
print(response.text)

在代码中，当程序发送请求时（不设置参数`cookies`），Requests 库会自动生成一个`RequestsCookieJar`对象，该对象用于存放服务器返回的 Cookies 信息。通过`response.cookies`可以获取到该对象，然后在后续的请求中通过`cookies`参数将该对象传递给请求，从而实现 Cookies 的传递和使用。

Cookies 的读写操作

如果需要将 Cookies 信息持久化存储，可以使用`http`模块实现 Cookies 的读写操作。此外，还可以将 Cookies 以字典形式写入文件，这种方法相对简单，但安全性较低。以下是将 Cookies 以字典形式写入文件的代码示例：

import json# 将 Cookies 以字典形式写入文件
with open("cookies.json", "w") as f:json.dump(cookies, f)# 从文件中读取 Cookies
with open("cookies.json", "r") as f:cookies = json.load(f)# 打印读取到的 Cookies
print(cookies)

在代码中，通过`json`模块的`dump`方法将 Cookies 字典写入文件，通过`load`方法从文件中读取 Cookies 字典。这种方法可以方便地将 Cookies 信息保存到本地文件中，以便在后续的程序运行中能够重复使用。

下载与上传文件

文件下载

用Python的`requests`库从网络上下载图片并保存到本地的基本示例：

import requests# 图片的URL
url = 'https://www.python.org/static/img/python-logo.png'# 发送GET请求
r = requests.get(url)# 检查请求是否成功
if r.status_code == 200:# 打开一个文件用于写入二进制数据with open('python.jpg', 'wb') as f:# 将图片内容写入文件f.write(r.content)print("图片已成功下载并保存为 python.jpg")
else:print("请求失败，状态码：", r.status_code)

代码解释：
1. 导入库：

• `import requests`：导入`requests`库，用于发送HTTP请求。
2. 设置URL：

• `url='
3. 发送请求：

• `r = requests.get(url)`：使用`requests.get()`方法发送GET请求到指定的URL。
4. 检查响应状态码：

• `if r.status_code == 200:`：检查响应的状态码是否为200（表示请求成功）。

5. 保存文件：

• `with open('python.jpg', 'wb') as f:`：以二进制写入模式打开一个文件，文件名为`python.jpg`。

• `f.write(r.content)`：将响应内容（图片的二进制数据）写入文件。

6. 关闭文件：

• 使用`with`语句自动管理文件的打开和关闭，不需要显式调用`f.close()`。

7. 错误处理：

• 如果请求失败（状态码不是200），打印错误信息。

文件上传

文件上传的逻辑是把数据以字节流的形式上传到服务器上，再由服务器上传接收内容，文件上传有一定难度，难点在于服务器接收规则不同。

分析请求

首先通过Fiddler抓包工具来分析微博的发布过程中的网络请求信息：

（1）访问微博并准备抓包

• 访问微博：在浏览器中输入`

• 单击“高级”按钮：在微博页面上，可能存在一些高级选项或设置按钮，单击它可能会触发一些额外的网络请求或页面功能，为后续的抓包操作提供更多的信息。

• 使用Fiddler抓包：

• Fiddler是一款网络调试工具，可以捕获和分析所有客户端和服务器之间的HTTP/HTTPS通信。

• 由于在发送微博时，网页会发生302跳转（即浏览器会自动跳转到另一个页面），这会导致Chrome浏览器清空请求信息，使得抓取难度较大。因此，使用Fiddler可以更有效地捕获这些请求信息，因为它不会受到浏览器自动跳转的影响，能够完整地记录整个请求过程。

（2）发布微博并查看抓包信息

• 单击“选择文件”：在微博发布页面上，单击“选择文件”按钮，选择一张图片文件。这一步是为了模拟发布微博时上传图片的过程，上传图片会触发一个网络请求，将图片文件发送到微博服务器。

• 输入发布内容：在微博发布框中输入“Python爬虫”，这是微博的正文内容。输入内容后，微博客户端会将这些内容作为请求的一部分发送到服务器。

• 单击“发布”按钮：最后单击“发布”按钮，这会触发微博的发布请求。微博客户端会将图片文件、正文内容以及其他相关信息（如用户身份验证信息等）打包成一个HTTP请求，发送到微博服务器。

• 查看Fiddler抓取的请求信息：Fiddler会捕获上述过程中所有的网络请求和响应信息。这些信息包括请求的URL、请求方法（如POST）、请求头（包含用户身份验证信息、内容类型等）、请求体（包含微博正文和图片文件等）、响应状态码以及响应内容等。通过查看这些信息，可以了解微博发布过程中的数据传输细节，例如请求的格式、服务器的响应等，这对于分析微博的网络交互机制、开发与微博相关的程序（如爬虫）等非常有帮助。

从图得知，该请求方式是POST, QueryString是POST的请求参数data, Content-type是上传文件，三个Content-Disposition分别对应发布内容、发布图片和设置分组可见。代码实现如下：

url = 'https://weibo.cn/imblog/sendmblog?rl=0&st=bd6702'
cookies = {'xxx': 'xxx'}
files = {'content': (None, 'Python 爬虫'),'pic': ('pic', open('test.png', 'rb')),'image/png', 'visible': (None, '0')
}
r = requests.post(url, files=files, cookies=cookies)
print(r.status_code)

POST数据对象是以文件为主的，上传文件时使用files参数作为请求参数。Requests对提交的数据和文件所使用的请求参数做了明确的规定。
参数files也是以字典形式传递的，每个Content-Disposition为字典的键值对，Content-Disposition的name为字典的键，value为字典的值。