Python爬虫技术详解:从基础到高级应用,实战与应对反爬虫策略【第93篇—Python爬虫】

前言

随着互联网的快速发展,网络上的信息爆炸式增长,而爬虫技术成为了获取和处理大量数据的重要手段之一。在Python中,requests模块是一个强大而灵活的工具,用于发送HTTP请求,获取网页内容。本文将介绍requests模块的基础用法,并通过实际代码演示,带领读者一步步掌握常用爬虫技术。

image-20240223143051519

安装requests模块

首先,确保你的Python环境中已经安装了requests模块。如果没有安装,可以使用以下命令进行安装:

pip install requests

基础用法

发送GET请求

import requestsurl = 'https://www.example.com'
response = requests.get(url)print(response.text)

以上代码通过requests.get()方法发送了一个GET请求,并将服务器的响应存储在response对象中。response.text包含了网页的HTML内容。

发送带参数的GET请求

import requestsurl = 'https://www.example.com/search'
params = {'q': 'python', 'page': 1}
response = requests.get(url, params=params)print(response.text)

在这个例子中,我们通过params参数传递了查询字符串参数,这对于搜索等需要动态参数的场景非常有用。

发送POST请求

import requestsurl = 'https://www.example.com/login'
data = {'username': 'your_username', 'password': 'your_password'}
response = requests.post(url, data=data)print(response.text)

通过requests.post()方法,我们可以发送POST请求并传递表单数据,模拟登录等操作。

代码实战:爬取网页内容

让我们通过一个实际的例子,使用requests模块爬取并解析网页内容。

import requests
from bs4 import BeautifulSoupurl = 'https://www.example.com'
response = requests.get(url)soup = BeautifulSoup(response.text, 'html.parser')# 解析网页内容
title = soup.title.text
paragraphs = soup.find_all('p')# 打印结果
print(f'Title: {title}\n')
print('Paragraphs:')
for paragraph in paragraphs:print(paragraph.text)

在这个示例中,我们使用了BeautifulSoup库来解析HTML内容。首先,我们获取网页内容,然后通过BeautifulSoup的解析器解析HTML。最后,通过选择器定位标题和段落等信息,实现对网页内容的抽取。

进阶用法

设置请求头

有些网站可能需要模拟浏览器进行访问,因此我们可以通过设置请求头来伪装请求:

import requestsurl = 'https://www.example.com'
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'}
response = requests.get(url, headers=headers)print(response.text)

在这个例子中,我们通过headers参数设置了用户代理,模拟了一个浏览器访问。

处理Cookies

有些网站通过Cookies来进行用户认证和跟踪,我们可以使用requests模块来处理Cookies:

import requestsurl = 'https://www.example.com'
response = requests.get(url)# 获取Cookies
cookies = response.cookies# 使用Cookies进行后续请求
response2 = requests.get('https://www.example.com/some_page', cookies=cookies)print(response2.text)

处理异常

在实际爬虫中,网络请求可能会遇到各种异常情况,为了保证爬虫的稳定性,我们可以添加异常处理:

import requestsurl = 'https://www.example.com'try:response = requests.get(url)response.raise_for_status()  # 检查请求是否成功print(response.text)
except requests.exceptions.HTTPError as errh:print(f"HTTP Error: {errh}")
except requests.exceptions.ConnectionError as errc:print(f"Error Connecting: {errc}")
except requests.exceptions.Timeout as errt:print(f"Timeout Error: {errt}")
except requests.exceptions.RequestException as err:print(f"Request Exception: {err}")

代码实战:使用requests模块爬取天气数据

为了进一步加深对requests模块的理解,我们将通过一个实际的案例,使用该模块爬取实时天气数据。在这个例子中,我们将使用OpenWeatherMap提供的API来获取天气信息。

首先,你需要在OpenWeatherMap注册账号并获取API Key。然后,我们可以使用以下代码来获取实时天气信息:

import requests
import json# 替换为你自己的OpenWeatherMap API Key
api_key = 'your_api_key'
city = 'Berlin'  # 替换为你要查询的城市# 构造API请求URL
url = f'http://api.openweathermap.org/data/2.5/weather?q={city}&appid={api_key}'try:response = requests.get(url)response.raise_for_status()  # 检查请求是否成功# 解析JSON格式的响应weather_data = response.json()# 提取天气信息temperature = weather_data['main']['temp']description = weather_data['weather'][0]['description']# 打印结果print(f'Current temperature in {city}: {temperature}°C')print(f'Weather description: {description}')except requests.exceptions.HTTPError as errh:print(f"HTTP Error: {errh}")
except requests.exceptions.ConnectionError as errc:print(f"Error Connecting: {errc}")
except requests.exceptions.Timeout as errt:print(f"Timeout Error: {errt}")
except requests.exceptions.RequestException as err:print(f"Request Exception: {err}")

在这个例子中,我们构造了一个API请求URL,发送GET请求获取天气信息。然后,使用json模块解析返回的JSON数据,并提取出温度和天气描述信息。最后,打印结果。

这个实例展示了如何使用requests模块来访问API,并处理返回的JSON数据。这对于获取实时数据或者进行数据分析非常有用。在实际项目中,你可以根据需要扩展这个例子,比如添加更多的天气信息或者结合其他API来获取更多有用的数据。

高级应用:使用Session保持会话状态

在某些情况下,我们需要保持会话状态,模拟用户在同一个会话中进行多个请求,比如登录后爬取需要登录状态的页面。为了实现这一功能,可以使用Session对象。

以下是一个简单的例子,模拟登录GitHub并获取登录后的用户页面:

import requestslogin_url = 'https://github.com/login'
user_url = 'https://github.com/your_username'# 替换为你的GitHub用户名和密码
username = 'your_username'
password = 'your_password'# 创建一个Session对象
session = requests.Session()# 发送登录请求
login_data = {'login': username, 'password': password}
login_response = session.post(login_url, data=login_data)# 检查登录是否成功
if 'Sign out' in login_response.text:print('Login successful!')# 使用保持会话状态的Session对象进行后续请求user_response = session.get(user_url)# 处理用户页面的响应print(user_response.text)
else:print('Login failed.')

在这个例子中,我们使用Session对象首先发送登录请求,将登录信息保存在会话中。然后,使用同一个会话对象进行后续的请求,这样就能够保持登录状态,获取登录后的页面内容。

附加内容:处理动态网页和反爬虫策略

在实际爬虫过程中,经常会遇到动态网页和反爬虫策略。动态网页是指页面的内容通过JavaScript等前端技术动态加载,而不是一开始就包含在HTML中。为了处理这种情况,我们可以使用Selenium等工具。

使用Selenium处理动态网页

首先,确保你已经安装了Selenium:

pip install selenium

然后,通过以下代码使用Selenium模拟浏览器行为:

from selenium import webdriver
import timeurl = 'https://example.com'
driver = webdriver.Chrome()  # 请确保已安装ChromeDriver,并将其路径添加到系统环境变量中try:driver.get(url)# 等待页面加载time.sleep(3)# 获取页面内容page_content = driver.page_sourceprint(page_content)finally:driver.quit()

在这个例子中,我们使用了Chrome浏览器驱动,打开了一个网页并等待3秒,然后获取了页面的源代码。通过这种方式,我们可以获取到动态加载的内容。

处理反爬虫策略

有些网站为了防止被爬虫访问,采取了一些反爬虫策略,比如设置访问频率限制、验证码验证等。在面对这些情况时,我们可以采取以下措施:

  • 设置请求头: 模拟浏览器行为,设置合适的User-Agent和Referer等请求头,使请求看起来更像正常用户的访问。

  • 使用代理IP: 轮换使用代理IP可以降低被封禁的风险,但注意代理IP的合法性和稳定性。

  • 处理验证码: 使用第三方库或者服务识别和处理验证码,自动化解决验证码问题。

  • 合理设置访问频率: 避免过于频繁的访问,可以通过设置访问间隔或者使用随机休眠时间来规避被封禁的风险。

请注意,爬虫行为应当遵循网站的使用规则,并尊重相关法律法规。过于频繁或不当的爬取行为可能导致IP封禁或其他法律责任。在实际应用中,可以根据具体情况灵活调整策略,确保爬虫的合法性和稳定性。

总结:

通过本文的详细介绍,读者对Python爬虫技术有了从基础到高级的全面了解。我们从requests模块的基础用法开始,包括发送GET和POST请求、处理参数、设置请求头、处理Cookies、异常处理等方面。通过实际的代码演示,读者学会了如何使用requests模块进行网络爬取,并解析HTML内容,实现数据的抽取。

随后,我们进行了一个实际的爬虫项目,使用requests模块获取实时天气数据,并通过JSON解析提取所需信息。这个实例展示了如何使用爬虫技术获取实时数据,为数据分析和应用提供支持。

在高级应用部分,我们介绍了使用Session对象保持会话状态,模拟用户在同一个会话中进行多个请求的方法。同时,我们提及了使用Selenium处理动态网页和一些反爬虫策略的方法,使得爬虫能够更好地应对复杂的网站结构和防护机制。

最后,强调了在实际应用中需要遵循网站的使用规则,合法合规地进行网络爬取。在面对动态网页和反爬虫策略时,我们介绍了一些常见的应对措施,包括使用Selenium、设置请求头、使用代理IP、处理验证码等。

希望本文能够帮助读者建立起扎实的爬虫基础,理解爬虫技术的广泛应用,同时对于高级应用和反爬虫策略有一定的认识。在实际项目中,读者可以根据需要灵活运用这些技术,提升爬虫的效率和稳定性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/264387.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

c++数据结构算法复习基础--1

一、大体复习内容 复习思路; 二、数据结构算法-常见复杂度汇总介绍-性能对比-图表展示 数据结构: 相互之间存在一种或者多种特定关系的数据元素的集合。在逻辑上可以分为线性结构,散列结构、树形结构,图形结构等等。 数据结构说的是组织…

SpringCloud(16)之SpringCloud OpenFeign和Ribbon

一、Spring Cloud OpenFeign介绍 Feign [feɪn] 译文 伪装。Feign是一个轻量级的Http封装工具对象,大大简化了Http请求,它的使用方法 是定义一个接口,然后在上面添加注解。不需要拼接URL、参数等操作。项目主页:GitHub - OpenFeign/feign: Feign makes w…

【竹篮打水】OpenCV4.x 中新增并行代码执行演示

学习《OpenCV应用开发:入门、进阶与工程化实践》一书 做真正的OpenCV开发者,从入门到入职,一步到位! OpenCV支持的并行框架 OpenCV从4.5版本开始,新增了并行代码执行支持,以常见的图像像素遍历卷积计算为…

Vue单文件学习项目综合案例Demo,黑马vue教程

文章目录 前言一、小黑记事本二、购物车三、小黑记账清单 前言 bilibili视频地址 一、小黑记事本 效果图 主代码 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"/><meta http-equiv"X-UA-Compatible&…

hash,以及数据结构——map容器

1.hash是什么&#xff1f; 定义&#xff1a;hash,一般翻译做散列、杂凑&#xff0c;或音译为哈希&#xff0c;是把任意长度的输入&#xff08;又叫做预映射pre-image&#xff09;通过散列算法变换成固定长度的输出&#xff0c; 该输出就是散列值。这种转换是一种压缩映射&…

Android14之input高级调试技巧(一百八十八)

简介&#xff1a; CSDN博客专家&#xff0c;专注Android/Linux系统&#xff0c;分享多mic语音方案、音视频、编解码等技术&#xff0c;与大家一起成长&#xff01; 优质专栏&#xff1a;Audio工程师进阶系列【原创干货持续更新中……】&#x1f680; 优质专栏&#xff1a;多媒…

JVM面试

什么是JVM 1.JVM是java虚拟机&#xff0c;是一个运行在计算机上的程序&#xff0c;他的职责是运行Java字节码文件 2.为了支持java中的一次编译到处运行的跨平台特性&#xff0c;jvm可以在不同的系统上运行 3.jvm能自动为对象&#xff0c;方法等分配内存&#xff0c;以及自动的…

Day01:Web应用架构搭建站库分离路由访问配置受限DNS解析

目录 常规的Web应用搭建 三种常规网站搭建模式 程序源码 中间件配置 数据库类型 文件访问路径 总结 章节知识点&#xff1a; 应用架构&#xff1a;Web/APP/云应用/三方服务/负载均衡等 安全产品&#xff1a;CDN/WAF/IDS/IPS/蜜罐/防火墙/杀毒等 渗透命令&#xff1a;文件…

如何在Win系统搭建Oracle数据库并实现远程访问【内网穿透】

文章目录 前言1. 数据库搭建2. 内网穿透2.1 安装cpolar内网穿透2.2 创建隧道映射 3. 公网远程访问4. 配置固定TCP端口地址4.1 保留一个固定的公网TCP端口地址4.2 配置固定公网TCP端口地址4.3 测试使用固定TCP端口地址远程Oracle 前言 Oracle&#xff0c;是甲骨文公司的一款关系…

nginx高级配置详解

目录 一、网页的状态页 1、状态页的基本配置 2、搭配验证模块使用 3、结合白名单使用 二、nginx 第三方模块 1、echo模块 1.1 编译安装echo模块 1.2 配置echo模块 三、nginx变量 1、内置变量 2、自定义变量 四、自定义图标 五、自定义访问日志 1、自定义日志格式…

2024-2-22 作业

作业要求&#xff1a; 复习前面知识点(指针、结构体、函数)整理思维导图顺序表(按位置插入、按位置删除和去重、重新写)理解链表的代码&#xff0c;尝试写一下链表的尾插和输出 1.复习前面知识点(指针、结构体、函数) 2.整理思维导图 3.顺序表(按位置插入、按位置删除和去重、…

供应链大数据:穿越经济迷雾的指南针

随着经济形势的变幻莫测&#xff0c;企业运营面临着前所未有的挑战。在这个充满不确定性的时代&#xff0c;供应链大数据如同一盏明亮的指南针&#xff0c;为企业提供精准的方向指引。下面&#xff0c;我们将深入探讨供应链大数据如何帮助企业洞察市场趋势、优化库存管理、降低…

RabbitMQ开启MQTT协议支持

1&#xff09;RabbitMQ启用MQTT插件 rootmq:/# rabbitmq-plugins enable rabbitmq_mqtt Enabling plugins on node rabbitmq: rabbitmq_mqtt The following plugins have been configured:rabbitmq_managementrabbitmq_management_agentrabbitmq_mqttrabbitmq_web_dispatch Ap…

ElasticSearch语法

Elasticsearch 概念 入门学习: Index索引>MySQL 里的表(table)建表、增删改查(查询需要花费的学习时间最多)用客户端去调用 ElasticSearch(3 种)语法:SQL、代码的方法(4 种语法) ES 相比于 MySQL&#xff0c;能够自动帮我们做分词&#xff0c;能够非常高效、灵活地查询内…

docker build基本命令

背景 我们经常会构建属于我们应用自己的镜像&#xff0c;这种情况下编写dockerfile文件不可避免&#xff0c;本文就来看一下常用的dockerfile的指令 常用的dockerfile的指令 首先我们看一下docker build的执行过程 ENV指令&#xff1a; env指令用于设置shell的环境变量&am…

WPF真入门教程29--MVVM常用框架之MvvmLight

1、MVVM模式回顾 关于mvvm模式的基础知识&#xff0c;请看这2个文章&#xff1a; WPF真入门教程23--MVVM简单介绍 WPF真入门教程24--MVVM模式Command命令 做过VUE开发或微信小程序开发的伙伴&#xff0c;就知道MVVM模式&#xff0c;核心就是数据驱动控件&#xff0c;全栈开…

gitlab,从A仓库迁移某个工程到B仓库,保留提交记录

从A仓库&#xff0c;拷贝 git clone --bare ssh://git192.168.30.88:22/framework/platform.git 在B仓库新建工程&#xff0c;注意&#xff1a;一定要去掉默认的生成README文件进入platform.git 文件夹下&#xff0c;推送到B仓库 git push --mirror ssh://git192.168.30.100…

Spring 中 ApplicationContext 和 BeanFactory 的区别有哪些

先看一张类图&#xff1a; 区别&#xff1a; 1&#xff1a;包目录不同&#xff1a; spring-beans.jar 中 org.springframework.beans.factory.BeanFactory spring-context.jar 中 org.springframework.context.ApplicationContext 2&#xff1a;国际化&#xff1a; BeanFacto…

vue2和vue3对比(语法层面)

阅读文章你将收获&#xff1a; 1 了解不使用组件化工具时&#xff0c;vue在html是如何使用的 2 知道vue2的生命周期函数有哪些 3 知道如何在组件化开发中使用vue 4 大致了解了vue2和vue3在使用上什么不同 最后&#xff1a;vue2和vue3除了下面我列出的有差异化的地方&…

【python】学习笔记03-循环语句

3.1 whlie循环的基础语法 - while循环的语法格式 - while循环的注意事项 条件需提供布尔类型结果&#xff0c;True继续&#xff0c;False停止 空格缩进不能忘 请规划好循环终止条件&#xff0c;否则将无限循环 """ 演示while循环基础练习题&#xff1a;求1-10…