如何优化 Selenium 和 BeautifulSoup 的集成以提高数据抓取的效率?

Python_00133.png

摘要

在互联网时代,数据的价值日益凸显。对于电商网站如京东,其商品信息、用户评价等数据对于市场分析、产品定位等具有重要意义。然而,由于这些网站通常使用 JavaScript 动态生成内容,传统的爬虫技术难以直接获取到完整数据。本文将以爬取京东商品信息为例,探讨如何优化 Selenium 和 BeautifulSoup 的集成,以提高数据抓取的效率。

动态网页抓取的挑战

对于京东这样的电商平台,许多商品信息和用户评价是通过 JavaScript 动态加载的。传统的静态网页爬取方法无法获取到这些动态生成的内容。此外,电商平台通常具有复杂的反爬虫机制,如 IP 限制、请求频率限制等,进一步增加了数据抓取的难度。

Selenium 和 BeautifulSoup 的作用

Selenium 是一个自动化测试工具,能够模拟真实用户的浏览器行为,执行 JavaScript,获取动态生成的网页内容。BeautifulSoup 是一个用于解析 HTML 和 XML 文档的 Python 库,能够从复杂的 HTML 文档中提取数据。

示例代码

以下是一个爬取京东商品信息的示例代码,展示如何使用 Selenium 和 BeautifulSoup 集成进行数据抓取。

from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from bs4 import BeautifulSoup
import timedef init_driver():options = Options()options.add_argument("--disable-images")  # 禁用图片加载options.add_argument("--disable-javascript")  # 禁用 JavaScriptdriver = webdriver.Chrome(executable_path='path/to/chromedriver', options=options)return driverdef get_page_source(driver, url):driver.get(url)time.sleep(2)  # 等待页面加载return driver.page_sourcedef parse_page(html):soup = BeautifulSoup(html, 'html.parser')items = soup.find_all('div', class_='gl-item')for item in items:title = item.find('div', class_='p-name').get_text(strip=True)price = item.find('div', class_='p-price').get_text(strip=True)print(f'Title: {title}, Price: {price}')def main():driver = init_driver()url = 'https://search.jd.com/Search?keyword=手机&enc=utf-8'html = get_page_source(driver, url)parse_page(html)driver.quit()if __name__ == '__main__':main()

优化策略

1. 减少页面加载时间

通过禁用图片和 JavaScript 加载,可以显著减少页面加载时间。这不仅加快了页面获取速度,也减少了数据传输量。

2. 使用显式等待

使用 Selenium 的显式等待 (WebDriverWait) 而不是硬编码的 time.sleep(),可以更有效地等待页面加载完成。

from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as ECwait = WebDriverWait(driver, 10)
element = wait.until(EC.presence_of_element_located((By.CLASS_NAME, 'gl-item')))

3. 并发执行

使用多线程或异步编程来并发执行多个爬虫任务,从而提高整体的抓取效率。

import threadingdef fetch_data(url):driver = init_driver()html = get_page_source(driver, url)parse_page(html)driver.quit()urls = ['https://search.jd.com/Search?keyword=手机&enc=utf-8', 'https://search.jd.com/Search?keyword=电视&enc=utf-8']
threads = [threading.Thread(target=fetch_data, args=(url,)) for url in urls]
for thread in threads:thread.start()
for thread in threads:thread.join()

4. 使用代理和随机化

使用代理 IP 和随机化请求头可以避免 IP 被封禁,同时模拟真实用户行为

from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.proxy import Proxy, ProxyType# 代理服务器信息
proxyHost = "www.16yun.cn"
proxyPort = "5445"
proxyUser = "16QMSOML"
proxyPass = "280651"# 创建 Proxy 对象
proxy = Proxy({'proxyType': ProxyType.MANUAL,'ftpProxy': f"{proxyHost}:{proxyPort}",'sslProxy': f"{proxyHost}:{proxyPort}",'httpProxy': f"{proxyHost}:{proxyPort}",
})# 创建 ChromeOptions 对象
chrome_options = Options()
chrome_options.add_argument('--proxy-server=http://{proxyUser}:{proxyPass}@{proxyHost}:{proxyPort}')# 初始化 WebDriver
driver = webdriver.Chrome(executable_path='path/to/chromedriver', options=chrome_options, proxy=proxy)# 访问目标网页
driver.get("http://example.com")# 后续操作...

5. 错误处理和重试机制

添加错误处理和重试机制,确保在遇到异常时能够自动重试。

import requests
from requests.exceptions import RequestExceptiondef fetch_data_with_retry(url, max_retries=3):for i in range(max_retries):try:response = requests.get(url)response.raise_for_status()return response.textexcept RequestException as e:print(f'Request failed: {e}, Retrying...')time.sleep(1)  # 等待重试return None

文章所使用的代理由亿牛云提供,有需要小伙伴可以关注了解下:https://v.16yun.cn/accounts/phone_register/?sale_user=ZM_seven7

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/383263.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

手机空号过滤批量查询的意义及方法

手机空号过滤批量查询是现代营销和通信管理中常用的技术手段,旨在通过批量处理手机号码,筛选出活跃号码和空号等无效号码,以提高营销效率和减少不必要的通信成本。以下是关于手机空号过滤批量查询的详细解答: 一、手机空号过滤批…

逆向笔记-某贴

逆向环境搭建 雷电模拟器9LsposedMagisk DeltaMTNP管理器算法助手2.1.2 软件链接: https://llzai.lanzouv.com/iWgV125h6vwj 密码:a0zy 主要注释代码 捕获窗口,查看日志,定位代码 找到show的里面的alertdialog的相关行都注释掉就好了&am…

HTML5-canvas1

1、canvas&#xff1a;创建画布 <canvas id"canvas"></canvas>2、画一条直线 var canvasdocument.getElementById(cancas&#xff09;; canvas.width800; canvas.height800; var contextcanvas.getContext(2d); //获得2d绘图上下文环境 //画一条直线 c…

全新AI工具——PaintsUndo:一键自动还原图像绘画过程!

ControlNet 作者 Lvmin Zhang 又开始整活了&#xff01;这次发布的PaintsUndo 只需要上传一张图片&#xff0c; 就能够一键生成绘画过程&#xff01;快来了解学习&#xff01; 1、核心技术 PaintsUndo 是一项突破性的技术&#xff0c;旨在通过输入静态图像&#xff0c;自动生…

基于vue-grid-layout插件(vue版本)实现增删改查/拖拽自动排序等功能(已验证、可正常运行)

前端时间有个需求&#xff0c;需要对33&#xff08;不一定&#xff0c;也可能多行&#xff09;的卡片布局&#xff0c;进行拖拽&#xff0c;拖拽过程中自动排序&#xff0c;以下代码是基于vue2&#xff0c;可直接运行&#xff0c;报错可评论滴我 部分代码优化来自于GPT4o和Clau…

Live555源码阅读笔记:哈希表的实现

&#x1f601;博客主页&#x1f601;&#xff1a;&#x1f680;https://blog.csdn.net/wkd_007&#x1f680; &#x1f911;博客内容&#x1f911;&#xff1a;&#x1f36d;嵌入式开发、Linux、C语言、C、数据结构、音视频&#x1f36d; &#x1f923;本文内容&#x1f923;&a…

Air780EP模块 LuatOS开发-MQTT接入阿里云应用指南

简介 本文简单讲述了利用LuatOS-Air进行二次开发&#xff0c;采用一型一密、一机一密两种方式认证方式连接阿里云。整体结构如图 关联文档和使用工具&#xff1a;LuatOS库阿里云平台 准备工作 Air780EP_全IO开发板一套&#xff0c;包括天线SIM卡&#xff0c;USB线 PC电脑&…

【时时三省】unity test 测试框架 下载

目录 1&#xff0c;unity test 测试框架介绍 2&#xff0c;源码下载 3&#xff0c;目录架构 4&#xff0c;git for window 下载安装方法&#xff1a; 1&#xff0c;unity test 测试框架介绍 Unity是一个用于C语言的轻量级单元测试框架。它由Throw The Switch团队开发&#…

LINUX客户端client(socket、connect,write)实现客户端发送,服务器接收

SERVICE端见前一篇文章 5. 客户端连接函数 connect()&#xff08;与前面的bind一样&#xff09; int connect (int sockfd, struct sockaddr * serv_addr, int addrlen) 参数&#xff1a; sockfd: 通过 socket() 函数拿到的 fd addr:struct sockaddr 的结构体变量地址 addr…

深入指南:VitePress 如何自定义样式

&#x1f49d;&#x1f49d;&#x1f49d;欢迎莅临我的博客&#xff0c;很高兴能够在这里和您见面&#xff01;希望您在这里可以感受到一份轻松愉快的氛围&#xff0c;不仅可以获得有趣的内容和知识&#xff0c;也可以畅所欲言、分享您的想法和见解。 推荐:「stormsha的主页」…

二级医院LIS系统源码,医学检验系统,支持DB2,Oracle,MS SQLServer等主流数据库

系统概述&#xff1a; LIS系统即实验室信息管理系统。LIS系统能实现临床检验信息化&#xff0c;检验科信息管理自动化。其主要功能是将检验科的实验仪器传出的检验数据经数据分析后&#xff0c;自动生成打印报告&#xff0c;通过网络存储在数据库中&#xff0c;使医生能够通过医…

[Vulnhub] Acid-Reloaded SQLI+图片数据隐写提取+Pkexec权限提升+Overlayfs权限提升

信息收集 IP AddressOpening Ports192.168.101.158TCP:22,33447 $ nmap -p- 192.168.101.158 --min-rate 1000 -sC -sV Not shown: 65534 closed tcp ports (conn-refused) PORT STATE SERVICE VERSION 22/tcp open ssh OpenSSH 6.7p1 Ubuntu 5ubuntu1.3 (Ubuntu Lin…

C#开发的全屏图片切换效果应用 - 开源研究系列文章 - 个人小作品

这天无聊&#xff0c;想到上次开发的图片显示软件《 PhotoNet看图软件 》&#xff0c;然后想到开发一个全屏图片切换效果的应用&#xff0c;类似于屏幕保护程序&#xff0c;于是就写了此博文。这个应用比较简单&#xff0c;主要是全屏切换换图片效果的问题。 1、 项目目录&…

c++初阶知识——string类详解

目录 前言&#xff1a; 1.标准库中的string类 1.1 auto和范围for auto 范围for 1.2 string类常用接口说明 1.string类对象的常见构造 1.3 string类对象的访问及遍历操作 1.4. string类对象的修改操作 1.5 string类非成员函数 2.string类的模拟实现 2.1 经典的string…

【Git】上传代码命令至codeup云效管理平台

通过git命令上传本地代码库至阿里的codeup云效管理平台的代码管理模块&#xff0c;使用方便&#xff0c;且比github上传网络环境要求低&#xff0c;超大文件&#xff08;>100M&#xff09;的文件也可以批量上传&#xff0c;且上传速度喜人。 目录 &#x1f337;&#x1f33…

信息安全工程师题

2019年10月26日第十三届全国人民代表大会常务委员会第十四次会议通过了《中华人民共和国密码法》&#xff0c;该法自2020年1月1日起施行国密算法即国家密码局认定的国产密码算法&#xff0c;其中包括了SM1、SM2、SM3、SM4等&#xff0c;其中SM1是对称加密算法&#xff0c;加密强…

R语言优雅的进行广义可加模型泊松回归分析

泊松回归&#xff08;Poisson regression&#xff09;是以结局变量为计数结果时的一种回归分析。泊松回归在我们的生活中应用非常广泛&#xff0c;例如&#xff1a;1分钟内过马路人数&#xff0c;1天内火车站的旅客流动数&#xff0c;1天内的银行取钱人数&#xff0c;一周内的销…

【BUG】已解决:No Python at ‘C:Users…Python Python39python. exe’

No Python at ‘C:Users…Python Python39python. exe’ 目录 No Python at ‘C:Users…Python Python39python. exe’ 【常见模块错误】 【解决方案】 欢迎来到英杰社区https://bbs.csdn.net/topics/617804998 欢迎来到我的主页&#xff0c;我是博主英杰&#xff0c;211科班…

后端返回一个图片链接,前端如何实现下载功能?

纯原创文章&#xff0c;转载请说明来源。 一、背景 要实现一个下载功能&#xff0c;后端直接返回了一个图片的地址https://xxxxx/pic.jpg。如果我们直接通过window.open(url, _blank) 的方式去下载这个图片&#xff0c;会发现 Chrome 浏览器会对这个图片进行预览&#xff0c;…

Redis 7.x 系列【30】集群管理命令

有道无术&#xff0c;术尚可求&#xff0c;有术无道&#xff0c;止于术。 本系列Redis 版本 7.2.5 源码地址&#xff1a;https://gitee.com/pearl-organization/study-redis-demo 文章目录 1. 概述2. 集群信息2.1 CLUSTER INFO 3. 节点管理3.1 CLUSTER MYID3.2 CLUSTER NODES3…