Puppeteer 是什么以及如何在网络抓取中使用它 | 2024 完整指南

在这里插入图片描述

网页抓取已经成为任何处理网页数据提取的人都必须掌握的一项重要技能。无论你是开发者、数据科学家还是希望从网站收集信息的爱好者,Puppeteer都是你可以使用的最强大工具之一。本完整指南将深入探讨什么是Puppeteer以及如何有效地在网页抓取中使用它。

Puppeteer简介

Puppeteer是一个Node库,它通过DevTools协议提供了一个高级API来控制Chrome或Chromium。它由Google Chrome团队维护,提供了开发者执行各种浏览器任务的能力,如生成截图、抓取网站,最重要的是网页抓取。由于其无头浏览功能(即可以在没有图形用户界面的情况下运行),Puppeteer非常受欢迎,非常适合自动化任务。

是否在为反复失败的验证码而苦恼?通过CapSolver AI驱动的自动网页解锁技术,发现无缝的自动验证码解决方案!

领取您的优惠码以获得顶级验证码解决方案;CapSolver: WEBS。兑换后,每次充值将额外获得5%的奖励,无限次。

[外链图片转存中...(img-wXvup0o5-1720604014564)]

为什么使用Puppeteer进行网页抓取?

虽然Axios和Cheerio是JavaScript网页抓取的不错选择,但它们有一些限制:处理动态内容和绕过反抓取机制。

作为一个无头浏览器,Puppeteer在抓取动态内容方面表现出色。它可以完全加载目标页面,执行JavaScript,甚至可以触发XHR请求以检索额外的数据。这是静态抓取器无法实现的,尤其是在单页应用程序(SPA)中,初始HTML缺乏重要数据。

Puppeteer还能做什么?它可以渲染图像、捕获截图,并具有解决各种验证码的扩展,如reCAPTCHA、Funcaptcha、hCaptcha。例如,你可以编写脚本在页面上导航,在特定时间间隔内截取截图,并分析这些图像以获得竞争性见解。可能性几乎是无限的!

Puppeteer的简单使用

我们之前使用Selenium和Python完成了ScrapingClub的第一部分。现在,让我们使用Puppeteer完成第二部分。

[外链图片转存中…(img-0yziBy2m-1720604014564)]

在开始之前,请确保你在本地机器上安装了Puppeteer。如果没有,你可以使用以下命令安装:

npm i puppeteer # 安装时下载兼容的Chrome。
npm i puppeteer-core # 或者,作为库安装,不下载Chrome。

访问网页

const puppeteer = require('puppeteer');(async function() {const browser = await puppeteer.launch({headless: false});const page = await browser.newPage();await page.goto('https://scrapingclub.com/exercise/detail_json/');// 暂停5秒await new Promise(r => setTimeout(r, 5000));await browser.close();
})();

puppeteer.launch方法用于启动一个新的Puppeteer实例,可以接受一个包含多个选项的配置对象。最常见的是headless选项,它指定是否以无头模式运行浏览器。如果不指定此参数,默认值为true。其他常见的配置选项如下:

参数类型默认值描述示例
argsstring[]启动浏览器时传递的命令行参数数组args: ['--no-sandbox', '--disable-setuid-sandbox']
debuggingPortnumber指定调试端口号debuggingPort: 8888
defaultViewportdict{width: 800, height: 600}设置默认视口大小defaultViewport: {width: 1920, height: 1080}
devtoolsbooleanfalse是否自动打开开发者工具devtools: true
executablePathstring指定浏览器可执行文件的路径executablePath: '/path/to/chrome'
headlessboolean'shell'true是否以无头模式运行浏览器headless: false
userDataDirstring指定用户数据目录的路径userDataDir: '/path/to/user/data'
timeoutnumber30000等待浏览器启动的超时时间(毫秒)timeout: 60000
ignoreHTTPSErrorsbooleanfalse是否忽略HTTPS错误ignoreHTTPSErrors: true

设置窗口大小

为了获得最佳浏览体验,我们需要调整两个参数:视口大小和浏览器窗口大小。代码如下:

const puppeteer = require('puppeteer');(async function() {const browser = await puppeteer.launch({headless: false,args: ['--window-size=1920,1080']});const page = await browser.newPage();await page.setViewport({width: 1920, height: 1080});await page.goto('https://scrapingclub.com/exercise/detail_json/');// 暂停5秒await new Promise(r => setTimeout(r, 5000));await browser.close();
})();

提取数据

在Puppeteer中,有多种方法可以提取数据。

  1. 使用evaluate方法

    evaluate方法在浏览器上下文中执行JavaScript代码以提取所需数据。

    const puppeteer = require('puppeteer');(async function () {const browser = await puppeteer.launch({headless: false,args: ['--window-size=1920,1080']});const page = await browser.newPage();await page.setViewport({width: 1920, height: 1080});await page.goto('https://scrapingclub.com/exercise/detail_json/');const data = await page.evaluate(() => {const image = document.querySelector('.card-img-top').src;const title = document.querySelector('.card-title').innerText;const price = document.querySelector('.card-price').innerText;const description = document.querySelector('.card-description').innerText;return {image, title, price, description};});console.log('产品名称:', data.title);console.log('产品价格:', data.price);console.log('产品图片:', data.image);console.log('产品描述:', data.description);// 暂停5秒await new Promise(r => setTimeout(r, 5000));await browser.close();
    })();
    
  2. 使用$eval方法

    $eval方法选择单个元素并提取其内容。

    const puppeteer = require('puppeteer');(async function () {const browser = await puppeteer.launch({headless: false,args: ['--window-size=1920,1080']});const page = await browser.newPage();await page.setViewport({width: 1920, height: 1080});await page.goto('https://scrapingclub.com/exercise/detail_json/');const title = await page.$eval('.card-title', el => el.innerText);const price = await page.$eval('.card-price', el => el.innerText);const image = await page.$eval('.card-img-top', el => el.src);const description = await page.$eval('.card-description', el => el.innerText);console.log('产品名称:', title);console.log('产品价格:', price);console.log('产品图片:', image);console.log('产品描述:', description);// 暂停5秒await new Promise(r => setTimeout(r, 5000));await browser.close();
    })();
    
  3. 使用$$eval方法

    $$eval方法一次选择多个元素并提取其内容。

    const puppeteer = require('puppeteer');(async function () {const browser = await puppeteer.launch({headless: false,args: ['--window-size=1920,1080']});const page = await browser.newPage();await page.setViewport({width: 1920, height: 1080});await page.goto('https://scrapingclub.com/exercise/detail_json/');const data = await page.$$eval('.my-8.w-full.rounded.border > *', elements => {const image = elements[0].querySelector('img').src;const title = elements[1].querySelector('.card-title').innerText;const price = elements[1].querySelector('.card-price').innerText;const description = elements[1].querySelector('.card-description').innerText;return {image, title, price, description};});console.log('产品名称:', data.title);console.log('产品价格:', data.price);console.log('产品图片:', data.image);console.log('产品描述:', data.description);// 暂停5秒await new Promise(r => setTimeout(r, 5000));await browser.close();
    })();
    
  4. 使用page.$evaluate方法

    page.$方法选择元素,evaluate方法在浏览器上下文中执行JavaScript代码以提取数据。

    const puppeteer = require('puppeteer');(async function () {const browser = await puppeteer.launch({headless: false,args: ['--window-size=1920,1080']});const page = await browser.newPage();await page.setViewport({width: 1920, height: 1080});await page.goto('https://scrapingclub.com/exercise/detail_json/');const imageElement = await page.$('.card-img-top');const titleElement = await page.$('.card-title');const priceElement = await page.$('.card-price');const descriptionElement = await page.$('.card-description');const image = await page.evaluate(el => el.src, imageElement);const title = await page.evaluate(el => el.innerText, titleElement);const price = await page.evaluate(el => el.innerText, priceElement);const description = await page.evaluate(el => el.innerText, descriptionElement);console.log('产品名称:', title);console.log('产品价格:', price);console.log('产品图片:', image);console.log('产品描述:', description);// 暂停5秒await new Promise(r => setTimeout(r, 5000));await browser.close();
    })();
    

绕过反抓取保护

完成ScrapingClub的练习相对简单。然而,在实际的数据抓取场景中,获取数据并不总是那么容易。一些网站采用反抓取技术,可能会检测到你的脚本为机器人并将其封锁。最常见的情况是遇到验证码挑战,如funcaptcha、datadome、recaptcha、hcaptcha和geetest。
在这里插入图片描述
在这里插入图片描述

要解决这些验证码挑战,需要在机器学习、逆向工程和浏览器指纹对抗措施方面有丰富的经验,这可能需要大量时间。

幸运的是,你不再需要自己处理所有这些工作了。CapSolver提供了一个全面的解决方案,帮助你轻松解决所有挑战。CapSolver提供了一个浏览器扩展,允许你在使用Puppeteer进行数据抓取时自动解决验证码挑战。此外,它还提供了一个API方法来解决验证码并获取令牌。所有这些都可以在几秒钟内完成。查看这个文档以了解如何解决你遇到的各种验证码问题!

结论

网页抓取对于任何从事网页数据提取的人来说都是一项无价的技能,而Puppeteer作为一个具有高级API和强大功能的工具,是实现这一目标的最佳选择之一。其处理动态内容和绕过反抓取机制的能力使其在众多抓取工具中脱颖而出。

在本指南中,我们探讨了什么是Puppeteer,它在网页抓取中的优势,以及如何设置和有效使用它。我们通过示例演示了如何访问网页、设置视口大小以及使用各种方法提取数据。此外,我们讨论了反抓取技术带来的挑战以及CapSolver如何提供强大的解决方案来应对验证码挑战。

CapsolverCN官 方代理交流扣 群:497493756

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/377972.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【Neural signal processing and analysis zero to hero】- 1

The basics of neural signal processing course from youtube: 传送地址 Possible preprocessing steps Signal artifacts (not) to worry about doing visual based artifact rejection so that means that before you start analyzing, you can identify those data epic…

有关电力电子技术的一些相关仿真和分析:⑤交-直-交全桥逆变+全波整流结构电路(MATLAB/Siumlink仿真)

全桥逆变+全波整流结构 参数:Vin=500V, Vo=200V, T=2:1:1, RL=10Ω, fs=100kHz, L=1mH, C=100uF (1)给定输入电压,输出电压和主电路参数,仿真研究电路工作原理,分析工作时序; (2)调节负载电阻,实现电流连续和断续,并仿真验证; (3)调节占空比,分析占空比与电…

微软Edge浏览器深度解析:性能、安全性与特色功能全面评测

一、引言 自Windows 10操作系统推出以来,微软Edge浏览器作为默认的网页浏览器,凭借其现代化的设计和出色的性能表现,逐渐获得了用户的认可。本文旨在对Edge浏览器进行深入分析,探讨其在多个方面的表现。 二、界面与操作体验 界面…

初识STM32:芯片基本信息

STM32简介 STM32是ST公司基于ARM公司的Cortex-M内核开发的32位微控制器。 ARM公司是全球领先的半导体知识产权(IP)提供商,全世界超过95%的智能手机和平板电脑都采用ARM架构。 ST公司于1987年由意大利的SGS微电子与法国的Thomson半导体合并…

多样化数据可视化方法的全面示例:基于Python的多样化数据可视化

文章目录 前言代码效果展示 前言 本文演示了使用Python进行温度数据的多样化可视化方法。通过导入、处理和分析气象数据,我们生成了多种图表,包括直方图、核密度估计图、箱型图、小提琴图、条形图、山脊图、经验累积分布函数图和折线图。这些图表帮助我…

Zookeeper之CAP理论及分布式一致性算法

CAP理论 CAP理论告诉我们,一个分布式系统不可能同时满足以下三种 一致性(C:consistency)可用性(A:Available)分区容错性(P:Partition Tolerance) 这三个基本要求,最多只能同时满足…

【Pytorch】数据集的加载和处理(一)

Pytorch torchvision 包提供了很多常用数据集 数据按照用途一般分为三组:训练(train)、验证(validation)和测试(test)。使用训练数据集来训练模型,使用验证数据集跟踪模型在训练期间…

c++包管理器

conan conan search,查看网络库 conan profile detect,生成缓存信息conan new cmake_exe/cmake_lib,创建cmakelists.txtconan install .,执行Conanfile.txt中的配置,生成相关的bat文件 项目中配置Conanfile.txt(或者…

【AIGC】二、mac本地采用GPU启动keras运算

mac本地采用GPU启动keras运算 一、问题背景二、技术背景三、实验验证本机配置安装PlaidML安装plaidml-keras配置默认显卡 运行采用 CPU运算的代码step1 先导入keras包,导入数据cifar10,这里可能涉及外网下载,有问题可以参考[keras使用基础问题…

linux后门教程

linux后门教程 alias 用法 系统默认别名:alias 设置别名:alias lsls -laih 删除别名:unalias ls **加参数:**alias ls‘ls -laih;pwd’ 注意 系统启动默认加载的配置文件 /etc/profile 切换用户就会执行/etc/profile /etc/bash…

正则表达式(Ⅱ)——重复匹配

简介 基本匹配是在其中选择一个进行拼装,而重复匹配则是去指定字符可以出现的次数 基本匹配中的字符要么不出现,匹配上了也只能是出现一次 重复匹配使用一些特殊字符用来指定一个字符在文本中重复的次数。它们分别是加号 、星号 * ,问号 ?…

面试经验总结

某生物科技公司 1.代码实现删除一个 list 里面的重复元素 方法1:最简单容易的方法 此方法基于遍历整个列表,将第一个元素添加到新列表中。 # Python 3 code to demonstrate # removing duplicated from list # using naive methods # initializing …

数据结构—链式二叉树-C语言

代码位置:test-c-2024: 对C语言习题代码的练习 (gitee.com) 一、前言: 在现实中搜索二叉树为常用的二叉树之一,今天我们就要通过链表来实现搜索二叉树。实现的操作有:建二叉树、前序遍历、中序遍历、后序遍历、求树的节点个数、求…

免费开源的工业物联网(IoT)解决方案

什么是 IoT? 物联网 (IoT) 是指由实体设备、车辆、电器和其他实体对象组成的网络,这些实体对象内嵌传感器、软件和网络连接,可以收集和共享数据。 IoT 设备(也称为“智能对象”)范围广泛,包括智能恒温器等…

FastAPI 学习之路(四十四)WebSockets

我们之前的分析都是基于http的请求,那么如果是websockets可以支持吗,答案是可以的,我们来看下是如何实现的。 from fastapi import WebSocket, FastAPI from fastapi.responses import HTMLResponseapp FastAPI()html """&…

架构师机器学习操作 (MLOps) 指南

MLOps 是机器学习操作的缩写,是一组实践和工具,旨在满足工程师构建模型并将其投入生产的特定需求。一些组织从一些自主开发的工具开始,这些工具在每次实验后对数据集进行版本控制,并在每个训练周期后对检查点模型进行版本控制。另…

新手-前端生态

文章目录 新手的前端生态一、概念的理解1、脚手架2、组件 二、基础知识1、HTML2、css3、JavaScript一、基础语法1、javaScript的引入2、认识输出语句3、学会处理报错 二、变量1、如何使用变量 2、变量的命名规范3、推荐的变量命名法4、变量默认值5、变量常见的错误6、变量声明提…

Prometheus 云原生 - 微服务监控报警系统 (Promethus、Grafana、Node_Exporter)部署、简单使用

目录 开始 Prometheus 介绍 基本原理 组件介绍 下文部署组件的工作方式 Prometheus 生态安装(Mac) 安装 prometheus 安装 grafana 安装 node_exporter Prometheus 生态安装(Docker) 安装 prometheus 安装 Grafana 安装…

人工智能算法工程师(中级)课程14-神经网络的优化与设计之拟合问题及优化与代码详解

大家好,我是微学AI,今天给大家介绍一下人工智能算法工程师(中级)课程14-神经网络的优化与设计之拟合问题及优化与代码详解。在机器学习和深度学习领域,模型的训练目标是找到一组参数,使得模型能够从训练数据中学习到有用的模式&am…

设计模式总结(设计模式的原则及分类)

1.什么是设计模式? 设计模式(Design pattern)代表了最佳的实践,通常被有经验的面向对象的软件开发人员所采用。设计模式是软件开发人员在软件开发过程中面临的一般问题的解决方案。这些解决方案是众多软件开发人员经过相当长的一段时间的试验和错误总结…