Puppeteer自动化:使用JavaScript定制PDF下载

爬虫代理

引言

在现代的Web开发中,自动化已经成为提高效率和减少重复劳动的重要手段。Puppeteer 是一个强大的Node.js库,提供了对无头Chrome或Chromium的控制,可以用于生成网页快照、抓取数据、自动化测试等任务。其中,生成PDF文件是一个常见的需求,本文将通过使用Puppeteer展示如何自动化生成定制的PDF,并使用代理IP、设置user-agent、cookie等技术来增强自动化过程的灵活性与稳定性。

正文

Puppeteer允许用户通过简洁的API操控浏览器行为,如页面导航、点击、表单填写和页面截图等。生成PDF的过程就是通过控制浏览器渲染页面,并将页面内容输出为PDF格式文件。为了应对网络请求的反爬虫策略,代理IP、user-agent和cookie等配置显得尤为重要,特别是需要从特定网站获取数据时。

Puppeteer生成PDF的基本步骤

  1. 安装Puppeteer
    首先,需要确保Node.js环境已安装。通过以下命令安装Puppeteer:
npm install puppeteer
  1. 配置代理IP
    在复杂的爬虫任务中,使用代理IP是避免IP被封的常用手段。本文将参考爬虫代理的配置来实现代理IP的设置。
  2. 设置user-agent和cookie
    设置合适的user-agent和cookie有助于模仿真实用户访问,避免触发反爬机制。

示例代码

const puppeteer = require('puppeteer');// 亿牛云 爬虫代理配置
const proxyConfig = {domain: 'your_proxy_domain',  // 代理IP提供商的域名port: 'your_proxy_port',      // 代理端口username: 'your_username',    // 用户名password: 'your_password'     // 密码
};// 自定义的User-Agent和Cookie
const userAgent = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.121 Safari/537.36';
const cookie = [{'name': 'example_cookie','value': 'cookie_value','domain': '.example.com','path': '/'
}];(async () => {// 启动带有代理的浏览器实例const browser = await puppeteer.launch({headless: true, // 以无头模式运行args: [`--proxy-server=${proxyConfig.domain}:${proxyConfig.port}` // 设置代理IP]});const page = await browser.newPage();// 设置代理认证await page.authenticate({username: proxyConfig.username,password: proxyConfig.password});// 设置User-Agentawait page.setUserAgent(userAgent);// 设置Cookieawait page.setCookie(...cookie);// 导航到目标网页await page.goto('https://www.example.com', { waitUntil: 'networkidle2' });// 生成PDF文件await page.pdf({path: 'output.pdf',       // 输出PDF文件的路径format: 'A4',             // 设置纸张格式printBackground: true,    // 是否打印背景displayHeaderFooter: false // 隐藏页眉和页脚});console.log('PDF生成成功!');// 关闭浏览器await browser.close();
})();

代码解读

  1. 代理配置
    使用args参数指定代理服务器,并通过page.authenticate()方法进行代理认证。
  2. 设置user-agent
    通过page.setUserAgent()来模仿真实用户浏览器的行为。
  3. 设置cookie
    通过page.setCookie()模拟登录状态或获取特定权限的数据。
  4. 生成PDF
    通过page.pdf()方法可以将当前页面渲染为PDF。该方法允许自定义输出的PDF文件路径、格式、是否显示背景图、以及是否包含页眉页脚等选项。

实例

为了更好地理解如何定制Puppeteer生成的PDF文件,我们提供一个生成A4纸张格式的网页PDF的实例。该PDF文件包含网页的所有内容,并且通过代理IP绕过网站的防爬机制。用户可以根据需求自定义输出的PDF格式或内容。

结论

Puppeteer的强大功能使其在网页自动化、数据抓取、生成PDF等任务中表现出色。通过结合代理IP、设置user-agent和cookie等技术,我们可以提升自动化任务的灵活性和稳定性。在实际项目中,这种自动化生成PDF的技术可以广泛应用于报表生成、发票打印等场景。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/442748.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

cnn突破八(两层卷积核bpnet网络扩展)

cnn突破七中x【?】怎么求?我们举个例子: 接着cnn突破七: hicnn【】来自temphicnn【】2*2最大池化: temphicnn[0]x[i0,j0,5*5方阵]*w1cnn[0-24], hicnn是5*5的,temphicnn是10*10的&#xff0…

git clone 私有仓库时出现错误 Authentication failed for :xxxxxx

错误信息 remote: Support for password authentication was removed on August 13, 2021. remote: Please see https://docs.github.com/get-started/getting-started-with-git/about-remote-repositories#cloning-with-https-urls for information on currently recommended…

音频剪辑在线工具 —— 让声音更精彩

你是否曾梦想过拥有自己的声音创作空间,却苦于复杂的音频编辑软件?接下来,让我们一同揭开这些音频剪辑在线工具的神秘面纱,看看它们如何帮助你实现从录音到发布的无缝衔接。 1.福昕音频剪辑 链接直达>>https://www.foxits…

Windows系统编程(三)线程并发

进程与线程 进程:直观的说就是任务管理器中各种正在运行的程序。对于操作系统来说,进程仅仅是一个数据结构,并不会真实的执行代码 线程:通常被称作但并不真的是轻量级进程或实际工作中的进程,它会真实的执行代码。每…

Qwen变体新成员加一,英伟达训练 NVLM-D-72B 视觉大模型

今天(2024 年 9 月 17 日),我们推出了前沿级多模态大语言模型(LLM)系列 NVLM 1.0,它在视觉语言任务上取得了最先进的结果,可与领先的专有模型(如 GPT-4o)和开放存取模型&…

易图讯军用VR三维电子沙盘系统

深圳易图讯军用VR三维电子沙盘系统是一种集成了虚拟现实(VR)技术、三维建模技术、大数据分析、实时动态更新以及高度安全可靠的综合性军事指挥平台。该系统通过高精度三维模型真实再现战场环境,为指挥员提供沉浸式体验和交互操作的可能性&…

【黑马点评】0.环境配置--Redis6.2.6和可视化工具在Windows上的安装

黑马点评--0.Redis6.2.6在windows上的环境配置与可视化 0 前言1 下载安装2 解压后运行msi文件3 修改配置文件并打开Redis3.1 修改密码(可选)3.2 测试 4 Redis可视化(可选)4.1 Another Redis Desktop Manager下载安装4.2 连接Redis…

N1从安卓盒子刷成armbian

Release Armbian_noble_save_2024.10 ophub/amlogic-s9xxx-armbian (github.com) armbian下载,这里要选择905d adb 下载地址 https://dl.google.com/android/repository/platform-tools-latest-windows.zip 提示信息 恩山无线论坛 使用usb image tool restet a…

深入理解NumPy库:常用函数详解与数组操作指南

在数据科学和数值计算领域,NumPy无疑是一个强大的工具,它为Python提供了高效的多维数 组处理能力。无论是进行数据分析、构建机器学习模型,还是进行复杂的科学计算,NumPy都是 不可或缺的核心库之一。 numpy.array 是 NumPy 库中…

C# 获取可执行文件目录

---------------------------------------------------------------------------

SpringMVC框架:入门讲解和基础案例解析

Spring Web MVC是什么? Spring Web MVC是一种基于Java的实现了Web MVC设计模式的请求驱动类型的轻量级Web框架。使用了MVC架构模式的思想,将web层进行职责解耦,基于请求驱动指的就是使用请求-响应模型 。框架的目的就是帮助我们简化开发&…

PCB板材基本知识

术语 名称定义插图 copper foil 铜箔 Copper Clad Laminates,CCL 覆铜箔层压板 CCL是PCB制造的上游核心材料,是将电子玻纤布或其它增强材料浸以树脂,一面或双面覆以铜箔并经热压而制成的一种板状材料,担负着(PCB&am…

优先级队列详解

一,优先级队列 什么是优先级队列呢,不知道大家了解过队列没有,队列是一种先进先出的数据结构,但是我们有时会想让优先级高的先出队列,所以我们出现了一种新的数据结构,我们实现两种主要功能得到优先级高的数…

螺蛳壳里做道场:老破机搭建的私人数据中心---Centos下Docker学习07(基于docker容器的防火墙及NAT企业实战)

7.1 网络准备 7.2 网络规划 1)虚拟网络编辑器 点击右下方“更改设置”,点击“添加网络”假如vmnet3和vmnet4,然后分别选择vmnet3和vmnet4,设置为“仅主机模式”,按③处处理,去掉“使用DHCP”,…

ORA-19815 db_recovery_file_dest_size 100%

1、alert日志报错 ORA-19815 db_recovery_file_dest_size 100% 恢复区空间使用满 2、rm删除后操作系统空间使用,但V$RECOVERY_FILE_DEST记录的空间使用率仍然是满的 3、rman delete expired 归档日志后恢复正常 4、当然可以通过增大db_recovery_file_dest_size来临时…

牛客——xay loves or与 __builtin_popcount的使用

xay loves or 题目描述 登录—专业IT笔试面试备考平台_牛客网 运行思路 题目要求我们计算有多少个正整数 yy 满足条件 x \text{ OR } y sx OR ys。这里的“OR”是指按位或运算。为了理解这个问题,我们需要考虑按位或运算的性质。 对于任意两个位 a_iai​ 和 b_…

HUAWEI_HCIA_实验指南_Lib1.4_配置通过Telnet登录系统

一、原理概述 Telnet(Telecommunication Network Protocol)起源于ARPANET,是最早的Internet应用之一。 Telnet 通常用在远程登录应用中,以便对本地或远端运行的网络设备进行配置、监控和维护。如网络中有多台设备需要配置和管理,用户无需为每一台设备…

NUKE 15有哪些新的改进功能?影视后期特效合成NUKE 15 安装包分享 【Mac/win】

Nuke 15是一款由英国The Foundry公司开发的专业的合成软件,被广泛用于电影、电视和广告制作中的后期合成和特效制作。 Nuke 15拥有强大的功能和灵活性,可以帮助用户处理各种复杂的合成任务,包括图像修复、色彩校正以及粒子特效等。它具备高效…

Java项目实战II基于Java+Spring Boot+MySQL的高校学科竞赛平台

目录 一、前言 二、技术介绍 三、系统实现 四、文档参考 五、核心代码 六、源码获取 全栈码农以及毕业设计实战开发,CSDN平台Java领域新星创作者,专注于大学生项目实战开发、讲解和毕业答疑辅导。获取源码联系方式请查看文末 一、前言 随着高等教…

【JavaScript】JS核心语法及函数

文章目录 一、初识 JS二、JS 核心语法2-1 变量2-2 数据类型typeofString 对象 2-3 数组创建数组常用属性方法 2-4 运算符号加号运算符 减号运算符 -比较运算符逻辑运算符 2-5 控制语句for-inbreakcontinue 三、函数3-1 常用系统函数3-2 自定义函数函数声明函数调用 3-3 创建对象…