深入探讨 Puppeteer 如何使用 X 和 Y 坐标实现鼠标移动

爬虫代理

背景介绍

现代爬虫技术中,模拟人类行为已成为绕过反爬虫系统的关键策略之一。无论是模拟用户点击、滚动,还是鼠标的轨迹移动,都可以为爬虫脚本带来更高的“伪装性”。在众多的自动化工具中,Puppeteer作为一个无头浏览器控制库,以其强大的功能和灵活的 API 赢得了开发者的青睐。

本文将深入探讨 Puppeteer 如何通过X 和 Y 坐标精准实现鼠标移动,并结合实际案例展示如何采集小红书网站的内容。在此过程中,我们还将运用代理 IP 技术、设置 cookie 和 user-agent,模拟一个更加“真实”的用户环境。


问题陈述

在爬取小红书等具备强大反爬能力的网站时,仅简单发送 HTTP 请求已不足以满足需求。网站可能会通过以下方式检测爬虫:

  • 缺乏真实用户行为(鼠标移动、点击、键盘输入等)。
  • 请求 IP 地址异常频繁,导致触发封禁机制。
  • 浏览器指纹(如 User-Agent 或 Cookie)不符合常规。

这就要求我们在代码中实现:

  1. 模拟人类鼠标移动:基于 X 和 Y 坐标的动态轨迹。
  2. 代理 IP 技术:隐藏爬虫的真实 IP。
  3. 自定义请求头:包括 User-Agent 和 Cookie。
  4. 完整采集流程:以小红书为例,成功抓取页面内容。

解决方案

Puppeteer 的鼠标移动 API

Puppeteer 提供了 page.mouse.move(x, y, options) 方法来实现鼠标移动。结合一定的随机性,我们可以模拟真实用户的鼠标行为,避免直线轨迹暴露爬虫的本质。

实现代理 IP

使用代理 IP 技术能够有效地绕过 IP 限制。本文将参考爬虫代理的服务,通过配置代理服务器的地址、端口、用户名和密码,让 Puppeteer 的请求看起来更真实。


案例分析:采集小红书

以下是完整的代码实现,包含代理 IP、Cookie、User-Agent 的设置,以及鼠标移动的模拟。

const puppeteer = require('puppeteer');// 配置代理IP信息 亿牛云爬虫代理 www.16yun.cn
const proxy = {host: '代理服务器域名', // 替换为16yun爬虫代理提供的域名port: '代理服务器端口', // 替换为16yun爬虫代理提供的端口username: '用户名',      // 替换为16yun爬虫代理提供的用户名password: '密码',        // 替换为16yun爬虫代理提供的密码
};// 自定义 Cookie 和 User-Agent
const cookies = [{name: 'test_cookie',value: 'test_value',domain: 'xiaohongshu.com',path: '/',},
];
const userAgent = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/113.0.0.0 Safari/537.36';(async () => {// 启动 Puppeteer,并设置代理const browser = await puppeteer.launch({headless: false, // 可设置为 true 来启用无头模式args: [`--proxy-server=http://${proxy.host}:${proxy.port}`, // 配置代理],});const page = await browser.newPage();// 设置认证代理await page.authenticate({username: proxy.username,password: proxy.password,});// 设置 User-Agentawait page.setUserAgent(userAgent);// 设置 Cookieawait page.setCookie(...cookies);// 打开小红书主页await page.goto('https://www.xiaohongshu.com', {waitUntil: 'networkidle2',});// 模拟鼠标移动console.log('模拟鼠标移动...');await page.mouse.move(100, 100); // 从点 (100, 100) 开始await page.waitForTimeout(500); // 等待 500 毫秒await page.mouse.move(200, 200, { steps: 20 }); // 平滑移动到点 (200, 200)// 获取页面内容const content = await page.evaluate(() => document.body.innerText);console.log('页面内容:', content);// 关闭浏览器await browser.close();
})();

代码解析

  1. 代理 IP 配置:通过 Puppeteer 的 --proxy-server 参数以及 page.authenticate 方法,完成代理 IP 的配置。
  2. Cookie 和 User-Agent:模拟浏览器的指纹数据,避免爬虫身份暴露。
  3. 鼠标移动模拟:采用 mouse.move 方法,通过动态坐标和步数实现平滑移动,模仿人类操作。
  4. 页面内容抓取:成功获取小红书页面的文本内容。

结论

通过结合 Puppeteer 的强大功能,我们不仅实现了对 X 和 Y 坐标的鼠标轨迹模拟,还在代码中整合了代理 IP 技术、Cookie 和 User-Agent 的设置。这些手段有效提升了爬虫的伪装性,使其能够成功应对小红书等具有强大反爬机制的网站。

下一步是什么? 你可以尝试进一步优化鼠标轨迹,使其更加随机,或结合键盘输入模拟,实现更加全面的行为伪装。技术无止境,挑战才刚刚开始!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/475641.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【软考】系统架构设计师-计算机系统基础(4):计算机网络

计算机网络功能:数据通信、资源共享、管理集中化、分布式处理、负载均衡 5G高峰速率:10Gbit/s 广域网(因特网)/城域网/局域网(以太网) 总线型:利用率低,易冲突,干扰大…

【HOT100第五天】搜索二维矩阵 II,相交链表,反转链表,回文链表

240.搜索二维矩阵 II 编写一个高效的算法来搜索 m x n 矩阵 matrix 中的一个目标值 target 。该矩阵具有以下特性: 每行的元素从左到右升序排列。每列的元素从上到下升序排列。 先动手写写最简单方法,二重循环。 class Solution { public:bool searchMa…

从技术到产品:第三方美颜API助力实时直播平台的开发详解

众所周知,开发一套完整的美颜功能不仅耗时耗力,还需要大量的算法调优与硬件优化。为此,第三方美颜API成为越来越多开发者的优先选择。本篇文章,小编将从技术到产品,深入探讨第三方美颜API如何助力直播平台的快速开发。…

《深入理解 Spring MVC 工作流程》

一、Spring MVC 架构概述 Spring MVC 是一个基于 Java 的轻量级 Web 应用框架,它遵循了经典的 MVC(Model-View-Controller)设计模式,将请求、响应和业务逻辑分离,从而构建出灵活可维护的 Web 应用程序。 在 Spring MV…

大数据新视界 -- 大数据大厂之 Impala 性能优化:融合人工智能预测的资源预分配秘籍(上)(29 / 30)

💖💖💖亲爱的朋友们,热烈欢迎你们来到 青云交的博客!能与你们在此邂逅,我满心欢喜,深感无比荣幸。在这个瞬息万变的时代,我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而 我的…

【MySQL-3】表的约束

目录 1. 整体学习的思维导图 2. 非空约束 3. default约束 4. No Null和default约束 5. 列描述 comment 6. Zerofill 7. 主键 primary key 复合主键 8. 自增长 auto_increment 9. 唯一键 10. 外键 11. 实现综合案例 1. 整体学习的思维导图 2. 非空约束 正如该标题一…

【Linux】Namespace

一、概念 Linux Namespace 是 Linux 内核提供的一种特性,用于对系统资源进行隔离。通过 Namespace,不同的进程组可以拥有独立的系统资源视图,即使它们在同一台物理机器上运行。这种隔离机制使得容器技术成为可能,因为它允许在单个…

在MATLAB中实现自适应滤波算法

自适应滤波算法是一种根据信号特性自动调整滤波参数的数字信号处理方法,其可以有效处理噪声干扰和信号畸变问题。在许多实时数据处理系统中,自适应滤波算法得到了广泛应用。在MATLAB中,可以使用多种方法实现自适应滤波算法。本文将介绍自适应…

Python学习------第十天

数据容器-----元组 定义格式,特点,相关操作 元组一旦定义,就无法修改 元组内只有一个数据,后面必须加逗号 """ #元组 (1,"hello",True) #定义元组 t1 (1,"hello") t2 () t3 tuple() prin…

软件测试—— Selenium 常用函数(一)

前一篇文章:软件测试 —— 自动化基础-CSDN博客 目录 前言 一、窗口 1.屏幕截图 2.切换窗口 3.窗口设置大小 4.关闭窗口 二、等待 1.等待意义 2.强制等待 3.隐式等待 4.显式等待 总结 前言 在前一篇文章中,我们介绍了自动化的一些基础知识&a…

Rust 力扣 - 746. 使用最小花费爬楼梯

文章目录 题目描述题解思路题解代码题目链接 题目描述 题解思路 我们使用a,b分别记录n - 2层向上爬的最小花费,n - 1层向上爬的最小花费 到达楼梯顶第N层,只能从N - 1层或者N - 2层向上爬 所以爬到第N层的最小花费 第N - 1层向上爬和第N - …

VRT: 关于视频修复的模型

VRT: 关于视频修复的模型 1. 视频修复的背景与重要性背景介绍:重要性: 2. VRT的重要性和研究背景VRT的背景:VRT的重要性: 3. 视频修复概述3.1 定义与目标3.2 与单图像修复的区别3.3 对时间信息利用的需求 4. VRT模型详解4.1 整体框…

关于C++地址交换的实现

关于地址的交换实现&#xff0c;我们要使用指针引用的方式进行&#xff0c;例如&#xff1a; #include <iostream>// 定义函数交换两个整型指针的地址 void swapIntPtrAddresses(int* &ptr1, int* &ptr2) {int *temp ptr1;ptr1 ptr2;ptr2 temp; }int main() …

HarmonyOS ArkUI(基于ArkTS) 常用组件

一 Button 按钮 Button是按钮组件&#xff0c;通常用于响应用户的点击操作,可以加子组件 Button(我是button)Button(){Text(我是button)}type 按钮类型 Button有三种可选类型&#xff0c;分别为胶囊类型&#xff08;Capsule&#xff09;、圆形按钮&#xff08;Circle&#xf…

SpringBoot学习笔记(一)

一、Spring Boot概述 &#xff08;一&#xff09;微服务概述 1、微服务 微服务&#xff08;英语&#xff1a;Microservices&#xff09;是一种软件架构风格&#xff0c;它是以专注于单一责任与功能的小型功能区块 (Small Building Blocks) 为基础&#xff0c;利用模块化的方式…

C++初阶(十三)--STL--vector的使用

目录 ​编辑 一、vector的基本介绍 二、vector的使用 1.构造函数的介绍 2.容量操作 size和capacity reserve和resize empty 3.vector的遍历 operator[ ](size_t n) 迭代器使用 begin和end rbegin和rend 4.vector的增删查改 push_back和pop_back insert和erase fi…

用Python爬虫“偷窥”1688商品详情:一场数据的奇妙冒险

引言&#xff1a;数据的宝藏 在这个信息爆炸的时代&#xff0c;数据就像是一座座等待挖掘的宝藏。而对于我们这些电商界的探险家来说&#xff0c;1688上的商品详情就是那些闪闪发光的金子。今天&#xff0c;我们将化身为数据的海盗&#xff0c;用Python这把锋利的剑&#xff0…

matlab的函数名和函数文件名的关系(编程注意事项)

在MATLAB中&#xff0c;函数名和函数文件名之间有着重要的关系。以下是它们之间的关系以及在编程时需要注意的事项 文章目录 函数名与函数文件名的关系编程时的注意事项结论 函数名与函数文件名的关系 一致性要求&#xff1a; 在MATLAB中&#xff0c;函数文件的文件名必须与函数…

【Redis】持久化机制RDB与AOF

一、RDB RDB模式是就是将内存中的数据存储到磁盘中&#xff0c;等到连接断开的时候会进行持久化操作。但是如果服务器宕机&#xff0c;会导致这个持久化机制不会执行&#xff0c;但是内存中的文件会直接丢失。所以可以设置一个触发机制&#xff0c;save 60 1000 就是代表60秒 执…

基于Lora通讯加STM32空气质量检测WIFI通讯-分享

目录 目录 前言 一、本设计主要实现哪些很“开门”功能&#xff1f; 二、电路设计原理图 1.电路图采用Altium Designer进行设计&#xff1a; 2.实物展示图片 三、程序源代码设计 四、获取资料内容 前言 随着环境污染问题的日益严重&#xff0c;空气质量的监测与管理已经…