Chrome插件 | WEB 网页数据采集和爬虫程序

无边无形的互联网遍地是数据,品类丰富、格式繁多,包罗万象。数据采集,或说抓取,就是把分散各处的内容,通过各种方式汇聚一堂,是个有讲究要思考的体力活。君子爱数,取之有道,得注意遵守相关的法律法规和网站的使用政策😎

楔子

21世纪是信息时代,信息就是财富。数据(信息)采集是指从信息使用者的需要出发,通过各种渠道和形式获取相关信息的过程.。采集及时、准确、全面的信息是信息管理的基本前提,同时也是管理者决策的参考依据。

写论文时,从统计局网站粘贴几个数值;不定时将公示结果转存到Excel;批量把在线的高清美图下载到本地。这些都是 WEB 数据采集的日常例子。

信息采集最简单最原始的方式,就是人力直接操作,CTRL+C、CTRL+V一套组合拳下来,数据就到碗里来了👏🏻。不过,这数据量一旦上来,铁打的人都吃不消。于是乎,人们想到了用电脑来代替人工,爬虫程序就这样诞生了。

在此之前,我们应该先简单了解下网页内容渲染机制。

网页渲染机制


上图是 WEB 页面交互的简单模型,不谈及安全机制、浏览器兼容等😄。

常见自动化程序方案

所谓的自动化程序,就是用机器大批量地发起请求,拿到响应后再做处理。专业术语叫做网页爬虫或者网页机器人

模拟请求(基于代码或爬虫框架)

此方案需要我们至少熟悉一门编程语言(Python、Node.js、Java等),自行编写代码或者借助优秀的开源爬虫框架,实现数据获取。某些场景,还需要通过抓包分析目标网站的参数规则,然后通过组合式请求方能达到目的。

这里罗列下我用过或收藏且还在不断更新维护的框架:

名称开发语言简介
ScrapyPythonA fast high-level web crawling & scraping framework for Python.
PyspiderPythonA Powerful Spider(Web Crawler) System in Python.
NutchJava一种高度可扩展、可伸缩的开源 Web 爬虫软件项目。功能强大,支持 Hadoop 集群内运行
webmagicJava一个简单灵活的Java爬虫框架。基于WebMagic,你可以快速开发出一个高效、易维护的爬虫。真的非常简单😄
Spiderman2Java开源Web数据抽取工具,我没实际使用过
node-crawlerNode.jsWeb Crawler/Spider for NodeJS + server-side jQuery 😉

开发者工具 F12 🛠️

首先访问目标网站,按需进行登录,然后按下键盘 F12(或者 Ctrl+Shift+I)进入开发者工具,可以在控制台中写或贴入 JS 脚本,回车收尾😎。

这是我常用的一种方式,用户验证脚本跟少规模作业。

自动化测试工具(Selenium/Puppeteer/Playwright)

WEB 自动化测试工具,是指通过程序代替人工完成验证 WEB 功能的过程。当然,也能利用它来抓取数据。这类工具通过驱动程序(webdriver、DevTools Protocol),驱使浏览器执行既定的动作/脚本。

  • Selenium:老牌大哥,我最开始接触的自动化测试工具,支持 Chrome、Edge、Firefox、IE、Safari 等浏览器,对开发语言支持也很广:Java、Python、C#、Ruby、JavaScript
  • Puppeteer: Chrome 开发团队在 2017 年发布的一个 Node.js 包,用来模拟 Chrome 浏览器的运行。主打对 Chrome 的良好支持,社区有针对 Java、Python 版本。
  • Playwright:微软大厂出品,浏览器支持 Chrome、Edge、Firefox、Safari,官方提供 Java、Python、Node.js、C# 编程语言的 SDK。

Electron / Traui

这两个软件跟上一节工具基本一致,之所以单独列出来,是因为它们提供了更丰富的接口,既能控制浏览器完成任务,又可以制作 GUI 界面(可用于与爬虫程序交互)。

2019年那会,我用闲余时间基于 Electron 做了个小玩具:

浏览器扩展(插件)

官方应该叫做浏览器扩展(Extensions),但是我们习惯叫做插件😄,后续文章我将重点以此方式进行实践。

浏览器扩展(插件)是运行在特定浏览器,遵循相关规范的应用程序包,由 JS、CSS、HTML 组成,能够管理标签页、注入代码、操作DOM、监控页面活动等。

插件功能非常强大,具体的文档详见Chrome Extensions Document。不过有一个小遗憾是不能在插件内打开标签页的开发者工具,官方给出的回答是出于安全考虑。

有大佬做的强大插件webscraper插件(本地使用免费)👍。

小结

我们在做数据采集时,可以根据实际情况灵活选择方案。不过,无论是何种方式,都要随着目标网站的更新迭代,做相应的适配,否则会出现程序无效的情况,而这是一个耗时耗力的过程🙂。

另外,部分网站会对自动化测试工具进行检测,可以参考:bot.sannysoft.com/,正常浏览器会看到如下的结果图。

拦路虎🧱

拦路虎之 IP 限制

当 ip 被限制,就无法正常访问网站或服务。我们的请求很可能被防火墙、网关、WAF(Web 应用防护系统)等前置设备、应用拦截,压根没有到藏在后面的网站。常用应对方式是更换终端IP,比如用代理。

拦路虎之验证码

验证码就是用来拦截爬虫程序的,常见有字符图片验证码(数字+字母+中文,再来点干扰线跟字符变形,增加识别成本),也会有逻辑交互类,以及手机/邮箱接收验证码。
字符类验证码
现代验证码越来越先进(下图是网易网盾首页列出来的常见类型),即使对正常用户也是很艰难才能完成验证。
来自网易网盾首页
这里不得不提一下谷歌「我不是机器人」的验证:reCAPTCHA ,没少被它蹂躏🤣。但是关于 reCAPTCHA 又有一个让我觉得非常惊艳的故事,是关于如何把人类纸质书数字化的,当时靠人工、机器字符识别的效率、效果都不行,于是该公司(后来被谷歌收购)想到把书籍扫描件分割为无数个小图,显示为验证码,让用户进行识别,然后得到最多的结果作为纸质书内容的数字字符(会有算法的参与),具体的看这篇文章:你以为自己在填验证码,其实你是在给Google义务劳动。

这真是太酷了!全人类共同参与到知识数字化进程中来,是在为人类文明做贡献,想想就很激动👏。

聊完常见验证码,是不是要开始说下怎么怎么自动识别它们?

对于文字型可以用OCR,简单交互类的可以用脚本模拟人工拖拽动作,逻辑类的话就难很多,需要对症下药。当然也可以花钱调商用接口,我用过的有超级鹰。

拦路虎之行为检测

关于行为检测,我没有深入了解,只是在一个爬取某国外社交平台数据时,直接告诉我,是因为操作路径每次都一样而被拦截😒。

结语

有数据的地方就有江湖,爬取与反爬取,是一个长期博弈的过程。今天道高一尺,明日魔高一丈,唯有不断学习进步,方能跬步前行。

此外,数据采集是整个流程的第一环,以后还需要对数据进行清洗、真假鉴定、切割分类、打标签等等。就好比厨房做菜,采集即为买菜回来,接着要挑选、洗菜、切菜、烹饪、摆盘、上桌、洗碗刷盘。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/268384.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Network LSA 结构简述

Network LSA主要用于描述一个区域内的网络拓扑结构,包括网络中的路由器和连接到这些路由器的网络。它记录了每个路由器的邻居关系、连接状态以及连接的度量值(如带宽、延迟等),以便计算最短路径和构建路由表。display ospf lsdb n…

ASUS华硕天选5笔记本电脑FX607JV原装出厂Win11系统下载

ASUS TUF Gaming F16 FX607JV天选五原厂Windows11系统 适用型号: FX607JU、FX607JI、FX607JV、 FX607JIR、FX607JVR、FX607JUR 下载链接:https://pan.baidu.com/s/1l963wqxT0q1Idr98ACzynQ?pwd0d46 提取码:0d46 原厂系统自带所有驱动、…

【JS 算法题: 将 json 转换为字符串】

题目简介 其实就是手撕 JSON.stringfy()。 算法实现 输入 原则上来说,输入的是一个 json 对象。但需要考虑到异常情况,即输入了其它类型的数据,比如:12, true, ‘abc’, [‘red’, ‘green’], null, undefined 等。 输出 …

关于脉冲负载应用中电阻器,您需要了解的 11 件事?

不幸的是,电阻器在脉冲负载下可能会失效。当脉冲功率耗散到器件的电阻元件时,它会产生热量并增加电阻器的温度。过热会损坏电阻元件,导致电阻变化甚至设备开路。为了避免在设计中出现这种情况,以下是您在选择元件时应了解的有关电…

基于springboot的宠物咖啡馆平台的设计与实现论文

基于Spring Boot的宠物咖啡馆平台的设计与实现 摘要 随着信息技术在管理上越来越深入而广泛的应用,管理信息系统的实施在技术上已逐步成熟。本文介绍了基于Spring Boot的宠物咖啡馆平台的设计与实现的开发全过程。通过分析基于Spring Boot的宠物咖啡馆平台的设计与…

【大厂AI课学习笔记NO.65】机器学习框架和深度学习框架

笔记思维脑图已上传,访问我的主页可下载。 https://download.csdn.net/download/giszz/88868909 广义上,机器学习框架包含了深度学习框架。 本质上,机器学习框架涵盖分类、回归、聚类、异常检测和数据准备等各种学习方法。 深度学习框架涵…

[Vulnhub]靶场 Red

kali:192.168.56.104 主机发现 arp-scan -l # arp-scan -l Interface: eth0, type: EN10MB, MAC: 00:0c:29:d2:e0:49, IPv4: 192.168.56.104 Starting arp-scan 1.10.0 with 256 hosts (https://github.com/royhills/arp-scan) 192.168.56.1 …

C++ 设计模式

文章目录 类图泛化实现关联聚合组合依赖总结 类内部的三种权限(公有、保护、私有)类的三种继承方式描述与图总结 面向对象七大原则单一职责原则(Single Responsibility Principle)里氏替换原则(Liskov Substitution Pr…

笔记本hp6930p安装Android-x86补记

在上一篇日记中(笔记本hp6930p安装Android-x86避坑日记-CSDN博客)提到hp6930p安装Android-x86-9.0,无法正常启动,本文对此再做尝试,原因是:Android-x86-9.0不支持无线网卡,需要在BIOS中关闭WLAN…

2024.3.1 网络编程

1.思维导图 2.TCP机械臂测试 程序代码&#xff1a; #include <myhead.h> #define SER_IP "192.168.125.254" //服务器端IP #define SER_PORT 8888 //服务器端端口号#define CLI_IP "192.168.199.131" //客户端IP …

在Arcgis中删除过滤Openstreetmap道路属性表中指定highway类型道路

一、导出道路类型并分析 1. 导出道路类型 选中highway属性列&#xff0c;选择汇总→确定 2. 分析 用Excel打开输出表&#xff0c;包含的道路类型如下 0.空值’’ 车辆可行驶道路&#xff08;和bfmap的并集&#xff09; 空值&#xff08;无定义道路&#xff09; 二、…

MySQL数据库运维第一篇(日志与主从复制)

文章目录 一、错误日志二、二进制日志三、查询日志四、慢查询日志&#xff08;记录超时的sql语句&#xff09;五、主从复制概括六、主从复制原理七、搭建主从复制八、主从复制的测试 在这篇深入的技术文章中&#xff0c;作者将以明晰透彻的方式详细介绍MySQL数据库中关键的日志…

【风格迁移】对比度保持连贯性损失 CCPL:解决图像局部失真、视频帧间的连贯性和闪烁

对比度保持连贯性损失 CCPL&#xff1a;解决图像局部失真、视频帧间的连贯性和闪烁 提出背景解法&#xff1a;对比度保持连贯性损失&#xff08;CCPL&#xff09; 局部一致性假设 对比学习机制 邻域调节策略 互信息最大化对比学习&#xff1a;在无需标签的情况下有效学习区分…

源码视角,vue3为什么推荐用ref,而不是reactive

ref 和 reactive 是 Vue3 中实现响应式数据的核心 API。ref 用于包装基本数据类型&#xff0c;而 reactive 用于处理对象和数组。尽管 reactive 似乎更适合处理对象&#xff0c;但 Vue3 官方文档更推荐使用 ref。 我的想法&#xff0c;ref就是比reactive好用&#xff0c;官方也…

深入理解nginx的https sni机制

目录 1. 概述2. 初识sni3. nginx的ssl证书配置指令3.1 ssl_certificate3.2 ssl_certificate_key3.3 ssl_password_file4. nginx源码分析4.1 给ssl上下文的初始化4.2 连接初始化4.3 处理sni回调4.2 动态证书的加载5. 总结阅读姊妹篇: 深入理解nginx的https alpn机制 1. 概述 SN…

[BJDCTF2020]EzPHP1 --不会编程的崽

有一说一&#xff0c;这题还是有难度的 base32解码url编码绕过$_SERVER换行符绕过preg_match相同参数&#xff0c;post请求覆盖get请求&#xff0c;绕过$_REQUESTphp伪协议利用sha1数组绕过create_function代码注入 Level 1 右键源码里又发现&#xff0c;拿去base32解码即可…

【Java项目介绍和界面搭建】拼图小游戏——键盘、鼠标事件

&#x1f36c; 博主介绍&#x1f468;‍&#x1f393; 博主介绍&#xff1a;大家好&#xff0c;我是 hacker-routing &#xff0c;很高兴认识大家~ ✨主攻领域&#xff1a;【渗透领域】【应急响应】 【Java】 【VulnHub靶场复现】【面试分析】 &#x1f389;点赞➕评论➕收藏 …

【go从入门到精通】go包,内置类型和初始化顺序

大家好&#xff0c;这是我给大家准备的新的一期专栏&#xff0c;专门讲golang&#xff0c;从入门到精通各种框架和中间件&#xff0c;工具类库&#xff0c;希望对go有兴趣的同学可以订阅此专栏。 go基础 。 Go文件名&#xff1a; 所有的go源码都是以 ".go" 结尾&…

【大厂AI课学习笔记NO.62】模型的部署

我们历尽千辛万苦&#xff0c;总算要部署模型了。这个系列也写到62篇&#xff0c;不要着急&#xff0c;后面还有很多。 这周偷懒了&#xff0c;一天放出太多的文章&#xff0c;大家可能有些吃不消&#xff0c;从下周开始&#xff0c;本系列将正常更新。 这套大厂AI课&#xf…