初始爬虫12（反爬与反反爬）

学到这里，已经可以开始实战项目了，多去爬虫，了解熟悉反爬，然后自己总结出一套方法怎么做。

1.服务器反爬的原因

服务器反爬的原因总结：

1.爬虫占总PV较高，浪费资源
2.资源被批量抓走，丧失竞争力
3.法律的灰色地带

2.服务器常反什么样的爬虫

服务器常反什么样的爬虫总结：

1.十分低级的应届毕业生
2.十分低级的创业小公司
3.失控小爬虫
4.竞争对手
5.搜索引擎

3.反爬的三个方向

关键在于批量。

3.1基于身份识别的反爬

基于身份识别的反爬总结：
1.headers
        user-agent
        referer
        cookies
2.请求参数
        1.从html文件中提取
        2.发送请求获取数据
        3.通过js生成
        4.通过验证码

3.2基于爬虫行为的反爬

常见基于爬虫行为进行反爬总结：
1.基于请求频率或总请求数量
        通过请求ip/账号单位时间内总请求数量进行反爬
        通过同一ip/账号请求之间的间隔进行反爬
        通过对请求ip/账号每天请求次数设置阈值进行反爬
2.根据爬取行为进行反爬，通常在爬取步骤上做分析
        通过js实现跳转来反爬
        通过蜜罐(陷阱)获取爬虫ip(或者代理ip),进行反爬
        通过假数据反爬
        阻塞任务队列
        阻塞网络IO
        运维平台审计

3.3基于数据加密的反爬

基于数据加密进行反爬总结：
1.对响应中含有的数据进行特殊化处理
        自定义字体
        CSS
        js生成
        图片
        编码格式

4.验证码

4.1验证码的知识

图片验证码总结：
1.全自动区分计算机和人类的图灵测试
2.防止恶意破解密码、刷票、论坛灌水、刷页。
3.图片验证码在爬虫中的使用场景
        注册
        登录
        频繁发送请求时，服务器弹出验证码进行验证

4.图片验证码的处理方案

手动处理

图像识别引擎解析

打码平台

4.2图像识别引擎

需要引擎安装和python模块安装。

tesseract下载地址：Index of /tesseract

安装完成之后，简单使用：

from PIL import Image
import pytesseracttext = pytesseract.image_to_string(Image.open(r'E:\pythonProject\test.png'))
print(text)

tesseract简单使用与训练（非必要操作）：

Tesseract-OCR的简单使用与训练 - 小LiAn - 博客园 (cnblogs.com)

4.3打码平台

练习打码平台的使用。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/441255.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

初始爬虫12（反爬与反反爬）

1.服务器反爬的原因

2.服务器常反什么样的爬虫

3.反爬的三个方向

3.1基于身份识别的反爬

3.2基于爬虫行为的反爬

3.3基于数据加密的反爬

4.验证码

4.1验证码的知识

4.2图像识别引擎

4.3打码平台

相关文章

MySQL从0到1基础语法笔记（上）

《贪吃蛇小游戏 1.0》源码

LeetCode 11 Container with Most Water 解题思路和python代码

基于comsol模拟微穿孔板和卷曲通道的混合吸声器低频吸声

算法知识点————贪心

电脑无法无线投屏的解决办法

TryHackMe 第7天 | Web Fundamentals (二)

kubelet 运行机制、功能全面分析

攻防世界-----＞Replace

算法6：模拟运算

嵌入式硬件设计知识详解

游戏盒子推广全攻略：从用户洞察到策略实施

爱心曲线公式大全

VMware Tools 安装和配置

关于mac下的nvm设置淘宝镜像源

Vue入门-指令学习-v-show和v-if

No.8 笔记 | SQL 查询语句：数据探索的钥匙

leetcode C++特性 AIDL的一些细节

知识图谱入门——5：Neo4j Desktop安装和使用手册(小白向：Cypher 查询语言：逐步教程！Neo4j 优缺点分析)

erlang学习:Linux命令学习9