1.初识爬虫

news/2024/12/24 0:57:32/文章来源:https://blog.csdn.net/potato123232/article/details/132687497

爬虫是批量模拟网络请求的程序，想百度谷歌这种搜索类网站本质上就是爬虫

使用爬虫的时候不应该对别人的网站有严重的影响，比如你爬的频率太高了，让人家的网站崩溃了。不应该爬取网页上显示不到的内容，比如有一个直播的网站，人家显示的是热度值而不是具体人数，热度值是根据具体人数计算出来的，但是具体人数人家没展示在网页上，这个时候你不应该爬具体人数

目录

1 爬虫的分类

2 反爬机制与反反爬策略

3 robots.txt

4 加密方式

1 爬虫的分类

爬虫分为下面三类

通用爬虫：搜索引擎（百度谷歌这种）抓取系统的主要组成部分，通用爬虫抓取一整张页面的数据
聚焦爬虫：基于通用爬虫抓取整张页面数据后提取页面中特定的局部内容
增量式爬虫：检测网站中数据更新的情况，只抓取增量内容（新更新的数据）

2 反爬机制与反反爬策略

反爬机制：被爬的网站设置不让你爬的一些规则。比如被爬的网站就可以设置同一个mac码一秒中的访问数量不能超过两次

反反爬策略：想爬取网站的人规避反爬机制的策略。比如被爬的网站设置了同一个mac码访问频率，你就可以多搞几个mac码去访问，从而得到数据

爬虫是一门对抗类的技术，你想爬但没爬到你就输了，你想不让别人爬但是别人爬到了那你就输了。这种对抗类的技术如果你想成功率高的话需要投入很多，所以面对某一些反爬机制强的网站，及时的放弃不一定是坏事

3 robots.txt

网站被爬不全是坏事，网站被爬可以带来流量。但我们又不希望网站无限制被爬，这个时候就产生了robots.txt协议，robots.txt协议由被爬的网站注明，其中会写明网站哪些东西可以被爬，哪些东西不可以被爬。robots.txt中的内容对于代码没有任何约束，只是给人看的，你如果爬了robots.txt中的禁止爬取的内容人家可能会去法院告你

我们可以在网站的域名后加上 /robots.txt 来查看当前网站的robots.txt协议。比如百度，这里面就告诉你哪个路由你不能动

再比如淘宝，他的robots.txt就是百度不准爬跟路径，剩下的都能爬。如果你不是百度，那你根路径也能爬

4 加密方式

对称密钥加密：客户端或服务端把密钥与信息一起发到对方（客户端发给服务端，服务端发给客户端），然后由服务端解密。如果发送的过程中信息被捕获了，那么加密信息与密钥都会暴露，相当于信息泄露了

非对称密钥加密：A是客户端，B是服务端，总的来讲就是就是客户端与服务端都加密。如果发送的过程中信息被捕获了，信息不会泄露。客户端的的加密方式叫私钥，服务端的加密方式叫公钥

非对称密钥中没有私钥的传递

非对称密钥加密的缺点是，如果在步骤2 被捕获了，也就是公钥暴露了，第三方就可以篡改公钥，导致客户端收到的响应不对。而且非对称加密的效率很低

证书密钥加密：在对称加密的基础上对步骤2 进行了改进，客户端先把密码发送给证书认证机构，然后证书认证机构给公钥签名做防伪（签名后的公钥叫做证书），之后把证书发给服务端

证书密钥加密是https的加密方式

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/122538.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

算法通关村第十九关——最小路径和

算法通关村第十九关——最小路径和

LeetCode64. 给定一个包含非负整数的 m n 网格 grid,请找出一条从左上角到右下角的路径，使得路径上的数字总和为最小。输入：grid[[1,3,1],[1,5,1],[4,2,1]] 输出：7 解释：因为路径1→3→1→1→1的总和最小。 public int minPath…

阅读更多...

16字节协议的串口通信

16字节协议的串口通信

1.协议要求协议为帧传输，一共16字节。主要是2字节的固定帧头 EB 90，2字节的帧计数(用来计数发出的帧),10字节的数据和2字节的校验位帧头：2字节，固定值 8’HEB、8’H90 帧计数：2字节，用来说明发出去帧是…

阅读更多...

【python爬虫】13.吃什么不会胖（爬虫实操练习）

【python爬虫】13.吃什么不会胖（爬虫实操练习）

文章目录前言项目实操明确目标分析过程代码实现前言吃什么不会胖——这是我前段时间在健身时比较关注的话题。相信很多人，哪怕不健身，也会和我一样注重饮食的健康，在乎自己每天摄入的食物热量。不过，生活中应该很少有人会…

阅读更多...

C语言入门 Day_14 for循环

C语言入门 Day_14 for循环

目录 1.for循环 2.循环执行顺序 3.易错点 4.思维导图前言我们定义了一个数组以后，要使用（读取或者修改）数组元素的话，可以一个一个的读取，就前两课学的那样，代码类似这个结构。 int …

阅读更多...

Centos7 + Apache Ranger 2.4.0 部署

Centos7 + Apache Ranger 2.4.0 部署

一、Ranger简介 Apache Ranger提供一个集中式安全管理框架, 并解决授权和审计。它可以对Hadoop生态的组件如HDFS、Yarn、Hive、Hbase等进行细粒度的数据访问控制。通过操作Ranger控制台,管理员可以轻松的通过配置策略来控制用户访问权限。 1、组件列表 # Service Name Liste…

阅读更多...

镜像的基本命令（docker）

镜像的基本命令（docker）

文章目录前言一、docker命令介绍1、帮助命令2、显示镜像3、搜索镜像4、下载镜像5、删除镜像总结前言本文主要介绍docker中与镜像相关的一些命令，是对狂神课程的一些总结，作为一个手册帮助博主和使用docker的同学们来查找和回忆。实验环境&#xf…

阅读更多...

C标准输入与标准输出——stdin,stdout

C标准输入与标准输出——stdin,stdout

🔗 《C语言趣味教程》👈 猛戳订阅！！！ —— 热门专栏《维生素C语言》的重制版 —— 💭 写在前面：这是一套 C 语言趣味教学专栏，目前正在火热连载中，欢迎猛戳订阅&#…

阅读更多...

植物大战僵尸植物表（二）

植物大战僵尸植物表（二）

前言此文章为“植物大战僵尸”专栏中的第007刊（2023年9月第六刊）。提示： 1.用于无名版； 2.用于1代； 3.pvz指植物大战僵尸（Plants VS Zonbies)。植物大战僵尸植物表土豆雷窝瓜火炬树桩火爆辣椒杨…

阅读更多...

原来Linux这么牛：称霸全球超级电脑 500 强！

原来Linux这么牛：称霸全球超级电脑 500 强！

还记得之前《全球超级电脑 500 强，中国拿走冠亚军》新闻？虽然昔日超级电脑强权的美国在超级计算机竞赛中落后，但不管哪国打造的超级电脑，还有一件事情值得留意喔──几乎全部都是执行以 Linux 为基础的操作系统（注&…

阅读更多...

华为云云服务器评测｜云耀云服务器实例基础使用实践

华为云云服务器评测｜云耀云服务器实例基础使用实践

🦖我是Sam9029，一个前端 Sam9029的CSDN博客主页:Sam9029的博客_CSDN博客-JS学习,CSS学习,Vue-2领域博主 **🐱‍🐉🐱‍🐉恭喜你，若此文你认为写的不错，不要吝啬你的赞扬，求…

阅读更多...

【深入解析spring cloud gateway】02 网关路由断言

【深入解析spring cloud gateway】02 网关路由断言

一、断言(Predicate)的意义断言是路由配置的一部分，当断言条件满足，即执行Filter的逻辑，如下例所示 spring:cloud:gateway:routes:- id: add_request_header_routeuri: https://example.orgpredicates:- Path/red/{segment}filters:- AddR…

阅读更多...

回归拟合 | 灰狼算法优化核极限学习机(GWO-KELM)MATLAB实现

回归拟合 | 灰狼算法优化核极限学习机(GWO-KELM)MATLAB实现

这周有粉丝私信想让我出一期GWO-KELM的文章，因此乘着今天休息就更新了(希望不算晚) 作者在前面的文章中介绍了ELM和KELM的原理及其实现，ELM具有训练速度快、复杂度低、克服了传统梯度算法的局部极小、过拟合和学习率的选择不合适等优点，而KEL…

阅读更多...

Go语言最全面试题，拿offer全靠它，附带免积分下载pdf

Go语言最全面试题，拿offer全靠它，附带免积分下载pdf

面试题文档下链接点击这里免积分下载 go语言入门到精通点击这里免积分下载文章目录 Go 基础类GO 语言当中 NEW 和 MAKE 有什么区别吗？PRINTF(),SPRINTF(),FPRINTF() 都是格式化输出，有什么不同？GO 语言当中数组和切片的区别是什么&#xf…

阅读更多...

自学Python01-创建文件写入内容

自学Python01-创建文件写入内容

此处省去安装和前言，需要两个东西一个去下载安装python官方库 Welcome to Python.org 一个是编译器pycharm PyCharm 安装教程（Windows） | 菜鸟教程 PyCharm: the Python IDE for Professional Developers by JetBrains 第一节练习print…

阅读更多...

讲清楚两个简单的概念之进程、线程

讲清楚两个简单的概念之进程、线程

前言话不多说，先来张思维脑图~~ 进程与线程的关系并行与并发进程与线程的上下文切换进程与线程的关系什么是进程我们编写的代码只是一个存储在硬盘的静态文件，通过编译后就会生成二进制可执行文件，当我们运行这个可执行文件后&#xf…

阅读更多...

PhpStorm安装篇

PhpStorm安装篇

PhpStorm安装篇: 下载地址 : 进入官网下PhpStorm: PHP IDE and Code Editor from JetBrains 下载完之后，安装包安装目录建议不要放C盘，放其他盘，其他直接一直点 next ，到结束安装完，打开编辑器注册账号并登录后…

阅读更多...

vue3项目导入异常Error: @vitejs/PLUGIN-vue requires vue (＞=3.2.13)

vue3项目导入异常Error: @vitejs/PLUGIN-vue requires vue (＞=3.2.13)

vue3项目导入异常 1、异常提示如下： failed TO LOAD config FROM D:\ws-projects\vite.co nfig.js error WHEN STARTING dev SERVER: Error: vitejs/PLUGIN-vue requires vue (>3.2.13) OR vue/compiler-sfc TO be pre sent IN the dependency tree.2、解决办法…

阅读更多...

conda和Python的虚拟环境如何结合使用，以及二者之间到底有什么区别？

conda和Python的虚拟环境如何结合使用，以及二者之间到底有什么区别？

问题描述今天在复现streamlit的代码时（参考Streamlit 讲解专栏（一）：安装以及初步应用），根据这篇博文指导，要先用以下指令创建一个虚拟环境： # 创建虚拟环境（使用venv&a…

阅读更多...

python3.11教程2：基础数据类型（数字和字符串）、组合数据类型（集合、元组、列表、字典）

python3.11教程2：基础数据类型（数字和字符串）、组合数据类型（集合、元组、列表、字典）

文章目录五、基本数据类型5.1 整数和浮点数5.1.1 整数和浮点数的类型5.1.2 进制和进制转换5.1.3 round函数 5.2 运算符5.2.1 常用运算符、运算符函数和逻辑运算符5.2.2 位运算符5.2.3 运算符的优先级及其进阶使用5.2.4 海象运算符: 5.3 布尔类型5.4 字符串5.4.1 字符串的基本操…

阅读更多...

【SpringSecurity】八、集成图片验证码

【SpringSecurity】八、集成图片验证码

文章目录 1、生成图片验证码2、创建验证码过滤器3、将过滤器加入SpringSecurity过滤链4、修改登录页 SpringSecurity是通过过滤器链来完成的，接下来的验证码，可以尝试创建一个过滤器放到Security的过滤器链中，在自定义的过滤器中比较验证码。…

阅读更多...

最新文章

推荐文章