01、python_爬虫的相关概念

01、python_爬虫的相关概念

news/2024/11/16 8:39:24/文章来源:https://blog.csdn.net/weixin_50565644/article/details/136534094

一、什么是爬虫？

爬虫是网络爬虫的简称，指的是一种自动化程序，用于在互联网上抓取信息。爬虫的核心工作包括爬取网页、解析数据和存储数据。

通俗来说就是：通过一个程序，根据url(http://taobao.com)进行爬取网页，获取有用信息。或者使用程序模拟浏览器，去向服务器发送请求，获取响应信息。

二、爬虫的核心

在这里插入图片描述

1、爬取网页

爬虫需要获取网络上的数据来进行后续的处理，这个过程被称为“爬取”。在实际的操作中，通常使用 HTTP 协议进行数据交换。爬虫通过向目标服务器发送 HTTP 请求，并解析返回的 HTML 数据来获得所需的信息。在这个过程中，爬虫需要考虑到以下问题：

●安全性：爬虫需要尽可能地避免对目标服务器造成不必要的负担，因此需要进行合理的请求频率控制。
●可靠性：由于网络环境的不稳定性，爬虫需要具有重试机制以保证数据的完整性和可靠性。
●速度优化：爬虫需要适当地选择请求方式，以及优化请求参数和请求体等内容，以提高爬取效率。

2、解析数据

爬虫获取到的数据通常并不是直接可用的信息，需要进行解析和清洗。数据解析是将爬取到的 HTML 数据转换为可用数据的过程。解析数据时需要解决以下的难点：

●数据格式：HTML中包含了大量的标签和属性信息，需要对其进行解析和提取，转换成可用的数据格式。
●数据清洗：爬虫获取到的数据中可能包含无用的信息、空白字符等，需要进行清洗和处理。
●编码问题：由于不同网站使用的编码方式不同，因此在进行数据解析时需要考虑编码问题。

3、爬虫与反爬虫之间的博弈

爬虫和反爬虫是一种典型的博弈关系。反爬虫指的是针对爬虫的防御机制，旨在保护数据安全和私密性。常见的反爬虫技术包括：

●代理：使用代理 IP 来隐藏真实 IP 地址，以免被封禁。
●伪装User-Agent：通过改变请求头中的User-Agent字段，模拟浏览器发送请求，以绕过User-Agent识别。
●分布式爬取：将任务分散给多个爬虫节点，降低单个IP被封禁的风险。
●解析JavaScript：针对动态页面，使用Selenium等工具解析JavaScript。

针对这些反爬虫技术，爬虫需要采用相应的策略来规避或者绕过防御措施，例如：

对应措施：

●使用代理：使用代理 IP 来隐藏真实 IP 地址，以免被封禁。
●伪装User-Agent：通过改变请求头中的User-Agent字段，模拟浏览器发送请求，以绕过User-Agent识别。
●分布式爬取：将任务分散给多个爬虫节点，降低单个IP被封禁的风险。
●解析JavaScript：针对动态页面，使用Selenium等工具解析JavaScript。

三、爬虫的用途

网络爬虫被广泛应用于以下几个领域：数据挖掘、搜索引擎、舆情监测、电商数据爬取、资源收集。
在这里插入图片描述

四、爬虫的分类

在爬虫的分类中，通用爬虫和聚焦爬虫是两种广泛应用的爬虫类型

1、通用爬虫：

通用爬虫（也称为全网爬虫）是一种能够自动化地抓取互联网上所有可访问的网页的爬虫。它会从一个起始点开始，通过不断地跟踪链接、解析 HTML 等方式，遍历整个互联网，获取尽可能多的信息。

优点：

能够收集大量的数据，但同时也存在着一些问题。首先，通用爬虫需要很长时间才能完成任务，因为它需要遍历整个互联网。其次，由于互联网上存在大量的非常规页面、重定向页面等，通用爬虫可能会受到反爬虫机制的限制

2、聚焦爬虫

聚焦爬虫（也称为增量式爬虫）是一种只抓取特定内容的爬虫。与通用爬虫不同，聚焦爬虫通过设定爬取目标、规则等方式，有针对性地抓取满足规则的内容。这样可以节省时间和计算资源，提高效率。

优点

它能够更快地获取所需的信息，并且不容易受到反爬虫机制的限制。但是，由于聚焦爬虫只针对特定内容进行抓取，可能会遗漏一些与目标相关的信息

3、区别：

两者区别爬取的范围和方式不同。通用爬虫旨在遍历整个互联网，通过自动化的方式收集尽可能多的信息。而聚焦爬虫则更加关注特定内容，只针对符合规则的网页进行抓取

此外，通用爬虫需要存储所有爬取到的数据，因此需要更多的存储空间和计算资源。而聚焦爬虫只需要针对性地抓取目标内容，可以节省很多计算和存储资源

五、robots协议

Robots协议是一种基于文本的协议，用于指示网络爬虫哪些页面可以访问、哪些页面不能访问。它是由网站管理员在网站根目录下创建名为 robots.txt 的文件，并在其中编制一系列规则。通过识别此文件中的规则，网络爬虫就可以遵循这些规则来访问网站。

Robots协议有以下几个重要部分：

1、User-agent
User-agent是指爬虫的名称或标识符。当爬虫访问网站时，它会向服务器发送一个包含自己标识符的请求头，网站服务器就可以根据这个标识符来区分爬虫和真实用户。

2、Disallow
Disallow是指禁止访问的URL列表。如果某个URL被列在了Disallow列表中，那么爬虫就不应该访问这个URL。值得注意的是，Disallow列表只适用于相对路径，而不适用于绝对路径。

3、Allow
Allow是指允许访问的URL列表。如果某个URL被列在了Allow列表中，那么爬虫可以访问这个URL和Disallow一样，Allow也只适用于相对路径。

4、Sitemap
Sitemap是指网站地图的URL地址。它提供了一个包含所有页面的列表，可以帮助爬虫更快地发现网站的内容。

Robots协议的作用在于保护网站的隐私和安全，同时也可以控制网络爬虫对网站访问的范围。通过设置Robots协议，网站管理员可以防止爬虫访问敏感信息、减轻服务器负担等。但是，需要注意的是，Robots协议并不能防止所有的网络爬虫，只有那些遵循协议规则的爬虫才会受到限制。

总之，Robots协议是一种基于文本的协议，用于指示网络爬虫哪些页面可以访问、哪些页面不能访问。它是网站管理员维护网站安全和隐私的重要工具，同时也可以控制网络爬虫的访问范围。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/273694.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

蓝桥杯练习系统（算法训练）ALGO-980 斐波那契串

蓝桥杯练习系统（算法训练）ALGO-980 斐波那契串

资源限制内存限制：256.0MB C/C时间限制：10.0s Java时间限制：30.0s Python时间限制：50.0s 问题描述斐波那契串由下列规则生成： 　　F[0] "0"; 　　F[1] "1"; 　　F[n] F[n-1] F[n-2]…

阅读更多...

Tomcat容器经常重启问题排查

Tomcat容器经常重启问题排查

报错代码: INFO [Catalina-utility-2] org.apache.catalina.core.StandardContext.reload Reloading Context with name [] has started1.查看内存占用情况:top 可以发现java线程正常情况下占用高达24%的内存资源 2.继续排查:top -Hp 29580 可以发现主要有子线程Catalina-ut…

阅读更多...

OWASP Top 10 网络安全10大漏洞——A02：A02:2021-加密机制失效

OWASP Top 10 网络安全10大漏洞——A02：A02:2021-加密机制失效

10大Web应用程序安全风险 2021年top10中有三个新类别、四个类别的命名和范围变化，以及一些合并。 A02：A02:2021-加密机制失效上升一个位置，当前top2，以前称为敏感数据泄露，是一种状况而不是根本原因。更新后的类别…

阅读更多...

leetcode 热题 100_旋转图像

leetcode 热题 100_旋转图像

题解一： 翻转数组：先将数组沿右上-左下对角线翻转，再将数组上下翻转。 class Solution {public void rotate(int[][] matrix) {int n matrix.length;for (int i 0; i < n; i) {//沿右上-左下对角线翻转for (int j 0; j < n - i - 1…

阅读更多...

伊理威科技：新手开抖店的教程

伊理威科技：新手开抖店的教程

在数字浪潮中，抖音小店如星火燎原，吸引无数创业者。你是否也心潮澎湃，想要一试身手?别急，让我们一步步揭开开店的神秘面纱。注册流程。想象一下，你只需在抖音平台上点击“我要开店”，按提示填写相关信息&…

阅读更多...

Upload 上传(图片/文件），回显（图片），下载（文件）

Upload 上传(图片/文件），回显（图片），下载（文件）

1.前端技术：V3 Ant Design Vue 2.后端技术：Java 图片上传/回显： 文件上传回显： 表结构：单文件/图片上传为A表对文件C表 （A表field字段对应 C表id字段） 如图：A表中的 vehicle_d…

阅读更多...

Excel小技巧（4） - 如何转换数字到人民币文字

Excel小技巧（4） - 如何转换数字到人民币文字

选中数字，点击鼠标右键，《设置单元格式》分类选中特殊，并选择中文大写数字就转好了！ 再教一个小技巧，最近东南亚项目也多起来了，是不是需要打印invoice上有泰文的数字。强大的Excel也有个公式

阅读更多...

揭秘PostgreSQL：超越传统数据库的无限可能！

揭秘PostgreSQL：超越传统数据库的无限可能！

介绍：PostgreSQL是一个功能强大的开源对象关系数据库系统。以下是对PostgreSQL的详细介绍： 开源性：PostgreSQL是完全开源的，这意味着任何人都可以自由地获取、使用和修改它的源代码。可定制性：它具有高度可定制性&…

阅读更多...

傅里叶变换pytorch使用

傅里叶变换pytorch使用

参考视频：1 傅里叶变换原理_哔哩哔哩_bilibili 傅里叶变换是干嘛的： 傅里叶得到低频、高频信息，针对低频、高频处理能够实现不同的目的。傅里叶过程是可逆的，图像经过傅里叶变换、逆傅里叶变换后，能够恢复到原始图像…

阅读更多...

资料下载-嵌入式 Linux 入门

资料下载-嵌入式 Linux 入门

学习的第一步是去下载资料。 1. 有哪些资料所有资料分 4 类： ① 开发板配套资料(原理图、虚拟机的映像文件、烧写工具等)，放在百度网盘 ② 录制视频过程中编写的文档、源码、图片，放在 GIT 仓库 ③ u-boot、linux 内核、buildroot 等比较大…

阅读更多...

SpringBoot学习之自定义注解和AOP 切面统一保存操作日志（二十九）

SpringBoot学习之自定义注解和AOP 切面统一保存操作日志（二十九）

一、定义一个注解这个注解是用来控制是否需要保存操作日志的自定义注解（这个类似标记或者开关） package com.xu.demo.common.anotation;import java.lang.annotation.ElementType; import java.lang.annotation.Retention; import java.lang.annotation.RetentionPolicy; i…

阅读更多...

llc如何实现开关管ZVS（零电压）导通

llc如何实现开关管ZVS（零电压）导通

对于LLC而言最大的优势就是实现原边开关管 ZVS开通以及副边二极管ZCS关断来提高效率的，我们可以先来看如何实现开关管 ZVS开通稳态下的分析上图是LLC谐振腔中的大致电压与电流波形，我们可以在这个波形上来分析 MOS是如何实现ZVS开通的注意&#xff…

阅读更多...

原生JavaScript，根据后端返回JSON动态【动态列头、动态数据】生成表格数据

原生JavaScript，根据后端返回JSON动态【动态列头、动态数据】生成表格数据

前期准备： JQ下载地址： https://jquery.com/ <!DOCTYPE html> <html><head><meta charset"utf-8"><title>JSON动态生成表格数据,动态列头拼接</title><style>table {width: 800px;text-align: cen…

阅读更多...

谷粒商城【成神路】-【10】——缓存

谷粒商城【成神路】-【10】——缓存

目录 🧂1.引入缓存的优势 🥓2.哪些数据适合放入缓存 🌭3.使用redis作为缓存组件 🍿4.redis存在的问题 🧈5.添加本地锁 🥞6.添加分布式锁 🥚7.整合redisson作为分布式锁 &#x1f697…

阅读更多...

php调用guzzlehttp库时出现Segmentation fault的解决方案

php调用guzzlehttp库时出现Segmentation fault的解决方案

先说结论，这个问题的原因是因为php7.4与openssl3不兼容产生的，解决方案如下： 输入openssl version -a查看openssl版本，如果是3以上的版本与php7.4不兼容，7.4以下的没测试过，估计也有问题。我最终是安装上了…

阅读更多...

深入理解Vue.js中的nextTick：实现异步更新的奥秘

深入理解Vue.js中的nextTick：实现异步更新的奥秘

🤍 前端开发工程师、技术日更博主、已过CET6 🍨 阿珊和她的猫_CSDN博客专家、23年度博客之星前端领域TOP1 🕠 牛客高级专题作者、打造专栏《前端面试必备》、《2024面试高频手撕题》 🍚 蓝桥云课签约作者、上架课程《Vue.js 和 E…

阅读更多...

微信小程序开发系列（二十）·wxml语法·setData（）修改对象类型数据、ES6 提供的展开运算符、delete和rest的用法

微信小程序开发系列（二十）·wxml语法·setData（）修改对象类型数据、ES6 提供的展开运算符、delete和rest的用法

目录 1. 新增单个、多个属性 1.1 新增单个属性 1.2 新增多个属性 2. 修改单个、多个属性 2.1 修改单个属性 2.2 修改多个属性 3. 优化 3.1 ES6 提供的展开运算符 3.2 Object.assign()将多个对象合并为一个对象 4. 删除单个、多个属性 4.1 删除单个属性 …

阅读更多...

【Redis】RedisTemplate序列化传输数据

【Redis】RedisTemplate序列化传输数据

使用自定义的序列化器使用RedisTemplate默认的序列化器发送数据，会将key全都当成Object处理，从而按照对象的方式转成json格式发送到服务器，这样会导致两个问题。一是不方便阅读，二是会大大浪费内存。因此，建议自定义…

阅读更多...

MySQL常见的索引类型介绍

MySQL常见的索引类型介绍

我将为您详细讲解 MySQL 中常见的索引类型，以及它们的使用场景、特点、区别和优势。索引是提高数据库查询性能的关键工具，它可以加速数据检索速度，减少服务器的负担。在 MySQL 中，索引类型主要包括 B-Tree 索引、哈希索引、全文索…

阅读更多...

分库分表浅析原理

分库分表浅析原理

数据库存放数据大了，查询等操作就会存在瓶颈，怎么办？ 1. 如果是单张表数据大了，可以在原有库上新建几张表table_0、table_1、table_2、.....table_n 写程序对数据进行分表： --这里提供一种一种分表策略,这里只需维护…

阅读更多...

最新文章

推荐文章