网络爬虫基础（上）

网络爬虫基础（上）

news/2024/12/24 8:54:42/文章来源:https://blog.csdn.net/binhyun/article/details/136182180

1. 爬虫的基本原理

爬虫就是在网页上爬行的蜘蛛，每爬到一个节点就能够访问该网页的信息，所以又称为网络蜘蛛；

网络爬虫就是自动化从网页上获取信息、提取信息和保存信息的过程；

2. URL的组成部分

URL全称为Uniform Resource Locator，即统一资源定位符，指定了我们要查找资源的地址。

主机名就是我们要访问的计算机的名字。

2.1 http协议

HyperText Transfer Protocol，简称http，超文本传输协议。

HTTP协议是互联网数据传输的一种规则，它规定了数据的传输方式；

HTTP协议定义了客户端和服务器之间传递消息的内容和步骤。

当URL的协议部分写的是http时，表明服务器传输数据使用的是HTTP协议。

HTTP协议在进行数据传输时，内容是未加密的，传输内容可能被窃听或篡改，安全性比较差。

HTTPS并非是全新的协议，只是在传输之前加了一层保护，让内容安全不易被窃听。
2.2 主机名

“//”为分隔符，表示后面的字符串是主机名。

主机名后面的“/”表明，要在后面写上文件地址，如果不写一般默认为主页。
2.3 文件地址

文件路径能够指定访问资源的具体地址；

3. HTTP请求&响应

（1）HTTP协议：

1. 【浏览器】会先发送HTTP请求，告诉Web服务器需要的数据。

2. 【Web服务器】收到请求后，按照请求执行，并返回HTTP响应消息。

3. 【浏览器】收到返回的数据后，会将源代码解析成网页展示出来。

（2）请求头&&响应头

HTTP发送的请求(Request)消息主要包含两部分“对什么”和“怎么做”；

由于浏览器发送请求时，将“对什么”和“做什么”信息放在头部。所以，存放这些信息的地方又叫请求头；

在HTTP协议中：Web服务器收到请求消息后，会根据请求进行处理。并将响应(Response)消息返回给浏览器；

响应消息的头部叫做响应头（Response Headers），响应头中的数据用于告诉浏览器此次请求执行失败还是成功；
4. 状态码

响应头（Response Headers）中用于告知浏览器执行结果成功或失败的叫做状态码。

状态码是由3位的数字构成的，主要用于告知客户端的HTTP请求的执行结果。

状态码可以让我们了解到服务器是正常执行结果，还是出现了错误。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/260685.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

Oracle 如何提高空间使用率？

Oracle 如何提高空间使用率？

一，行迁移和行链接。 oracle尽量保证一行的数据能够放在同一个数据块当中，有的时候行会发生行迁移和行链接。行链接 ：有一个列的字段是大对象（long，longlong）一行占的数据一整个块都放不下，则…

阅读更多...

07 Redis之持久化(RDB+AOF)

07 Redis之持久化(RDB+AOF)

4 Redis持久化 Redis 是一个内存数据库，然而内存中的数据是不持久的，若主机宕机或 Redis 关机重启，则内存中的数据全部丢失。当然，这是不允许的。Redis 具有持久化功能，其会按照设置以快照或操作日志的形式将数据持…

阅读更多...

Leetcode刷题笔记题解（C++）：83. 删除排序链表中的重复元素

Leetcode刷题笔记题解（C++）：83. 删除排序链表中的重复元素

思路：链表相关的问题建议就是画图去解决，虽然理解起来很容易，但就是写代码写不出来有时候，依次去遍历第二节点如果与前一个节点相等则跳过，不相等则遍历第三个节点 /*** Definition for singly-linked list.* struct …

阅读更多...

uniapp不同平台获取文件内容以及base64编码特征

uniapp不同平台获取文件内容以及base64编码特征

前言文件图片上传，客户端预览是很正常的需求，获取文件的md5特征码也是很正常的，那么，在uniapp中三种环境，h5, 小程序以及 app环境下，如何实现的？ 参考： 如何在uniapp中读取文件Arr…

阅读更多...

Https证书续签-acme.sh-腾讯云之DnsPod

Https证书续签-acme.sh-腾讯云之DnsPod

ename 域名切换到 DnsPod 上面解析可以先看下之前的 acme.sh 介绍文章然后再来次补充更多。之前说过了 acme.sh 在阿里云下的使用。这里做个后续补充之前的域名是在 ename 上的 ，为了自动续签切换到 DnsPod 上面解析注意事项可以把原来 ename 上的解析先导出…

阅读更多...

多端开发围炉夜话

多端开发围炉夜话

文章目录一、多端开发一、多端开发 uni-app 官网 UNI-APP中的UI框架：介绍常用的UI框架及其特点 uView UIVant WeappColor UIMint UI

阅读更多...

python 与 neo4j 交互（py2neo 使用）

python 与 neo4j 交互（py2neo 使用）

参考自：neo4j的python.py2neo操作入门官方文档：The Py2neo Handbook — py2neo 2021.1 安装：pip install py2neo -i https://pypi.tuna.tsinghua.edu.cn/simple 1 节点 / 关系 / 属性 / 路径节点(Node)和关系(relationship)是构成图的基础…

阅读更多...

Android 7.0以上charles无法抓取部分https包问题

Android 7.0以上charles无法抓取部分https包问题

首先保证配置一切正确手机通过访问chls.pro/ssl下载.pem证书，如无法安装，在文件管理器中将后缀名改为.crt 在设置中安装该证书 Charles-Proxy - SSL Proxying Setting - Include 添加需要抓包的URL:443即可以上基本配置结束后，看下代码代…

阅读更多...

Java+SpringBoot：滑雪场管理的技术革新

Java+SpringBoot：滑雪场管理的技术革新

✍✍计算机编程指导师 ⭐⭐个人介绍：自己非常喜欢研究技术问题！专业做Java、Python、微信小程序、安卓、大数据、爬虫、Golang、大屏等实战项目。 ⛽⛽实战项目：有源码或者技术上的问题欢迎在评论区一起讨论交流！ ⚡⚡ Java实战 |…

阅读更多...

Linux挂载磁盘和磁盘分区及设置开机自动挂载_亲测成功

Linux挂载磁盘和磁盘分区及设置开机自动挂载_亲测成功

Linux挂载磁盘和磁盘分区及设置开机自动挂载_亲测成功 Linux下磁盘分区命令主要由两个： fdisk ：最大支持不超过2T,MBR分区；parted ：支持GPT，适用于大容量分区； 如果挂载磁盘超过2T,请使用GPT分区,不然会…

阅读更多...

探索水下低光照图像检测性能，基于DETR(DEtection TRansformer）模型开发构建海底生物检测识别分析系统

探索水下低光照图像检测性能，基于DETR(DEtection TRansformer）模型开发构建海底生物检测识别分析系统

海底这类特殊数据场景下的检测模型开发相对来说比较少，在前面的博文中也有一些涉及，感兴趣的话可以自行移步阅读即可： 《尝试探索水下目标检测，基于yolov5轻量级系列模型n/s/m开发构建海底生物检测系统》《基于YOLOv5C3CBAMCBA…

阅读更多...

搜维尔科技：OptiTrack探索人类与技术之间关系的开创性表演

搜维尔科技：OptiTrack探索人类与技术之间关系的开创性表演

另一种蓝色通过 OptiTrack 释放创造力总部位于荷兰的当代舞蹈团因其探索人类与技术之间关系的开创性表演而受到广泛赞誉。该公司由富有远见的编舞家大卫米登多普创立，不仅利用技术作为探索的主题，而且将其作为表达故事的动态工具。 “我一直对文化与…

阅读更多...

超平面介绍

超平面介绍

超平面公式 (1) 超平面是指n维线性空间中维度为n-1的子空间。它可以把线性空间分割成不相交的两部分。比如二维空间中，一条直线是一维的，它把平面分成了两部分；三维空间中，一个平面是二维的，它把空间分成了两部分。(2…

阅读更多...

五种多目标优化算法（MOAHA、MOGWO、NSWOA、MOPSO、NSGA2）性能对比，包含6种评价指标，9个测试函数（提供MATLAB代码）

五种多目标优化算法（MOAHA、MOGWO、NSWOA、MOPSO、NSGA2）性能对比，包含6种评价指标，9个测试函数（提供MATLAB代码）

一、5种多目标优化算法简介 1.1MOAHA 1.2MOGWO 1.3NSWOA 1.4MOPSO 1.5NSGA2 二、5种多目标优化算法性能对比为了测试5种算法的性能将其求解9个多目标测试函数（zdt1、zdt2 、zdt3、 zdt4、 zdt6 、Schaffer、 Kursawe 、Viennet2、 Viennet3）&#xff…

阅读更多...

iOS整理 - 关于直播 - 搭建服务端

iOS整理 - 关于直播 - 搭建服务端

前言其实本人一直都想自己简单做一套直播（包括移动端和服务端）的开发测试，但是之前一直做得比较迷茫。最近偶然间在来了灵感，瞬间解除了我很多疑惑。我会分享出来，希望大家一起研究下。稍后，我完整做好了…

阅读更多...

python在flask中的请求数据“无限流”

python在flask中的请求数据“无限流”

文章目录一、问题描述二、解决方案一、问题描述在flask请求中，有个需求是让调用方一直调接口，并立马返回，而接口方缓存请求，依次执行。二、解决方案 from flask import Flask, request, jsonify from queue import Queue i…

阅读更多...

使用C# Net6连接国产达梦数据库记录

使用C# Net6连接国产达梦数据库记录

达梦官网：http://www.dameng.com/ 1 下载达梦并进行安装下载地址：官网首页——服务与合作——下载中心（https://www.dameng.com/list_103.html） 根据需要自行下载需要的版本，测试版本为：x86 win64 DM8版…

阅读更多...

【C#】List泛型数据集如何循环移动，最后一位移动到第一位，以此类推

【C#】List泛型数据集如何循环移动，最后一位移动到第一位，以此类推

欢迎来到《小5讲堂》大家好，我是全栈小5。这是《C#》系列文章，每篇文章将以博主理解的角度展开讲解， 特别是针对知识点的概念进行叙说，大部分文章将会对这些概念进行实际例子验证，以此达到加深对知识点的理解和掌握。…

阅读更多...

【Vue3】使用ref与reactive创建响应式对象

【Vue3】使用ref与reactive创建响应式对象

💗💗💗欢迎来到我的博客，你将找到有关如何使用技术解决问题的文章，也会找到某个技术的学习路线。无论你是何种职业，我都希望我的博客对你有所帮助。最后不要忘记订阅我的博客以获取最新文章，也欢…

阅读更多...

Java面试题：volatile专题

Java面试题：volatile专题

王有志，一个分享硬核Java技术的互金摸鱼侠加入Java人的提桶跑路群：共同富裕的Java人今天是《面霸的自我修养》第4篇文章，我们一起来看看面试中会问到哪些关于volatile的问题吧。数据来源：大部分来自于各机构（Java之父，Java继父，某灵，某泡，某客）以及各博主整理文档…

阅读更多...

最新文章

推荐文章