请求的响应----状态码分为五大类(爬虫)

前言

一个爬虫的成功与否,在于你是否拿到了想要的数据;一个请求的成功与否,在于响应的状态码,它标明了当前请求下这个响应的结果,是好还是坏。上节课程学习了HTTPS和HTTP协议的各自优势,本节课程进入到请求的响应部分,学习下如何根据响应状态码,判断当前响应是好还是坏。

  1. 状态码的重要意义

互联网是个超级复杂的超大型项目,没网络的情况下,我们的电脑访问不了网络;有网络的前提下,网站正常工作我们才能访问。单个的请求响应流程是非常简单的,如下图:

为了应对复杂多变的网络情况,http协议在设计之初就准备好了响应状态码,来标识本次请求响应的状态。

HTTP状态码(英语:HTTP Status Code)是用以表示网页服务器超文本传输协议响应状态的3位数字代码。它由 RFC 2616 规范定义的,并在后续的HTTP新版本的规范中扩展。所有状态码的第一个数字代表了响应的五种状态之一。

状态码分为五大类,分别是:

100系列:消息【除非在某些试验条件下,服务器禁止向此类客户端发送 1xx 响应】

200系列:成功

300系列:跳转

400系列:失败

500系列:错误

虽说是5类,但是100系列,是不允许使用的,所以常见的是4类。下面详细介绍一下这4类中,常见的状态码数值和所表达的意思。

  • 成功的200系列

200是浏览器的日常使用中最常见的,因为网站要正常工作,200是必须的,不然工程师要挨骂的。

200 OK:这个是最常见的,也是爬虫工程师最喜欢的,代表你本次的请求顺利拿到了响应,没有任何问题。

  1. 201 Created:201代表创建成功,通常是指浏览器或爬虫给服务器上传数据,服务器接收并验证数据没问题之后,服务器返回客户端一个201,代表成功。提交数据,通常是POST方法提交
  2. 202 Accepted:服务器拿到了数据,但是还没处理好结果,所以先发回一个202。这个状态码一般在爬虫中看不到,但是适合在异步操作的情况下返回。
  3. 跳转的300系列

通常为了更方便的操作,服务器会告诉客户端进一步的优化操作,例如张三搬家了,旧服务器给你新地址让你找新服务器等;

  1. 301 Moved Permanently:当前资源的网址永久性迁移,并且会给你一个新的网址。值得注意的是,如果是POST请求拿到301,则下一次请求自动变成GET。
  2. 302 Move Temporarily:当前资源网址暂时性迁移到新地址,和301性质有点不一样。
  3. 304 Not Modified:这个在浏览器加载静态资源的时候,特别容易碰到,就是浏览器使用本地缓存而不消耗带宽去加载在线的静态资源,是加速网页渲染的一种资源调用机制。是前端程序员嫌弃的一个状态码。
  • 失败的400系列

400系列代表着失败,是爬虫程序中非常常见的,没有之一。而且很多时候,一个错误需要调试挺长时间的。了解400系列中常见的错误,对调试非常有益。

  1. 400 Bad Request:错误请求,400系列最典型的,看到这个错误,要么是请求头参数不对,要么是请求主体的内容错误。
  2. 401 Unauthorized:401认证错误,这个还是非常好识别的,身份无法识别或者身份权限不够,检查请求头中的身份字段信息和Cookie值。
  3. 403 Forbidden:禁止访问,大并发爬虫中比较容易碰到,问题很直观,你访问太多了【换IP或电脑】,或者身份权限不够【换身份信息】。
  4. 404 Not Found:404找不到,这个错误不用太在意,用浏览器测试几次就好,要么是你的网址写错了,要么是网址对应的网络资源无法加载【这不怪程序】。
  5. 405 Method Not Allowed:405方法不被允许,简单且少见的错误,意思就是你请求的姿势不对,检查请求方法,如Get、Post、Put、Delete,总有一个是对的。
  • 错误的500系列

  1. 500 Internal Server Error:网络错误,就和你断网了一样,具体点就是你的网络和网址所在网络,无法连通。

  2. 502 Bad Gateway:网关错误,请求出去要被网关解析目的地址并转发你的请求,这个错误就是网关不工作了,无法把你的请求发出去。这里的网关,可以理解成你的路由器或者你用的代理IP服务器。
  3. 503 Service Unavailable:服务不可用,这个就是目标服务器的问题了,你要做的是通知网站管理员或者等。一般情况下,国家网站部分有休息时间,例如晚上关网。商业服务器的服务不可用,大多是升级或者临时卡了,可以过段时间再试。
  4. 504 Gateway Timeout:网关超时,这个504和502,都是网关的问题,但是又不一样。504是你找网关转发,你默认等待180秒【3分钟】,然后网关超时了没理你;502的问题是,你压根就找不到网关。
  5. 505 HTTP Version Not Supported:HTTP版本不支持,这个比较少见,但是肯定有。网站内容太新或者太旧,对客户端的http版本要求不一样。你需要检查下本次请求所使用的http版本,然后改成网站指定版本,就可以解决这个问题。

以上是常见的4类状态码的说明。

最后说明下,状态码是对当前本次的请求响应做的一个说明代码,是一种规范。

这个状态码数值,服务器那边可以规定返回的数值,服务端开发者可以完全照着规范来开发,也可以不遵循规范开发网站的响应状态码。

例如你用爬虫登录错误的账号,登录请求发出去,服务器给你响应,可能结果如下: 

        响应状态码是200,内容写的是账号密码不对;

        响应状态码是401,内容写的是账号密码不对;

        响应状态码是404,内容写的是账号密码不对;

以上的返回结果都是有可能的,因为规范不是所有开发者都会遵守。

 但是300和500系列,大部分都是遵循规范的,因为这两个系列,大部分结果不是服务器给响应状态码,是客户端【浏览器或爬虫】直接根据网络请求,返回的结果。最后一个示例图,不同系列的状态码通常出现在的请求响应阶段:

总结

状态码是HTTP协议的规范,即便电脑断了网,失败的响应都会有一个状态码。

了解了状态码,可以更理智的分析当前响应的状态,快速定位具体问题,以及修改爬虫代码。

当然状态码这仅仅是规范中的一项,下节课程还要学习请求头中的重点字段,这也是非常重要的信息。

一个爬虫的成功与否,在于你是否拿到了想要的数据;一个请求的成功与否,在于响应的状态码,它标明了当前请求下这个响应的结果,是好还是坏。上节课程学习了HTTPS和HTTP协议的各自优势,本节课程进入到请求的响应部分,学习下如何根据响应状态码,判断当前响应是好还是坏。 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/450207.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

《Linux从小白到高手》综合应用篇:详解Linux系统调优之服务器硬件优化

List item 本篇介绍Linux服务器硬件调优。硬件调优主要包括CPU、内存、磁盘、网络等关键硬件组。 1. CPU优化 选择适合的CPU: –根据应用需求选择多核、高频的CPU,以满足高并发和计算密集型任务的需求。CPU缓存优化: –确保CPU缓存&#x…

前端学习-css的元素显示模式(十五)

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 目录 前言 什么是元素显示模式 块元素 常见的块元素 块元素的特点 注意 行内元素 行内元素的特点 注意 行内块元素 行内块元素的特点 元素显示模式的转换 语法格…

SpringBoot高校学科竞赛平台:性能优化与实践

3系统分析 3.1可行性分析 通过对本高校学科竞赛平台实行的目的初步调查和分析,提出可行性方案并对其一一进行论证。我们在这里主要从技术可行性、经济可行性、操作可行性等方面进行分析。 3.1.1技术可行性 本高校学科竞赛平台采用SSM框架,JAVA作为开发语…

Caffeine Cache解析(一):接口设计与TinyLFU

Caffeine is a high performance Java caching library providing a near optimal hit rate. 自动加载value, 支持异步加载基于size的eviction:frequency and recency基于时间的过期策略:last access or last write异步更新valuekey支持weak referenceva…

探索brpc:特性、使用场景与同步异步调用与封装示例

文章目录 前言特性使用场景brpc && grpc 对比 相关类与接口日志输出类与接口protobuf类与接口服务端类与接口客户端类与接口 使用同步调用 & 异步调用 封装封装思想代码 前言 brpc 是用 c语言编写的工业级 RPC 框架,常用于搜索、存储、机器学习、广告、…

Ansible自动化工具

一、Ansible概述 1.1 什么是Ansible Ansible 是一个开源的自动化工具,用于配置管理、应用程序部署和任务自动化。它让你可以通过编写简单的 YAML 文件(剧本,Playbooks),轻松管理和配置多个服务器。Ansible 的特点是无…

4.redis通用命令

文章目录 1.使用官网文档2.redis通用命令2.1set2.2get2.3.redis全局命令2.3.1 keys 2.4 exists2.5 del(delete)2.6 expire - (失效时间)2.7 ttl - 过期时间2.7.1 redis中key的过期策略2.7.2redis定时器的实现原理 2.8 type2.9 object 3.生产环境4.常用的数据结构4.1认识数据类型…

【C++进阶】哈希表的介绍及实现

【C进阶】哈希表的介绍及实现 🥕个人主页:开敲🍉 🔥所属专栏:C🥭 🌼文章目录🌼 1. 哈希的概念 1.1 直接定址法 1.2 哈希冲突 1.3 负载因子 1.4 将关键字转为整数 2. 哈希函数 2.1 …

mqtt学习

简介: MQTT(消息队列遥测传输)是ISO 标准(ISO/IEC PRF 20922)下基于发布/订阅模式的消息协议。它工作在 TCP/IP协议族上,是为硬件性能低下的远程设备以及网络状况糟糕的情况下而设计的发布/订阅型消息协议,为此,它需要一个消息中…

Android 未来可能支持 Linux 应用,Linux 终端可能登陆 Android 平台

近日,根据 android authority 的消息,Google 正在开发适用于 Android 的 Linux 终端应用,而终端应用可以通过开发人员选项启用,并将 Debian 安装在虚拟机中。 在几周前,Google 的工程师开始为 Android 开发新的 Termi…

推荐一个可以免费上传PDF产品图册的网站

​在数字化时代,企业将产品图册以PDF格式上传至网络,不仅便于客户浏览和下载,还能提升企业的专业形象。今天,就为您推荐一个可以免费上传PDF产品图册的网站——FLBOOK,轻松实现产品图册的在线展示。 1.注册登录&#x…

JAVA就业笔记7——第二阶段(4)

课程须知 A类知识:工作和面试常用,代码必须要手敲,需要掌握。 B类知识:面试会问道,工作不常用,代码不需要手敲,理解能正确表达即可。 C类知识:工作和面试不常用,代码不…

Mysql常用sql语句与刷题知识点

目录 1. 常用sql2. 刷题知识点 1. 常用sql #查询MySQL中所有的数据库 SHOW DATABASES; #查询当前正在使用的数据库 SELECT DATABASE();#普通创建(创建已经存在的数据库会报错) CREATE DATABASE 数据库名称; #创建并判断(该数据库不存在才创建…

终端威胁检测与响应 (EDR) 技术研究

终端安全面临的挑战 从安全日常管理实践出发,终端安全的常见风险点是钓鱼攻击。因终端业务场景复杂,涉及即时通信软件、邮件等方式,如设置较严苛的拦截规则,则会造成较大的业务影响,且部分钓鱼通道为加密通道&#xf…

C_数据结构(栈) —— 栈的初始化、栈的销毁、入栈、出栈、bool类型判断栈是否为空、取栈顶元素、获取栈中有效元素个数

目录 一、栈 1、概念与结构 二、栈的实现 1、定义栈的结构 2、栈的初始化 3、栈的销毁 4、入栈 5、出栈 6、bool类型判断栈是否为空 7、取栈顶元素 8、获取栈中有效元素个数 三、完整实现栈的三个文件 Stack.h Stack.c test.c 一、栈 1、概念与结构 栈&#x…

K8s环境下使用sidecar模式对EMQX的exhook.proto 进行流量代理

背景 在使用emqx作为mqtt时需要我们需要拦截client的各种行为,如连接,发送消息,认证等。除了使用emqx自带的插件机制。我们也可以用多语言-钩子扩展来实现这个功能,但是目前emqx仅仅支持单个grpc服务端的设置,所以会有…

论文阅读-U3M(2)

HOW MUCH POSITION INFORMATION DO CONVOLUTIONAL NEURAL NETWORKS ENCODE? 文章目录 HOW MUCH POSITION INFORMATION DO CONVOLUTIONAL NEURAL NETWORKS ENCODE?前言一、位置编码网络(PosENet)二、训练数据三、实验3.1 位置信息的存在性3.2 分析PosEN…

多机编队—(3)Fast_planner无人机模型替换为Turtlebot3模型实现无地图的轨迹规划

文章目录 前言一、模型替换二、Riz可视化三、坐标变换四、轨迹规划最后 前言 前段时间已经成功将Fast_planner配置到ubuntu机器人中,这段时间将Fast_planner中的无人机模型替换为了Turtlebot3_waffle模型,机器人识别到环境中的三维障碍物信息&#xff0…

X(twitter)推特的广告类型有哪些?怎么选择?

X(twitter)推特是全球最热门的几大社交媒体平台之一,也是很多电商卖家进行宣传推广工作的阵地之一。在营销过程中不可避免地需要借助平台广告,因此了解其广告类型和适配场景也十分重要。 一、广告类型及选择 1.轮播广告 可滑动的…

谷歌浏览器办公必备扩展推荐有哪些

在现代办公环境中,谷歌浏览器凭借其强大的功能和丰富的扩展生态,成为了许多人日常工作中不可或缺的工具。为了进一步提升办公效率,本文将为您推荐几款实用的谷歌浏览器扩展,并解答在使用过程中可能遇到的一些常见问题。&#xff0…