【Python-爬虫】

Python-爬虫

  • ■ 爬虫分类
    • ■ 1. 通用网络爬虫:(搜索引擎使用,遵守robots协议)
      • ■ robots协议(君子协议)
    • ■ 2. 聚集网络爬虫:自己写的爬虫程序
  • ■ urllib.request(请求模块)
    • ■ 示例一:01_Request.py 向百度发送请求,并获取http响应码
    • ■ 示例二:02_Request.py
    • ■ 示例三:03_Request.py
  • ■ 请求头(headers)User-Agent
    • ■ 知识点一:向测试网站: http://httpbin.org/get 发送请求,**会返回我们的请求头User-Agent内容。**
    • ■ 知识点二:写的py代码的User-Agent:是Python-urllib/3.7,这样子很容易被服务器知道你是爬虫访问的,所以在发送请求前指定一个User-Agent
  • ■ urllib.parse(编码模块)
    • ■ 知识点一:对中文进行编码后再发送请求。![在这里插入图片描述](https://img-blog.csdnimg.cn/direct/e567fb9e69004ac0ac04c2e28f941a5e.png)
  • ■ 正则表达式re模块
    • ■ 1.
    • ■ 2.
    • ■ 3.
  • ■ 数据持久化
    • ■ 1. 数据持久化-CSV
    • ■ 2. 数据持久化-MySQL
    • ■ 3. 数据持久化-MongoDB
  • ■ 多级页面抓取
    • ■ 1.
    • ■ 2.
    • ■ 3.
  • ■ requests模块
    • ■ 1.
    • ■ 2.
    • ■ 3.
  • ■ 互联网图片抓取
  • ■ Chrome浏览器插件
  • ■ xpath语法解析
    • ■ 1. lxml+xpath解析提取数据
    • ■ 2.
  • ■ Json解析模块
    • ■ 1.
    • ■ 2.
    • ■ 3.
  • ■ Cookie
    • ■ 1.
    • ■ 2.
    • ■ 3.
  • ■ Selenium
    • ■ 1.
    • ■ 2.
    • ■ 3.
  • ■ 中间件
    • ■ 1.
    • ■ 2.
    • ■ 3.
  • ■ Scrapy
    • ■ 1 Scrapy-框架原理
    • ■ 2 Scrapy-
    • ■ 3 Scrapy-
  • ■ 分布式爬虫原理
    • ■ 1.
    • ■ 2.
    • ■ 3.
  • ■ 机器视觉
    • ■ 1.
    • ■ 2.
    • ■ 3.
  • ■ 极限滑块验证码破解
    • ■ 1.
    • ■ 2.
    • ■ 3.
  • ■ 移动端数据抓取
    • ■ 1.
    • ■ 2.
    • ■ 3.

■ 爬虫分类

■ 1. 通用网络爬虫:(搜索引擎使用,遵守robots协议)

■ robots协议(君子协议)

robots协议:通过robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取
网页后面加 robots.txt 查看网站robots协议。

实例一:www.qq.com/robots.txt
在这里插入图片描述

■ 2. 聚集网络爬虫:自己写的爬虫程序

■ urllib.request(请求模块)

作用: 向网站发送请求,即:我们平时在浏览器输入地址访问网站一样。

函数作用参数
urllib.request.urlopen(URL,timeout)作用URL:需要爬取的URL地址
timeout:设置等待超时时间,指定时间内未响应抛出超时异常。
urllib.request.Request()包装请求,重构User-Agent,使用程序更新正常人类请求URL:请求的URL地址
headers:添加请求头,类型为字典headers= {‘User-Agent’:}

■ 示例一:01_Request.py 向百度发送请求,并获取http响应码

from 

■ 示例二:02_Request.py

from 

■ 示例三:03_Request.py

from 

在这里插入图片描述

■ 请求头(headers)User-Agent

作用: User-Agent 有游览器,操作系统信息。

■ 知识点一:向测试网站: http://httpbin.org/get 发送请求,会返回我们的请求头User-Agent内容。

在这里插入图片描述

Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36 Edg/124.0.0.0

■ 知识点二:写的py代码的User-Agent:是Python-urllib/3.7,这样子很容易被服务器知道你是爬虫访问的,所以在发送请求前指定一个User-Agent

■ urllib.parse(编码模块)

作用:给URL地址中查询参数进行编码
在这里插入图片描述
在这里插入图片描述

■ 知识点一:对中文进行编码后再发送请求。在这里插入图片描述

■ 正则表达式re模块

■ 1.

■ 2.

■ 3.

■ 数据持久化

■ 1. 数据持久化-CSV

■ 2. 数据持久化-MySQL

■ 3. 数据持久化-MongoDB

■ 多级页面抓取

■ 1.

■ 2.

■ 3.

■ requests模块

■ 1.

■ 2.

■ 3.

■ 互联网图片抓取

■ Chrome浏览器插件

■ xpath语法解析

■ 1. lxml+xpath解析提取数据

■ 2.

■ Json解析模块

■ 1.

■ 2.

■ 3.

■ Cookie

■ 1.

■ 2.

■ 3.

■ Selenium

■ 1.

■ 2.

■ 3.

■ 中间件

■ 1.

■ 2.

■ 3.

■ Scrapy

■ 1 Scrapy-框架原理

■ 2 Scrapy-

■ 3 Scrapy-

■ 分布式爬虫原理

■ 1.

■ 2.

■ 3.

■ 机器视觉

■ 1.

■ 2.

■ 3.

■ 极限滑块验证码破解

■ 1.

■ 2.

■ 3.

■ 移动端数据抓取

■ 1.

■ 2.

■ 3.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/328192.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

详解typora配置亚马逊云科技Amazon S3图床

欢迎免费试用亚马逊云科技产品:https://mic.anruicloud.com/url/1333 当前有很多不同的博客社区,不同的博客社区使用的编辑器也不尽相同,大概可以分为两种,一种是markdown格式,另外一种是富文本格式。例如华为云开发者…

dfs记忆化搜索,动态规划

动态规划概念: 给定一个问题,将其拆成一个个子问题,直到子问题可以直接解决。然后把子问题的答案保存起来,以减少重复计算。再根据子问题的答案反推,得出原问题解。 821 运行时间长的原因: 重复大量计算…

Pencils Protocol Season 2 收官在即,Season 3 携系列重磅权益来袭

此前Scroll生态LaunchPad &聚合收益平台Pencils Protocol(原Penpad),推出了首个资产即其生态代币PDD的Launch,Season 2活动主要是用户通过质押ETH代币、组件战队等方式,来获得Point奖励,并以该Point为依…

代码行数统计工具cloc

Release v2.00 AlDanial/cloc GitHub 代码量代码行数统计工具cloc的正确使用(windows平台亲测有效,本人踩过坑,文中提到!)_cloc代码统计工具-CSDN博客

深入理解K8S【安全认证机制kubectlconfig】

深入理解K8S【安全认证机制】 1 核心概念 1.1 安全体系 对于大型系统来说,对业务的权限、网络的安全认证是必不可少的。 对于linux系统来说,用户和组、文件权限、SELinux、防火墙、pam、sudo等,究其核心的目的都是为了保证系统是安全的。 …

K8s 二进制部署 上篇

一 K8S按装部署方式: ① Minikube Minikube是一个工具,可以在本地快速运行一个单节点微型K8S,仅用于学习、预览K8S的一些特 性使用。 部署地址:https://kubernetes.io/docs/setup/minikube ② Kubeadmin Kubeadmin也是一个工…

解决 Content type ‘application/json;charset=UTF-8‘ not supported

文章目录 问题描述原因分析解决方案参考资料 问题描述 我项目前端采用vue-elementUi-admin框架进行开发,后端使用SpringBoot,但在前后端登录接口交互时,前端报了如下错误 完整报错信息如下 前端登录接口JS代码如下 export function login(…

素数筛详解c++

一、埃式筛法 代码 二、线性筛法(欧拉筛法) 主要的思想就是一个质数的倍数(倍数为1除外)肯定是合数,那么我们利用这个质数算出合数,然后划掉这个合数,下次就可以不用判断它是不是质数,节省了大量的时间。 …

RuoYi-Vue-Plus (Logback 和 logback-plus.xml 、p6spy)

项目后本地日志 一、logback依赖 打开最外层的 pom.xml,查看 SpringBoot的依赖配置。 <dependencyManagement><dependencies><!-- SpringBoot的依赖配置--><dependency><groupId>org.springframework.boot</groupId><artifactId>s…

视频智能检测AI智能分析网关V4告警消息推送:公众号消息推送的配置步骤介绍

TSINGSEE青犀智能分析网关V4属于高性能、低功耗的软硬一体AI边缘计算硬件设备&#xff0c;目前拥有3种型号&#xff08;8路/16路/32路&#xff09;&#xff0c;支持Caffe/DarkNet/TensorFlow/PyTorch/MXNet/ONNX/PaddlePaddle等主流深度学习框架。硬件内部署了近40种AI算法模型…

淘系淘宝订单详情api接口(订单详情,订单列表,出售中,库存等属性)

淘系淘宝订单详情api接口&#xff08;订单详情&#xff0c;订单列表&#xff0c;出售中&#xff0c;库存等属性&#xff09;

GRFB-UNet:一种新的多尺度注意力网络,用于铺路分割

不同场景下的带注释的触觉铺装示例: GRFB-UNet网络结构: GRFB模块的结构: 铺路在视障人士的旅行中起着至关重要的作用。因此,识别铺装的形状和位置以支持视障人士的移动性是相当有意义的,而视觉分割技术就适合这项任务。为了有效提高触觉铺装分割的精度和鲁棒性,…

TCP四次挥手——断开连接 滑动窗口-流量控制

四次挥手 在TCP的四次挥手中&#xff0c;其重要作用就是释放客户端和服务器的连接。 这里的一些参数非常重要&#xff0c;因为这些参数的作用是为了表达TCP四次挥手断开连接的过程。 其中的参数如下 1.FIN&#xff1a;FIN (Finish) 是TCP协议中的一个标志位&#xff0c;用于…

使用TerraScan静态扫描KubernetsIaC文件

terrascan https://github.com/tenable/terrascan Terrascan 是基础架构即代码的静态代码分析器。Terrascan 允许&#xff1a; 将基础架构作为代码无缝扫描&#xff0c;以查找错误配置。监控已配置的云基础架构&#xff0c;以查找引入终端安全评估漂移的配置更改&#xff0…

使用图网络和视频嵌入预测物理场

文章目录 一、说明二、为什么要预测&#xff1f;三、流体动力学模拟的可视化四、DeepMind神经网络建模五、图形编码六、图形处理器七、图形解码器八、具有不同弹簧常数的轨迹可视化九、预测的物理编码和推出轨迹 一、说明 这是一篇国外流体力学专家在可视化流体物理属性的设计…

OpenAI新模型GPT-4o“炸裂登场” 响应速度堪比真人 关键还免费!

GPT-4o模型基于来自互联网的大量数据进行训练&#xff0c;更擅长处理文本和音频&#xff0c;并且支持50种语言。更值得一提的是&#xff0c;GPT-4o最快可以在232毫秒的时间内响应音频输入&#xff0c;几乎达到了人类的响应水平。 GPT-4o有多“炸裂”&#xff1f;核心能力有三 G…

幻兽帕鲁Palworld服务器手动部署

目录 帕鲁官方文档手动安装steamcmd通过steamcmd安装帕鲁后端客户端连接附录&#xff1a;PalServer.sh的启动项附录&#xff1a;配置文件 帕鲁官方文档 https://tech.palworldgame.com/ 手动安装steamcmd 创建steam用户 sudo useradd -m steam sudo passwd steam下载steamc…

自动化测试基础 --- Jmeter

前置环境安装 首先我们需要知道如何下载Jmeter 这里贴上下载网站Apache JMeter - Download Apache JMeter 我们直接解压,然后在bin目录下找到jemter.bat即可启动使用 成功打开之后就是这个界面 每次打开可以用这种方式切换成简体中文 或者直接修改properties文件修改对应的语言…

【linux】详解linux基本指令

目录 cat more less head tail 时间 cal find grep zip/unzip tar bc uname –r 关机 小编一共写了两篇linux基本指令&#xff0c;这两篇涵盖了大部分初学者的必备指令&#xff0c;这是第二篇&#xff0c;第一篇详见http://t.csdnimg.cn/HRlVt cat 适合查看小文…

5.神经网络-激活函数

目录 1. 激活函数不是阶跃函数 1.1 激活函数和阶跃函数都是非线性函数 1.2 激活函数不是阶跃函数 2. sigmoid 函数 2.1 sigmoid 函数表达式 2.2 sigmoid 函数 Python 实现 2.4 sigmoid 函数图 3. ReLU 函数 3.1 ReLU 函数表达式 3.2 ReLU 函数 Python 实现 3.4 ReLU…