python爬虫——入门

一、概念

万维网之所以叫做网,是因为通过点击超链接或者进入URL,我们可以访问任何网络资源,从一个网页跳转到另一个网页,所有的相关资源连接在一起,就形成了一个网。

而爬虫呢,听名字就让人想起来一个黏糊糊的蠕虫或者蜘蛛等,实际上,爬虫本质上即使一个程序蜘蛛,按照一定的规则,自动沿着这张网抓取上面的信息。

用处:

  • 收集目标信息:比如爬取招聘网站,找出给python工程师的薪资排在前10的本地公司,你可以用它来比较价格等。(个人)
  • 舆情监控
  • 市场调研
  • 搜索引擎

二、安装。

python直接去官网下载即可,python编辑器我这里用的是pycharm软件。

安装教程直接百度即可。

三、爬虫流程

我们都听说过,爬虫学的好,牢饭吃的早。那么我们应该怎么正确利用爬虫技术呢?哪些事情是我们能做的,哪些是我们不能做的。

那接下来我们就来聊一聊爬虫的流程大概是什么样子的!

  1. 获取网页内容:我们会通过代码给一个网站服务器发送请求,它会返回给我们网页上的内容。在我们平时用浏览器访问网页内容时,本质上也是给网站服务器发送一个请求,服务器返回网页内容。(只不过,浏览器还会进行一个额外的步骤,就是把内容渲染成直观优美的页面给用户进行展现,而用程序获得的内容更加原始)
  2. 解析网页内容:在上一个步骤,我们可以获取整个网页的内容,那太多太复杂了,而我们其实根本不想要看到这么多信息,这个时候我们需要进行筛选。比如去tb买东西,我们可能只关注商品种类和价格,对于活动信息或者用户评价等内容不感兴趣。所以需要对内容进行解析,把想要的数据提取出来。
  3. 储存或分析数据:取决于具体需求。比如你一开始是为了收集数据集,那这一步骤可能就是把数据存储进数据库;如果你一开始是为了分析数据趋势,那这一步骤可能就是把数据做成可视化图表;如果你一开始是为了做舆情监控,这一步骤可能就是用AI做文本情绪分析。

爬虫大概的流程讲完了,那么我们来讲讲怎么避免吃牢饭!!!

为了能够成为社会主义好青年,请你务必遵守一些规则:

  • 不要爬取共鸣隐私数据
  • 不要爬取受著作权保护的内容
  • 不要爬取国家事务、国防建设、尖端科学技术领域的计算机系统等

除了以上红线不能跨过以外,还有一些事情是需要我们注意的。

  • 爬虫的请求数量和频率不能过高,否则可能无异于DDos攻击。(DDos攻击就是通过给服务器发送海量高频的请求,让网站资源被耗尽,导致其无法服务其他正常用户)
  • 如果网站明显做出了反爬限制,比如有些内容要登陆后才可查看,或是有验证码等限制机器的机制,就不要去强行突破了。
  • 你可以通过查看网站的robots.txt文件了解可爬取的网页路径范围,这个文件会知名哪些网页允许被爬取,哪些不允许被爬取,有些还会专门列出针对搜索引擎爬虫的许可范围。

四、需要学习哪些内容呢?

(1)在获取网页内容方面

  • HTTP请求,来获得网页内容
  • python的Requests库,通过它就可以用python代码简单优雅地发送HTTP请求。

(2)在解析网页内容方面

  • HTML网页结构(因为发送请求后获得的内容,很多情况下回事HTML格式)
  • python的Beautiful Soup库,帮助解析获取到的HTML内容,提取信息

(3)在储存或分析数据方面

学什么,根据具体需求而异。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/408961.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

设计模式篇(DesignPattern - 创建型模式)

目录 模式一:单例模式 一、简介 二、种类 1. 饿汉式(静态常量) 1.1. 代码 1.2. 优缺点 2. 饿汉式(静态代码块) 2.1. 代码 2.2. 优缺点 3. 懒汉式(线程不安全) 3.1. 代码 3.2. 优缺点 4. 懒汉式(线程安全,…

Vulkan入门系列16 - 生成多级纹理贴图( Mipmaps)

一:概述 我们的程序现在可以加载和渲染 3D 模型了。在本章中,我们将再添加一项功能-- Mipmaps 生成。Mipmaps 广泛应用于游戏和渲染软件中,Vulkan 让我们可以完全控制 Mpmaps 的生成方式。 Mipmaps 是预先计算的、缩放的图像。每个新图像的宽度和高度都是前一个图像的一半。…

ssrf漏洞之——漏洞复现

漏洞介绍 SSRF漏洞:SSRF(Server-Side Request Forgery:服务器端请求伪造) 是一种由恶意访问者构造url,由服务端对此url发起请求的一个安全漏洞。 漏洞原理 SSRF 形成的原因大都是由于服务端提供了从其他服务器应用获取数据的功能,并且没有对目…

(QT-UI)十四、在时间轴上绘制一段段时间片

本系列预计实现 ①刻度上方文字显示, ②时间轴拖动效果, ③时间轴刻度缩放, ④时间轴和其他控件联动显示, ⑤鼠标放置到时间轴,显示具体时间。 ⑥通过定时器,实时更新时间轴 ⑦时间轴上绘制时间片 完…

用excel内容批量建立文件夹

建文件夹是电脑操作过程中比较常见的,但是用EXCEL内容批量建文件夹,这似乎不相关的两个操作,那么怎么实现这样的一个功能,我们需要用到专门的软件进行关联,推荐:可易文件夹批量生成器,这个软件有…

数据结构基础详解(C语言): 栈与队列的详解附完整代码

数据结构 栈 栈的核心重点: 栈是只能从表尾插入和删除的数据结构。 栈的顺序存储结构由两部分组成,top指针和数组。 链栈其实本质就是单链表头插法 文章目录 数据结构 栈1.栈的基本概念1.1 栈的常用操作 2.栈的存储结构2.1 栈的顺序存储结构2.1.1 栈的定…

AVL树的旋转

目录 一、AVL树的概念 二、AVL树节点的定义 三、AVL树的插入 四、AVL树的旋转 4.1右单旋 4.2左单旋 4.3左右双旋 4.4右左双旋 五、AVL树的验证 六、AVL树的性能 一、AVL树的概念 二叉搜索树虽可以缩短查找的效率,但如果数据有序或接近有序二叉搜索树将退化…

【AI绘画】Midjourney提示词详解:精细化技巧与高效实践指南

文章目录 💯Midjourney提示词基础结构1 图片链接1.1 上传流程 2 文字描述3 后置参数 💯Midjourney提示词的文字描述结构全面剖析1 主体主体细节描述2 环境背景2.1 环境2.2 光线2.3 色彩2.4 氛围 3 视角4 景别构图5 艺术风格6 图片制作方法7 作品质量万能…

鸿蒙(API 12 Beta3版)【使用Image完成图片接收器】图片开发指导依赖JS对象

图像接收类,用于获取组件surface id,接收最新的图片和读取下一张图片,以及释放ImageReceiver实例。 开发步骤 添加依赖 在进行应用开发之前,开发者需要打开native工程的src/main/cpp/CMakeLists.txt,在target_link_…

文章中的错字一并替换成正确的字

with open("文件路径","模式","编码") as file ("r" 是读,"w"是写) with open(r"D:\python-installer\python-code\pythonProject\src\关于文件操作练习/人物介绍.txt",&quo…

PHP酒店宾馆民宿预订系统小程序源码

酒店宾馆民宿预订系统:一键解锁完美旅行住宿新体验 🌟 开篇:告别繁琐,拥抱便捷预订新时代 在这个快节奏的时代,每一次旅行的规划都希望能尽可能高效与省心。想象一下,在规划一场说走就走的旅行时&#xf…

docker基本环境搭建

前面在虚拟机centos中搭建的fastdfs和minio分布式文件存储服务都是手动编译安装的,为了方便后续学习,本地开发环境的中间件服务部署,我们将交给docker来部署。下面先进行docker环境搭建。 后续相关教程(待更新)&#…

iOS RunLoop

一:什么是Runloop Runloop,正如其名,loop表示某种循环,和run放在一起就表示一直在运行着的循环 二:Runloop的创建? iOS并没有提供Runloop的创建方法,因为创建了现场自然会有一个Runloop. 所以只有获取Runloop的方法: NSRunLoop * runloo…

selenium学习记录

1、初识selenium 概述: Selenium是一个Web的自动化测试工具,最初是为网站自动化测试而开发的,类型像我们玩游戏用的按键精灵,可以按指定的命令自动操作,不同是Selenium 可以直接运行在浏览器上,它支持所有…

TXT文件转换pdf格式的java方法

<dependency><groupId>com.itextpdf</groupId><artifactId>itextpdf</artifactId><version>5.5.13.2</version> </dependency>接下来&#xff0c;编写一个方法来执行文件转换&#xff1a; import com.itextpdf.text.Document…

计算机网络-物理层

物理层 基本概念 物理层考虑怎样才能在连接各种计算机的传输媒体上传输数据比特流 物理层为数据链路层屏蔽了各种传输媒体的差异&#xff0c;使数据链路层只需要考虑如何完成本层的协议和服务&#xff0c;而不必考虑网络具体的传输媒体是什么 物理层协议主要任务 机械特性&am…

小兔鲜首页制作css

一、项目目录 项目名-客户端 xtx-pc 1.images&#xff1a;存放固定使用的图片&#xff0c;例如&#xff1a;logo、样式修饰图 2.uploads:存放非固定图片&#xff0c;例如&#xff1a;商品图、宣传图等需要上传的图片 3.iconfont:字体图标素材 4.css文件&#xff1a; 4.1base.cs…

C语言 | Leetcode C语言题解之第371题两整数之和

题目&#xff1a; 题解&#xff1a; int getSum(int a, int b){ int c; while(b) {c(unsigned int)(a&b)<<1;a^b;bc; }return a; }

资产架构端口应用CDNWAF站库分离负载均衡

知识点&#xff1a; 1、资产架构-端口&目录&插件接口&多站点&多应用 2、番外安全-域名&服务器本身&服务厂商&管理人员 3、考虑阻碍-站库分离&CDN&WAF&负载均衡&主机防护 详细点&#xff1a; 1、前置条件-购买使用-云服务器&a…

第135天:内网安全-横向移动非约束委派约束委派数据库攻防

案例一: 横向移动-原理利用-非约束委派 该案例建立了解即可&#xff0c;真实环境应该不可能有人这样配置 非约束委派的原理和利用场景 原理&#xff1a; 机器 A &#xff08;域控&#xff09;访问具有非约束委派权限的机器 B 的服务&#xff0c;会把当前认证用户&#x…