一语道破爬虫,来揭开爬虫面纱

目录

一、爬虫(网络蜘蛛(Spider))

1.1、是什么:

1.2、学习的原因

1.3、用在地方:

1.4、是否合法:

1.5、后果

案例:

二、应用领域

三、Robots协议

四、抓包

4.1、浏览器抓包

4.2、抓包工具

常见的抓包工具:

五、思维导图总结


一、爬虫(网络蜘蛛(Spider))

1.1、是什么:

网络蜘蛛:互联网是张网,可以在网上走来走去

网络爬虫就是自动的从网络上获取数据的程序【模拟客户端浏览器】

1.2、学习的原因

好吃:有数据才能进行数据分析【大数据分析】

能从网络上爬取什么:浏览网站时所能看见的数据都可以通过爬虫程序保存下来、文字、图片、视频/音频

1.3、用在地方:

数据展示----------将爬取的数据展示到网页或者APP上,比如:百度新闻、今日头条,

数据分析-----------从数据中寻找一些规律,比如:慢慢买(价格对比)、TIOBE排行等

1.4、是否合法:

网络爬虫的约束---------Robots协议、约束网络爬虫程序的速度(一秒发出一千个请求)

1.5、后果

要么封账号要么封ip(换ip----换电脑,网上有ip池,花钱买),严重的坐牢

案例:

爬虫禁区1:

为违法违规组织提供爬虫相关服务 (验证码识别服务贩卖SEO......)

  • 知乎某极验破解者自述被抓 
  • “快啊答题”AI破解验证码服务开发者被判刑
  • 永嘉警方揪出“黑”百度黑客团伙 千扰搜索引擎牟利超七千万元


爬虫禁区2: 个人隐私数据抓取与贩卖

  • 简历大数据公司“5达科技”被一锅端
  • 社保掌上通被下架 用户的信息很容易泄露太不安全了
  • 爬虫为何受关注? 业内: 大数据服务商或因合作方涉套路贷犯罪而被牵连

爬虫禁区3:利用无版权的商业数据获利

  • “车来了”涉嫌偷数据被警方立案
  • 裁判文书网数据竟被售卖: 爬虫程序抓取 或成侵权

二、应用领域

2.1、区分Python与爬虫

Python 不是爬虫,而是一种编程语言。然而,Python 在爬虫领域中有着广泛的应用。许多人选择使用 Python 来编写网络爬虫,因为它有许多强大的库和工具,如 Requests、Beautiful Soup、Scrapy 等,可以帮助开发者轻松地编写和管理爬虫程序。

因此,虽然 Python 本身不是爬虫,但它是一种非常适合用于编写爬虫的编程语言,可以帮助开发者快速、高效地创建各种类型的网络爬虫。

Python

是一种功能强大且灵活的编程语言,因此在各种领域都有广泛的应用。以下是 Python 的一些主要应用领域:

1. Web 开发:Python 可以用于开发 Web 应用程序和网站,常用的 Web 框架包括 Django 和 Flask。

2. 数据科学和机器学习:Python 在数据科学和机器学习领域非常流行,因为有许多强大的库和工具,如 NumPy、Pandas、SciPy、scikit-learn 和 TensorFlow。

3. 自动化和脚本编写:Python 可以用于编写自动化脚本,包括系统管理、文件操作、数据处理等。

4. 科学计算和工程:Python 在科学计算和工程领域有广泛的应用,因为它可以处理复杂的数学计算和科学建模。

5. 游戏开发:Python 可以用于开发游戏,有一些流行的游戏引擎如 Pygame 和 Panda3D。

6. 网络编程:Python 在网络编程方面有着良好的支持,可以用于开发网络应用和服务器端程序。

7. 数据库:Python 有许多库可以用于与各种数据库进行交互,如 MySQL、PostgreSQL 和 MongoDB。

8. GUI 应用程序:Python 可以用于开发图形用户界面(GUI)应用程序,如使用 Tkinter、PyQt 和 wxPython 等库。

总的来说,Python 在各种领域都有广泛的应用,因此是一种非常流行的编程语言。

爬虫:
1. 搜索引擎:爬虫被用于搜索引擎的抓取和索引网页内容,以便用户可以通过搜索引擎找到相关的信息。
2. 数据挖掘:爬虫可以用于从网页上抓取大量的数据,然后进行分析和挖掘,以发现有用的信息和趋势。
3. 价格比较和商品信息收集:爬虫可以用于抓取不同网站上的商品信息和价格,以便用户可以比较不同产品的价格和特性。
4. 网络安全:爬虫可以用于发现和分析网站上的安全漏洞和恶意软件,以帮助提升网络安全。
5. 社交媒体分析:爬虫可以用于抓取社交媒体上的信息和数据,以进行用户行为分析和趋势预测。
6. 舆情监控:爬虫可以用于监控新闻网站、论坛和社交媒体上的舆情信息,以帮助政府和企业了解公众舆论。
7. 金融市场分析:爬虫可以用于抓取金融市场上的数据和信息,以进行趋势分析和预测。
8. 学术研究:爬虫可以用于抓取学术文献和研究成果,以帮助研究人员进行文献综述和数据分析。

三、Robots协议

是网站管理和网络爬虫开发者之间的一种合作方式/君子协议(说白了就是给你看的,网站自己会做反爬手段),有效地管理网络爬虫对网站的访问,保护网站内容的安全性和合法性。

在网站后面加/robots.txt就可以看见那些可以爬那些不可以爬

Disallow:禁止爬

Allow:允许爬

四、抓包

抓包(Packet Capture)是指通过软件工具捕获和分析计算机网络中传输的数据包。抓包通常用于网络分析、安全审计、故障排除和网络性能优化等目的。

简单说明:电脑当前连了网,我们要和另外一台电脑通讯,通讯过程中发送的数据,是以包来发送的

4.1、浏览器抓包

右键---->检查(快捷键:F12)

4.2、抓包工具

可以截取经过计算机网络接口的数据包,并将其保存到文件中供后续分析。这些数据包可以包含从源到目的地的所有通信内容,包括通信双方的IP地址、端口号、协议类型、数据内容等信息。通过分析这些数据包,可以深入了解网络通信的细节,发现潜在的安全问题、网络瓶颈或者通信异常。

抓包工具通常可以在本地计算机上运行,也可以在网络设备上运行。

常见的抓包工具:

Wireshark、tcpdump、Fiddler、Charles等。这些工具提供了丰富的功能,可以对抓取到的数据包进行过滤、分析和可视化展示,帮助网络管理员和安全专家进行网络监控和问题排查。

伪基站就假的网络

五、思维导图总结

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/227611.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

性能优化-如何提高cache命中率

本文主要介绍性能优化领域常见的cache的命中率问题,旨在全面的介绍提高cache命中率的方法,以供大家编写出性能友好的代码,并且可以应对性能优化领域的面试问题。 🎬个人简介:一个全栈工程师的升级之路! &am…

C++图论之强连通图

1. 连通性 什么是连通性? 连通,字面而言,类似于自来水管道中的水流,如果水能从某一个地点畅通流到另一个地点,说明两点之间是连通的。也说明水管具有连通性,图中即如此。 无向图和有向图的连通概念稍有差…

【owt-server】一些构建项目梳理

【owt-server】清理日志:owt、srs、ffmpeg 【owt】p2p client mfc 工程梳理【m98】webrtc vs2017构建带符号的debug库【OWT】梳理构建的webrtc和owt mfc工程 m79的mfc客户端及owt-client

在VMware安装CentOS 7:详细教程

安装准备工作 本地虚拟机:我这里使用的是VMware Workstation 17 Pro centos7系统ISO镜像:我这里使用的是CentOS-7-x86_64-DVD-2009.iso,具体的下载地址是在阿里云官方镜像站:centos-7.9.2009-isos-x86_64安装包下载_开源镜像站-阿…

TV端Web页面性能优化实践

01 背景 随着互联网技术的持续创新和电视行业的高速发展,通过电视观看在线视频已经逐渐成为大众的重要娱乐方式。奇异果App作为在TV设备上用户活跃度最高的应用之一,为广大用户提供了丰富的内容播放服务,除此之外,同样有会员运营、…

Qt QAction添加图片

QAction用的时候,时常需要添加图片,如上图所示,代码如下所示: 测试的图片格式包含png,jpg,bmp,svg,其他未测试

年终跑步总结

第一个365天无间断年 以前也跑步很频繁,但今年是第一次365天未缺勤。年跑步量也是历来个人最多:2900km以上。 连续跑步天数累积超700天了 这里出现的签到天数累加只有666次,因为中间有跑步、但没有到app上签到,实际最近一次停…

RabbitMQ消息确认机制

介绍 在使用RabbitMQ发送消息如果出现消息没有发送到,队列没有接收到情况。需要消息确认来排错。 RabbitMQ发送端确认 ConfirmCallback 确认模式 和 ReturnCallback 未投递到 queue 退回模式 ConfirmCallback 确认模式 是生产者发送消息 被broker接收 会触发ConfirmCallba…

kafka实现延迟消息

背景 我们知道消息中间件mq是支持延迟消息的发送功能的,但是kafka不支持这种直接的用法,所以我们需要独立实现这个功能,以下是在kafka中实现消息延时投递功能的一种方案 kafka实现延时消息 主要的思路是增加一个检测服务,这个检…

条款 12:拷贝对象的所有部分

编译器生成的拷贝函数(拷贝构造函数,拷贝赋值运算符),会拷贝对象的所有数据,当你声明自己的拷贝函数时,就是在告诉编译器,默认实现中有你不喜欢的地方。 void logCall(const std::string& …

Apple Unity Plugins 接入GameCenter 崩溃解决方案

目录 问题问题原因解决方案可直接使用的UnityPlugins 问题 调用 GKLocalPlayer.Local.FetchItems() 程序崩溃,报错:Thread 1: EXC_BAD_ACCESS (code257, address0x8000000000000002) 启动崩溃,报错:Library not loaded: rpath/Ap…

【Electron】webview 实现网页内嵌

实现效果: 当在输入框内输入某个网址后并点击button按钮 , 该网址内容就展示到下面 踩到的坑:之前通过web技术实现 iframe 标签内嵌会出现 同源策略,同时尝试过 vue.config.ts 内配置跨域项 那样确实 是实现啦 但不知道如何动态切换 tagert …

sklearn学习的一个例子用pycharm jupyter

环境 运行在jupyter 进行开发。即一个WEB端的开发工具。能适时显示开发的输出。后缀用的是ipynb.pycharm也可以支持。但也要提示按装jupyter. 或直接用andcoda 这里我们用pycharm进行项目创建 pip install -i https://pypi.tuna.tsinghua.edu.cn/simple jupyterlab pip ins…

基于Python的电商手机数据可视化分析和推荐系统

1. 项目简介 本项目旨在通过Python技术栈对京东平台上的手机数据进行抓取、分析并构建一个简单的手机推荐系统。主要功能包括: 网络爬虫:从京东获取手机数据;数据分析:统计各厂商手机销售分布、市场占有率、价格区间和好评率&am…

Java进阶(第八期): Java中递归的的使用和递归解决一些算法问题 Java中的异常机制、异常的处理逻辑 自定义异常

文章目录 一、递归1.1 递归的介绍1.2 递归的简单练习1.3 图解递归执行流程:1.4 使用递归完成悲波那契数列1.5 猴子吃桃子问题 二、异常三 、异常的处理逻辑3.1 try catch 捕获异常3.2 throws抛出异常 四、自定义异常 Java进阶(第八期) 一、递…

科技云报道:开源才是大模型的未来?

科技云报道原创。 一年前,ChatGPT横空出世;7个多月后,Meta宣布开源LLaMA 2,并且可免费商用。 这一天,也成为大模型发展的分水岭。短时间内,LLaMA 2对一些闭源的大模型厂商造成了致命性的打击。 随后&…

SpringMVC源码解析——DispatcherServlet初始化

在Spring中,ContextLoaderListener只是辅助功能,用于创建WebApplicationContext类型的实例,而真正的逻辑实现其实是在DispatcherServlet中进行的,DispatcherServlet是实现Servlet接口的实现类。Servlet是一个JAVA编写的程序&#…

HBase 超大表迁移、备份、还原、同步演练手册:全量快照 + 实时同步(Snapshot + Replication)不停机迁移方案

博主历时三年精心创作的《大数据平台架构与原型实现:数据中台建设实战》一书现已由知名IT图书品牌电子工业出版社博文视点出版发行,点击《重磅推荐:建大数据平台太难了!给我发个工程原型吧!》了解图书详情,…

自动化测试系列 之 Python单元测试框架unittest

一、概述 什么是单元测试 单元测试是一种软件测试方法,是测试最小的可测试单元,通常是一个函数或一个方法。 在软件开发过程中,单元测试作为一项重要的测试方法被广泛应用。 为什么需要单元测试 单元测试是软件开发中重要的一环&#xf…

TG7050CKN,TG7050SKN ,TG7050CMN,TG7050SMN

爱普生推出的温补晶振型号:TG7050CKN,TG7050SKN ,TG7050CMN,TG7050SMN频率范围为 10mhz ~ 54mhz 适用于广泛的频率需求。这几款的特点就是耐高温,温度可达105℃高温,而且都是高稳定性温补晶振,&…