爬虫入门学习

爬虫入门学习

news/2024/12/24 10:55:48/文章来源:https://blog.csdn.net/qq_51660565/article/details/141672243

流程

获取网页内容
HTTP请求
Python Requests
解析网页内容
HTML网页结构
Python Beautiful Soup
储存或分析数据

HTTP (Hypertext Transfer Protocol)
客户端和服务器之间的请求-响应协议
Get方法：获得数据
POST方法：创建数据

HTTP请求
请求行方法类型资源路径?查询参数协议版本
POST /user/info?new_user=true&… HTTP/1.1
请求头主机域名客户端相关信息想接受的响应数据类型
Host:www.
User-Agent:
Accept: /
请求体客户端传给服务器的其他任意数据
HTTP响应
状态行协议版本状态码状态消息
HTTP/1.1 200 OK
响应头告知客户端的信息（响应时间、响应内容类型、编码格式
响应体服务器给客户端的数据内容

Python Requests

安装
pip install requests

import requests
伪装浏览器请求
headers = { "User-Agent": "Mozilla/5.0(Windows NT 10.9; Win64; x64)"
response = requests.get("网址")
if response.ok:获取响应体内容print(response.text)
else:print("请求失败"）

HTML 定义网页的结构和信息

常用标签

<h1>标题</h1>
<p>文本段落</p>
<br>换行
<b>加粗</b>
<img src="" width="500px">图片
<a href="链接" target="跳转方式_self/_blank">链接名</a>
<div></div> 容器 块级元素 独占一块
<span></span> 容器 内联元素 一行可有多个
<ol>有序列表<li></li><li></li>
</ol>
<ul>无序列表<li></li><li></li>
</ul>
表格
<table 边框border="1"><thead>头部</thead><tbody>主体<tr>行<td>列</td></tr></tbody>
</table>
class属性 类可以用于所有元素帮助分组
<p class="content"></p>

Beautiful Soup

安装
pip install bs4
基本用法

from bs4 import BeautifulSoup
import requests
content = requests.get("").text
# 传入构造函数
soup = BeautifulSoup(content, "html.parser")
# 解析成树状结构的实例对象
all_prices = soup.findAll("p", attars={"class": "price_color"})
# 返回可迭代对象
for price in all_prices:print(price.string[2:])

正则表达式库re

根据自定义规则匹配一个或多个字符
在这里插入图片描述

多线程库threading

让不同线程同时爬取多个网页

数据分析

待进一步学习

工具腾讯chatBI

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/411473.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

零基础国产GD32单片机编程入门(二)GPIO输入中断含源码

零基础国产GD32单片机编程入门(二)GPIO输入中断含源码

文章目录一.概要二.可嵌套的向量中断控制器 (NVIC)三.中断向量表四.中断优先级详解五.GD32外部中断控制器(EXTI)1.EXTI简介2.EXTI在中断向量表的位置3.EXTI外部中断产生的信号流向4.EXTI中断产生后的中断服务程序六.GPIO输入中断的例程实验七.工程源代码下载八.小结一.概要 …

阅读更多...

Django+vue自动化测试平台（29）--测试平台集成playwright录制pytest文件执行

Django+vue自动化测试平台（29）--测试平台集成playwright录制pytest文件执行

需求背景一、系统目标与功能概述脚本管理: 系统需要能够组织和存储所有通过playwright官方插件录制的脚本。这包括脚本的上传、编辑、删除和版本控制功能。脚本执行: 用户应该能够在后台界面上查看所有可用的脚本，并能够通过简单的点击操作来启动特定脚本的执…

阅读更多...

Visual Basic 6.0教程/Visual Basic从入门到实践/Visual Basic学习视频教程

Visual Basic 6.0教程/Visual Basic从入门到实践/Visual Basic学习视频教程

Visual Basic 6.0教程/Visual Basic从入门到实践/Visual Basic学习视频教程李天生VB从入门到精通第一章 VisualBasic6基本介绍第二章 VisualBasic6的数据类型与运算符表达式第三章 VisualBasic6的内部函数第四章 VisualBasic6的基本语句第五章 VisualBasic6的数组第六章…

阅读更多...

RX 8000系显卡规格曝光，全系GDDR6纯过渡产品

RX 8000系显卡规格曝光，全系GDDR6纯过渡产品

原文转载修改自（更多互联网新闻/搞机小知识）： RX 8000系显卡规格首曝，GDDR6显存就很骨感前天，我们刚刚聊过有过新一代RTX 50系消息，虽然是按部就班地升级，但好在也是在升级。50系换核心升级显…

阅读更多...

Sentinel熔断与限流

Sentinel熔断与限流

一、服务雪崩与解决方案 1.1、服务雪崩问题一句话：微服务之间相互调用，因为调用链中的一个服务故障，引起整个链路都无法访问的情况。微服务中，服务间调用关系错综复杂，一个微服务往往依赖于多个其它微服务。如图…

阅读更多...

RabbitMQ 集群与高可用性

RabbitMQ 集群与高可用性

目录单节点与集群部署 1.1. 单节点部署 1.2. 集群部署镜像队列 1.定义与工作原理 2. 配置镜像队列 3.应用场景 4. 优缺点 5. Java 示例分布式部署 1. 分布式部署的主要目标 2. 典型架构设计 3. RabbitMQ 分布式部署的关键技术 4. 部署策略和实践 5. 分布式部署…

阅读更多...

前端开发学习Docker记录01镜像操作

前端开发学习Docker记录01镜像操作

Docker相关命令 Demo安装nginx 先搜索然后拉取，然后查看images列表是不是拉取成功 docker search nginxdocker pull nginx特定某个版本，镜像名：版本号 docker images

阅读更多...

layui2.9 树组件默认无法修改节点图标，修改过程记录下

layui2.9 树组件默认无法修改节点图标，修改过程记录下

官方文档树组件 data 参数值，未提供icon属性配置需要修改源码 layui.js, 搜索图片中标记部分查找到之后，修改为 <i class“‘(i.icon || “layui-icon layui-icon-file”)’”> 如图： 修改完成后，即可在data中添加icon…

阅读更多...

redis学习笔记 ——redis中的四大特殊数据结构

redis学习笔记 ——redis中的四大特殊数据结构

一.前言在之前的学习中，我们已经介绍了Redis中常见的五种基本的数据结构，而今天我们就要开始介绍Redis的四种特殊的数据结构，它们分别是bitmap(位图)， HyperLogLog(基数统计),Geospatial(地理信息),Stream。二.位图(Bitmap) …

阅读更多...

Windows安装PostgreSQL数据库，保姆级教程

Windows安装PostgreSQL数据库，保姆级教程

PostgreSQL 是客户端/服务器关系数据库管理系统 (RDMS)。PostgreSQL是一个功能非常强大的、源代码开放的客户/服务器关系型数据库管理系统（RDBMS）。PostgreSQL 也有自己的查询语言，称为 pgsql。此外，PostgreSQL 还支持过程语言&a…

阅读更多...

CS224W—07 Machine Learning with Heterogeneous Graphs

CS224W—07 Machine Learning with Heterogeneous Graphs

CS224W—07 Machine Learning with Heterogeneous Graphs 本节中，我们将学习如何在异构图中进行图神经网络学习。 Heterogeneous Graphs 图中的节点类型/边类型不同，就会形成一个异构图（Heterogeneous Graph），例如下…

阅读更多...

基于SpringBoot的在线答疑管理系统

基于SpringBoot的在线答疑管理系统

基于SpringBootVue的在线答疑管理系统【附源码文档】、前后端分离开发语言：Java数据库：MySQL技术：SpringBoot、Vue、Mybaits Plus、ELementUI工具：IDEA/Ecilpse、Navicat、Maven 系统展示摘要基于SpringBoot的在线答疑管理系…

阅读更多...

如何使用IDEA搭建Mybatis框架环境（详细教程）

如何使用IDEA搭建Mybatis框架环境（详细教程）

文章目录 ☕前言为什么学习框架技术Mybatis框架简介 🍹一、如何配置Mybatis框架环境1.1下载需要MyBatis的jar文件1.2部署jar文件1.3创建MyBatis核心配置文件configuration.xml1.4.创建持久类(POJO)和SQL映射文件1.5.创建测试类 🧋二、 MyBatis框架的优缺…

阅读更多...

Linux下UDP编程

Linux下UDP编程

一.概念介绍 1.socket 是什么？ socket（套接字）本质上是一个抽象的概念，它是一组用于网络通信的 API，提供了一种统一的接口，使得应用程序可以通过网络进行通信。在不同的操作系统中，socket 的实…

阅读更多...

【Python系列】Jinja2 模板引擎

【Python系列】Jinja2 模板引擎

💝💝💝欢迎来到我的博客，很高兴能够在这里和您见面！希望您在这里可以感受到一份轻松愉快的氛围，不仅可以获得有趣的内容和知识，也可以畅所欲言、分享您的想法和见解。推荐:kwan 的首页,持续学…

阅读更多...

【软件测试】软件测试生命周期与Bug

【软件测试】软件测试生命周期与Bug

目录 📕 前言 🌴软件测试的生命周期编辑🌲BUG 🚩 概念 🚩描述bug的要素 🚩bug的级别 🚩bug的生命周期 🏀先检查自身，是否bug描述不清楚 🏀站在用…

阅读更多...

Docker 安装 SqlServer

Docker 安装 SqlServer

摘要：我们工作当中经常需要拉取多个数据库实例出来做集群，做测试也好，通过 Docker 拉取 SqlServer 镜像，再通过镜像运行多个容器，几分钟就可以创建多个实例，效率是相当的高。 1. docker 拉取镜像注意&am…

阅读更多...

[mysql]mysql的演示使用

[mysql]mysql的演示使用

mysql的演示使用几个常见操作 1：show databases 这里第一个information_schema代表的是数据库的基本系统信息，数据库名称，表的名称，存储权限第二个是mysql，保存的是我们数据库运行的时候需要的系统信息&#xff0…

阅读更多...

数据中台即将消亡，数智基建取而代之？

数据中台即将消亡，数智基建取而代之？

数据中台即将消亡，数智基建取而代之？ 前言数智基建前言在当今数字化浪潮汹涌澎湃的时代，企业的发展如同在浩瀚海洋中航行的巨轮，而数据则是推动这艘巨轮前行的强大动力。然而，如何有效地管理和利用数据，…

阅读更多...

Kafka3.x 使用 KRaft 模式部署不依赖 ZooKeeper

Kafka3.x 使用 KRaft 模式部署不依赖 ZooKeeper

前言 Kafka 从 2.8.0 版本开始引入了 Kafka Raft Metadata Mode（KRaft 模式），这个模式允许 Kafka 在不依赖 ZooKeeper 的情况下进行元数据管理。KRaft 模式在 Kafka 3.0.0 中进入了稳定版本,本文部署的 Kafka_2.12-3.6.0 单机模式环境 Ce…

阅读更多...

最新文章

推荐文章