爬虫的第三天——爬动态网页

一、基本概念

动态网页是指网页内容可以根据用户的操作或者预设条件而实时发生变化的网页。

特点

  • 用户交互:动态网页能够根据用户的请求而生成不同的内容。
  • 内容动态生成:数据来自数据库、API或用户输入。
  • 客户端动态渲染:浏览器通过JavaScript/AJAX动态加载内容(如滚动加载更多商品)
  • 服务器端处理:动态网页通常需要服务器端脚本来处理用户的请求。脚本语言通常是PHP、java、Python、ruby等

二、网页判别

  • 检查方法
  1. 右键查看网页源代码(ctrl+u),搜索关键数据(ctrl+f),如果源代码中没有目标数据,说明是动态加载.

上面的图片明显看得出来,在网页源代码中并没有找到目标数据。

      2、分析网络请求(F12 → Network),观察XHR/Fetch请求,看数据是否通过API返回(通常是JSON格式)。

这里就做一下静态网页和动态网页的对比

静态网页动态网页
  • 动态网页特征

                1、 页面内容逐步加载

                2、滚动到页面底部时加载更多内容

                3、数据通过异步请求获取

三、爬虫步骤

  1. 我使用开发工具直接调用API

点击预览可看到,网页上的一些数据

2、url太长了,我们可以查询字符型串参数来定义请求参数,url中?号后面可以不要

3、在标头中找到User-Agent,来模拟浏览器

代码:

# 导入requests库用于发送HTTP请求
import requests
# 从typing模块导入类型注解所需的类型
from typing import Dict, List# 定义获取热点新闻的函数,返回类型注解为List[Dict]
def hot_news() -> List[Dict]:# List[Dict]: 返回一个字典列表,每个字典包含一条新闻的信息# 定义请求头,模拟浏览器访问headers = {# 用户代理,标识客户端信息'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/134.0.0.0 Safari/537.36 Edg/134.0.0.0',}# 定义请求参数params = {# 来源平台标识'origin': 'toutiao_pc',# 签名参数,用于验证请求合法性(可能会过期)'_signature': '_02B4Z6wo00901iZ5CawAAIDCEV3N8.rNWGomXQ0AAO6JwLZsIueh1TRpco1.6.JGKOj3uc9xHlCRxuw.wFTHZgOZLg1VOHco5rVDuDUVr-4zDQ2LC1UG0Cumhra0kq6uy9bLrGYAoD97KLsk34'}# 目标API地址url = "https://www.toutiao.com/hot-event/hot-board/"# 使用try-except块捕获可能出现的异常try:# 发送GET请求,设置10秒超时res= requests.get(url, params=params, headers=headers, timeout=10)# 如果响应状态码不是200,抛出HTTPError异常res.raise_for_status()# 将响应内容解析为JSON格式data = res.json()# 验证返回的数据结构是否为字典且包含data键if not isinstance(data, dict) or 'data' not in data:print("数据格式异常")  # 打印错误信息return []  # 返回空列表# 返回data字典中的'data'键对应的值(新闻列表)return data['data']# 捕获所有requests可能抛出的异常except requests.exceptions.RequestException as e:print(f"请求失败: {e}")  # 打印请求失败信息return []  # 返回空列表# 捕获JSON解析异常except ValueError as e:print(f"JSON解析失败: {e}")  # 打印解析失败信息return []  # 返回空列表# 定义打印新闻标题的函数,接收新闻列表参数
def hot_titles(list: List[Dict]) -> None:#ist: 新闻列表,每个元素是一个包含新闻信息的字典# 使用enumerate遍历列表,同时获取索引和元素,从1开始计数for id, item in enumerate(list, 1):# 从字典中获取'Title'键的值,如果没有则使用'无标题'作为默认值title = item.get('Title', '空')# 格式化打印序号和标题print(f"{id}. {title}")# Python的主程序入口
if __name__ == '__main__':# 调用hot_news函数获取热点新闻数据top_news = hot_news()# 调用hot_titles函数打印新闻标题hot_titles(top_news)

效果:/*做敲代码的时候,我电脑没电了,再次开机的时候就重新找的一个,所以这个与我上面预览的数据不一样*/

四、拓展

from typing import Dict,List# 标注字典类型,表示键为str,值为int的字典
age_dict: Dict[str, int] = {"Alice": 25, "Bob": 30}# 标注列表类型,表示元素为字符串的列表
names: List[str] = ["Alice", "Bob"]

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/42668.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【MATLAB例程】三维环境,基于TOA的动态轨迹定位,轨迹使用UKF(无迹卡尔曼滤波)进行滤波,模拟TOA/IMU的数据融合

本代码实现了一个基于到达时间(TOA)测距的三维定位系统,结合无迹卡尔曼滤波(UKF)对移动目标的轨迹进行优化。代码通过多锚节点(>3)的TOA测量数据,先进行初步定位解算,…

旋转变换原理

旋转变换原理 旋转是仿射变换的一种,通过变换矩阵实现图像绕指定中心旋转,保持直线和平行性不变。其数学表示为: 其中: ( c x , c y ) (c_x, c_y) (cx​,cy​) 是旋转中心。 θ \theta θ 是旋转角度(逆时针为正&…

【计算机网络】DHCP工作原理

DHCP(动态主机配置协议) Dynamic Host Configuration Protocol 基于UDP协议传输 DHCP分配IP地址的过程 (1)DHCP DISCOVER客户机请求 IP 地址: 当一个 DHCP 客户机启动时,客户机还没有 IP 地址,所以客户机要通过 DHC…

应用于汽车车灯电路中的电感产品选型及质量管控标准

随着汽车的智能化与电动化发展,汽车车灯系统逐渐从单一照明功能向集成化、智能化和高能效方向演进。汽车车灯的性能关系着行车安全和驾驶体验,而车规级电感器作为车灯驱动电源电路中的核心元件,其性能直接决定了汽车车灯的效率、可靠性及环境…

MinGW下编译ffmpeg源码时生成compile_commands.json

在前面的博文MinGW下编译nginx源码中,有介绍到使用compiledb工具在MinGW环境中生成compile_commands.json,以为compiledb是捕获的make时的输出,而nginx生成时控制台是有输出编译时的命令行信息的,笔者之前编译过ffmpeg的源码&…

JDBC FetchSize不生效,批量变全量致OOM问题分析

背景 一个简单的基于 JDBC 采集数据库表的功能,当采集 Postgre SQL 某表,其数据量达到 500万左右的时候,程序一启动就将 JVM 堆内存「6G」干满了。 问题是程序中使用了游标的只前进配置,且设置了 fetchSize 属性: q…

OpenCV 图形API(或称G-API)

操作系统:ubuntu22.04 OpenCV版本:OpenCV4.9 IDE:Visual Studio Code 编程语言:C11 引言 OpenCV 图形API(或称G-API)是一个新的OpenCV模块,旨在使常规图像处理更快且更便携。通过引入一种新的基于图的执行…

注意!ChatGPT 全新 AI 图像功能延迟对免费用户开放

2025 年 3 月 25 日,OpenAI 正式宣布在 ChatGPT 中推出基于 GPT-4o 模型的全新原生图像生成功能。 这一功能允许用户通过对话生成和编辑图像,支持从写实风格到插图风格的多种形式。OpenAI 首席执行官萨姆・奥特曼(Sam Altman)在社…

方阵幂次(矩阵快速幂)

#include <bits/stdc.h> using namespace std;int n; vector<vector<int>> fuc(vector<vector<int>> a,vector<vector<int>> b){ // 矩阵乘法函数vector<vector<int>> f(n,vector<int>(n));for(int i0;i<n;i){…

MySQL-- 多表查询的分类,SQL92与SQL99,7种JOIN的实现,SQL99语法的新特性

目录 一&#xff0c;多表查询的分类 角度1&#xff1a;等值连接 vs 非等值连接 角度2&#xff1a;自连接 vs 非自连接 角度3&#xff1a;内连接 vs 外连接 二&#xff0c;SQL92语法实现内连接&#xff1a;见上&#xff0c;略SQL92语法实现外连接&#xff1a;使用 -…

IEEE PDF Xpress校验出现 :字体无法嵌入问题以及pdf版本问题

文章目录 问题描述一、字体嵌入问题首先查看一下&#xff0c;哪些字体没有被嵌入查看window的font文件夹里的字体下载字体的网站修复字体嵌入问题 二、pdf版本不对 问题描述 在处理IEEE的camera ready的时候&#xff0c;提交到IEEE express的文件没有办法通过validate&#xf…

产生式系统的完整示例——医疗诊断系统(附python代码)

产生式系统在现实社会中依然有很重要的应用价值&#xff0c;为了更好的理解它的构建、推理以及完整的实现过程&#xff0c;本文一医疗诊断系统为例&#xff0c;进行详细说明。以下是一个包含10条规则的医疗诊断产生式系统示例&#xff0c;包含完整的规则定义、推理流程图、Pyth…

【CSS3】02-选择器 + CSS特性 + 背景属性 + 显示模式

本文主要介绍&#xff1a;选择器、CSS属性、背景属性和显示模式的操作写法。 目录 1. 复合选择器 1.1 后代选择器 1.2 子代选择器 1.3 并集选择器 1.4 交集选择器 2. 伪类选择器 2.1 超链接&#xff08;拓展&#xff09; 3. CSS特性 3.1 继承性 3.2 层叠性 3.3 优先…

清华大学第10讲:迈向未来的AI教学实验396页PPT 探索未来教育的无限可能|附PPT下载方法

导 读INTRODUCTION 今天跟大家分享的是清华大学新闻与传播学院、人工智能学院双聘教授沈阳教授团队出品的《迈向未来的AI教学实验》课程作业集&#xff0c;随着人工智能技术的飞速发展&#xff0c;教育领域也迎来了前所未有的变革。该报告为沈阳教授与学生们在“迈向未来的AI教…

亮数据爬取API爬取亚马逊电商平台实战教程

前言 在当今数据驱动的商业环境中&#xff0c;企业需要快速、精准地获取互联网上的公开数据以支持市场分析、竞品调研和用户行为研究。然而&#xff0c;传统的手动网页爬取方式面临着诸多挑战&#xff1a;IP封锁、验证码干扰、网站结构频繁变更&#xff0c;以及高昂的运维成本…

【新手初学】读取服务器敏感文件数据

一、引言 想要让利用注入点让SQL语句能执行读取相关文件的操作&#xff0c;需要一个非常重要的条件&#xff0c;即在MySql数据库的配置文件my.ini中一定要有 secure file priv" " 二、读取文件配置 ①在虚拟机中查看my.ini文件中有没有secure file priv" &qu…

央视少儿APP V2.6.2

安装好软件就能直接看&#xff0c;界面干净&#xff0c;播放流畅得很。里面的内容都是经过严格筛选的&#xff0c;动画、纪录片、教育课程这些资源应有尽有 这款软件的画质高清到让人惊艳&#xff0c;就算不登录也丝毫不影响观看体验&#xff0c;播放的时候几乎不用缓冲&#…

mysqlworkbench导入.sql文件

1、MySQL Workbench 新建数据库 或者 在左侧导航栏的 ​Schemas 区域右键选择 ​Create Schema...输入数据库名称&#xff08;例如 mydatabase&#xff09;&#xff0c;点击 ​Apply确认创建&#xff0c;点击 ​Finish 2、选择目标数据库 在左侧导航栏的 ​Schemas 列表中&a…

比较4点结构和4次函数

在行列可自由变换的平面上3点结构只有6个 设与之对应的函数分别是 3a1 x*x*y y*y*x 3a2 xy*y*y 3a3 x*x*y y*y*y 3a4 x*x*x y*y*x 3a5 x*x*xy*y*y 3a6 x*x*xy 用同样的办法计算4点结构的16个函数 4(4a1-1)2*3a32*3a1 4(4a2-1)3a43a33a53a1 4(4a3-1)3a23a3…

线性回归 + 基础优化算法

线性回归 线性回归是机器学习最基础的模型&#xff0c;也是理解后续所有深度学习的基础。 线性模型可以看做是单层神经网络。 上述有个0.5是在求导的时候可以很方便的将2消去。 实际上&#xff0c;这里的数据样本受限很大&#xff0c;比如地球上房子就那么多&#xff0c;肯…