python爬虫学习日志 爬取静态网页数据

第一次写博客,想要记录学习python爬虫的过程,如有不当地方请指出,谢谢。

什么是静态网页


静态网页的定义是这样的:
指在服务器上保存成HTML文档的网页,它的内容不会随着用户的操作而发生变化,只能通过修改网页源代码来进行更新。静态网页通常是由HTML、CSS和JavaScript等静态文件组成,访问速度较快,但交互性和动态性较差。

简单来说,静态网页的内容只能通过修改网页源代码来更新,用户的操作不会影响静态网页的变化。

如果我们想要爬取静态网页的数据,先向它发送网络请求获得返回的数据,再通过解析,定位目标数据的位置,最后根据相应方法提取出来就可以了。

爬取微博热搜榜


这里我们以爬取微博热搜榜为例。
在这里插入图片描述
我们需要获得热搜榜上的关键词以及每个关键词对应的排名。首先我们需要复制该页面的网址,同时为了能让我们的爬虫访问网页更加像人的操作,我们还需要得到我们所用的浏览器的headers请求头中的User-Agent和Cookies。查看方式可以在网页中单击鼠标右键——审查元素——刷新网页——网络——文档。如下图所示,此处以360浏览器示例,这里按上述操作后可以看见左边区域有个summary文件,点击可以查看到Cookies以及User-Agent。
在这里插入图片描述
之后,用变量保存网址以及Cookies和User-Agent。

url = 'https://s.weibo.com/top/summary' // 保存网址// 用字典保存请求头信息
headers = {'user-agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36 QIHU 360SE','cookie':'此处写上自己的cookies值'
}

准备工作做好了之后就可以开始爬取数据了。首先我们需要向网页发送请求,这里我使用的是requests模块。
发送请求之后网页会返回给我们网页的数据,此时我们需要解析这些数据,之后需要定位我们需要的信息的位置。定位的操作方法是右键目标信息,点击审查元素。
在这里插入图片描述
可以看到每个tbody标签下的td标签里都有一个a标签,而a标签里就存放着关键词的文本数据。因此我们只需要定位到这个a标签,并获得它的文本数据就能获得到我们需要的关键词了。
然后,就可以编写我们的爬虫程序了。

import requests  // 导入requests模块(需要提前下载)
from lxml import etree  // 从etree库中导入lxml包,用于标签定位// 首先把之前保存的url和headers信息复制过来
url = 'https://s.weibo.com/top/summary'
headers = {'user-agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36 QIHU 360SE','cookie':'此处写上自己的cookies值'
}// 向网页发送请求,并用变量response接收返回的数据
response = requests.get(url, headers=headers)// 将返回的数据使用.text方法转化为文本,再由etree.HTML()方法将其转变成XML元素对象类型,用变量e保存,用于后续的定位
e = etree.HTML(response.text)// 利用xpath表达式定位数据,双斜杠是XPath表达式中的简写语法,表示选择当前节点下的所有子孙节点,text()表示获得当前标签下的文本数据,返回的结果用result_list接收,内容是一个列表
result_list = e.xpath('//td/a/text()')// 遍历列表取出数据,并输出及其下标
for index, result in enumerate(result_list):print(index, result)

运行结果如下

0 看中国经济活力与机遇
1 你懒 就没有作品
2 乌合麒麟 丛林之隙
3 国家网信办介绍2023年清朗行动有关情况
4 免费坐高铁
5 ChatGPT替代不了水瓶射手双子
6 适合30岁以上的工作找到了
7 阿黛尔无限期中止职业生涯
8 苏醒加盟跑男
9 权志龙将3个月内回归
10 全面清理虚构摆拍导向不良的短视频
11 揭开上海杀妻藏尸案背后不为人知的事
12 iPhone13成2022年中国最畅销手机
13 中国便秘日
14 什么是巧克力囊肿
15 微博之夜女星妆造揭秘
16 瑞幸被吐槽咖啡3口喝完剩下全是冰
17 TVB艺人为直播集体苦练普通话
18 刘亦菲拍照好喜欢叉腰
19 张静初被美国电影学院导演系录取
20 长月烬明
21 中国哪个小县城名字最好听
22 女生同情老人买5西瓜切开发现全坏
23 杨颖数字高定
24 杨紫的社交圈好广
25 被杜华杨天真通讯录人数吓到
26 顾客疑因不满发型被理发师杀害
27 吴磊的肱二头肌
28 社会的边角料 妈妈的小骄傲
29 真正不想上班的原因是什么
30 一文速览2023清朗行动发布会要点
31 网传乘风破浪4初舞台歌单
32 70.8%上海人只希望有一个孩子
33 狗狗的想法
34 流浪地球2将在韩国上映
35 四六级
36 女子地铁照被AI一键脱衣传播
37 iPhone折旧率仅为安卓一半
38 4岁男童患罕见病体重仅有8.8斤
39 爱情而已
40 这婚礼算是相当炸裂了
41 防止泄露未成年人隐私的欺凌视频传播
42 BLACKPINK或将出席白宫晚宴
43 没想到栏杆是用来防明星的
44 大侦探蓝色大海的传说剧照
45 蔡徐坤走路好男模
46 西湖摇橹船的意境感绝了
47 马丽乔杉四搭
48 迪丽热巴工作花絮
49 去学生宿舍上厕所的猫咪
50 厦门人到底有多爱芋泥

这样,一个简单的爬虫程序就完成了。

总结


对于写好一个爬虫,了解并理解相应的流程是必需的,对于一个没有什么反爬机制的网页,我们只需要按照明确需求——分析网站结构——发送请求——解析网页——存储数据,这个顺序来编写我们的代码,再选择相应的方法就可以很好的完成我们的爬虫程序了。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/12177.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

AI很渴:chatGPT交流一次=喝掉一瓶水,GPT3训练=填满核反应堆

流行的大型语言模型(LLM),如OpenAI的ChatGPT和Google的Bard,耗能巨大,需要庞大的服务器农场提供足够的数据来训练这些强大的程序。对这些数据中心进行冷却也使得AI聊天机器人对水的需求量极大。新的研究表明&#xff0…

chatgpt赋能python:简单好玩的Python程序——让你爱上编程

简单好玩的Python程序——让你爱上编程 Python语言在最近的几年迅速崛起成为最流行的编程语言之一。它的语法简单易懂,代码可读性强,是初学者学习编程的极佳选择。今天我想分享一些简单好玩的Python程序,让你体验Python编程的乐趣。 代码让…

人工智能AI大战:BARD、ChatGPT、Bing和文心一言谁更具有优势?

首先在开始对比之前我首先要吐槽,不管是bard还是百度的AI现在都得等待候补,也就是排队,所以目前只能无限期等待下去,但是第一批用户已经在查通过平台上遨游了好几个月了,从商业的角度来看,几个月或许不长&a…

学习.NET MAUI Blazor(七)、实现一个真正的ChatGPT聊天应用

今天在新闻上看到一条消息,OpenAI已经开放了ChatGPT的接口,也就是GPT-3.5,对比原来的GPT-3,增加了gpt-3.5-turbo、gpt-3.5-turbo-0301两个模型。 gpt-3.5-turbo:使用最新的GPT-3.5模型,并针对聊天进行了优…

ChatGPT调研报告:发展到今天这一步,哪个职业最慌?

ChatGPT的流行,让AIGC受到了空前的关注。 AIGC,即 AI Generated Content,是指利用人工智能技术来生成内容,比如AI写作、AI绘画、AI编程、AI语音合成等。 就在3月29日,一封来自美国研究机构Future of Life Institute的公…

实际体验文心一言 VS ChatGPT

一直在关注ChatGPT与百度的文心一言,文心一言的发布会完成后,第一时间申请了体验资格,不得不说,百度的效率还是非常高的。没几个小时就给了邀请码了! 为了体验文心一言与ChatGPT的能力,我从几个方面进行了比…

chatgpt赋能python:如何加速手写卷积操作-Python篇

如何加速手写卷积操作 - Python篇 卷积操作是深度学习领域中常用的操作之一。在Python中,可以使用各种库来实现卷积操作。然而,手写卷积操作可能是更高效的解决方案。在本篇文章中,我们将介绍如何通过优化手写代码来加速卷积操作。 为什么手…

华为版ChatGPT正在路上:预计7月发布,命名“盘古Chat”

据消息称,华为将在7月7日举行的HDC.Cloud 2023开发者大会上,推出一款全新的人工智能产品——盘古Chat,这是一款与ChatGPT相媲美的多模态千亿级大模型,可以实现自然语言理解、对话生成、图像识别等功能。 据了解,盘古Ch…

上海车展,没有争奇斗艳的车模,只有往死里卷的智能汽车

文|光锥智能,作者|王一粟、周文斌 “车在变,产业链在重构。” 岚图CEO卢放的这一语,戳中了车企们近年来最深刻的体验。 在2023年的上海车展,等着介绍自家油泵、轴承的传统汽车供应商们,面前却…

AI 诈骗--有人10分钟被骗430万,你真的被AI打败了吗

1、科技公司老板 10分钟被骗430万 5月22日,一起利用人工智能(AI)实施电信诈骗(10分钟被骗430万)的典型案例冲上热搜,引发关注。会不会有人有疑惑是不是被骗的人傻,其实不然,可以看详…

在航天院做软件开发,月薪税前2W

本文转自公子龙龙龙 航天院所和互联网相比薪资如何?两者各有什么优劣? 从今年的找工作薪资爆料上看,大概在税前 2W 的水平。 分享一位答主朋友,在航天院的工作感受。 希望对于同样有过纠结的小伙伴,有所帮助~ 作者&…

李彦宏:文心一言对标ChatGPT门槛很高,希望所有人从中受益

3月16日下午,百度于北京总部召开新闻发布会,主题围绕新一代大语言模型、生成式AI产品文心一言。百度创始人、董事长兼首席执行官李彦宏出席及百度首席技术官王海峰出席,并展示了文心一言在文学创作、商业文案创作、数理推算、中文理解、多模态…

月薪15000,在大西安的生活现状。

看到我前同事写的一个帖子,挺有感触的。 文中说到的“偶尔和邻居同事聚一下,花个200-300”中的同事,波哥就是其中之一。 当年,我和作者曾在一个项目组共事,一起去公司食堂吃午饭,下午工作累了会一起在园区散…

35岁定律到了网络安全行业居然失效了?

前言 对于一个工作快10年的人来说,我觉得我有一定的思考沉淀来回答这个问题。这里先说一下我的一些经历吧: 普通一本毕业,专业是自动化,大学由于挂科太多没拿到学位证到上海找实习,一开始做的是开发,从14…

5月琐碎但值得的事情

转眼间时间就来到了6月份,又该写5月的思考总结了,依然记录一些5月份发生的小事或者收获, 这些内容本意给我记录生活的,如果对你有一些帮助就更好了。 往期: 1月的碎碎念,但是很有必要 二月的一些琐事&#…

LangChain与大型语言模型(LLMs)应用基础教程:Prompt模板

大型语言模型 (LLM) 正在成为一种变革性技术,使开发人员能够构建他们以前无法构建的应用程序。 但是单独使用这些 LLM 往往不足以创建一个真正强大的应用程序,只有当LLM与其它各种资源介质如数据库,文档,知识库,pdf电子书等相结合…

ChatGPT相关指令使用大全之二

小编接上一篇文章继续为大家说明 8.英语学习 1)背单字法宝 用中文/英文解释以下英文单字:填入一个或多个单字。请用表格的方式呈现,并且表格内须包含单字、词性、解释与例句。 例:用中文解释以下英文单字:apple, orange, doct…

架构简析| 一种Generative Agents

Generative Agents 架构简析 斯坦福《Generative Agents: Interactive Simulacra of Human Behavior》论文解读。 demo地址 论文原文地址 agent架构: Agent记忆的的核心挑战是确保在需要时检索和合成agent内存中最相关的部分。 我们的体系结构的中心是内存流&…

广州蓝景—结合chatGPT下的教育模式变化

最近爆火的人工智能AI聊天工具ChatGPT,不仅在互联网,更是在各行各业中,得到了广泛的传播,应该没有哪一个不知道它的存在,但其实你又是否知道,其实ChatGPT是一类模型的统称,随着人工智能的快速发…

2023 全新 ChatGPT余额查询网页源码

实测可用,界面轻量级,接口已配置,直接用就可以了 2023 全新 ChatGPT余额查询网页源码。。。。。。。。。。。。。