起点中文网月票榜爬取及数据分析

此文转载自:https://blog.csdn.net/weixin_45036306/article/details/112385445

起点中文网月票榜爬取及数据分析

1. 数据爬取

数据爬取就是通过网络爬虫程序来获取需要的网站上的内容信息,比如文字、视频、图片等数据。网络爬虫(网页蜘蛛)是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。一般是通过网页的url获取网页的源代码中,从源代码中提取需要的信息。

1.1.1 准备

运行cmd命令,通过 pip install +库名 或者pip3 install +库名,安装好需要的库,做好准备后即可开始爬取操作。
需要爬取的网页为 https://www.qidian.com/rank/yuepiao?style=2

1.1.2 网页分析

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

由上图可知,该榜中需要的爬取的有用信息为类名、书名、最新章节、月票数、小说作者、更新的时间、小说简介以及周票数和打赏人数

1.1.3 层次爬取

html=requests.get(url)#爬取月票的html文件html.encoding='UTF-8'#该网页的编码格式为UTF-8doc=BeautifulSoup(html.text,'lxml')#转换为BeautifulSoup对象

排行榜总共有两页,先得到页数,方便后续的访问。先得到前50名上榜书籍,排行榜上能够获取到的信息:

在这里插入图片描述
page=doc.find('div',class_="pagination fr")['data-pagemax']#获取网页最大页码list1=doc.find('table',class_='rank-table-list hot-new').find('tbody').find_all('tr')#找出每款书在该页面的信息块for x in list1:#通过循环对每款书的信息进行提取name=x.find('a',class_='name').text.strip()#取出书名#strip() 方法用于移除字符串头尾指定的字符(默认为空格或换行符)或字符序列。infrom='https:'+x.find('a',class_='name')['href']#规范url格式,方便进行下一步的深度爬取author=x.find('a',class_='author').text.strip()#爬取作者booktype=x.find('a',class_='type').text.strip()#文本分类month=x.find(class_='month').text#月票数量time=x.find(class_='time').text#上传日期new=x.find('a',class_='chapter').text#最新章节名称

然后爬取每本上榜作品的详细信息

html1=requests.get(infrom)#爬取第二层的html文件html1.encoding='UTF-8'#该网页的编码格式为UTF-8doc1=BeautifulSoup(html1.text,'lxml')list1 = doc1.find('div',class_="book-intro")bookIntrodaction = list1.find("p").text.strip()#获取小说简介listt2=doc1.find(class_="fans-interact cf")monthTickets=listt2.find(class_ ='ticket month-ticket').find(class_ = 'num').text#小说月票weekTickets=listt2.find(class_ ='ticket rec-ticket hidden').find(class_ = 'num').text#小说周票people=listt2.find(class_= 'rewardNum').text#小说本周打赏人数 

经过以上操作后前50名的信息就获取成功了!!

1.1.4 数据存储

将爬取到的信息存入到csv文件中,方便后续的可视化分析。

file_exists= os.path.isfile('bookRooking.csv')#判断是否为文件with open('bookRooking.csv','a',encoding='utf-8',newline='') as f: #newline = "" 表示读取的换行符保持不变,原来是啥,读出来还是啥headers=data.keys()#找出data的所有的键w =csv.DictWriter(f,delimiter=',',lineterminator='\n',fieldnames=headers)#创建一个对象if not file_exists :w.writeheader()#第一次写入数据先写入表头w.writerow(data)#单行写入print('当前行写入csv成功!')

此处判断是否为文件,能够有效的防止后面输出的表头不会重复。只有非表头的情况可以写入。

在这里插入图片描述

2. 数据分析及可视化

利用csv文件对每个类型书籍的周票均值、月票均值、总共的打赏值绘制折线图,可以一眼出周票、月票、以及打赏最多的类型的书籍。

plt.rcParams['font.sans-serif'] = ['SimHei'] 
#解决横坐标不能显示中文的况
plt.rcParams['axes.unicode_minus'] = False
#解决横坐标不能显示中文的情况
y1 = data.groupby('类型').sum()['本周打赏人数']
#求和
y2 = data.groupby('类型').mean()['周票']
#求平均值
y3 = data.groupby('类型').mean()['月票']
#求平均值
x=list(dict(y1).keys())
#横坐标值
fig = plt.figure(figsize=(8,6), dpi=100)
#指定画布大小
plt.plot(x,y1,c='red',label='打赏票和')
#指定折线的颜色和标签
plt.plot(x,y2,c='yellow',label='周票均值')
plt.plot(x,y3,c='blue',label='月票均值')
plt.legend(loc='upper left')#标签靠左
plt.title("小说票数折线图")#图名
plt.xlabel('小说类型',fontsize=15)

在这里插入图片描述

由上图可以得知仙侠类型的书籍得到的周票和月票均值是最高的其次是玄幻类型的,且玄幻得到打赏的票数最多,军事类型的书籍较少。
利用柱状图能够的出项成绩的具体数据。
plt.rcParams['figure.figsize']=(8,3)#图形大小
data.groupby(['类型']).mean().plot(kind = 'bar')
plt.xticks(rotation=0)#横坐标的角度
plt.ylabel('总票数',fontsize = 15)#纵坐标名
plt.xlabel('小说类型',fontsize = 15)#横坐标名

在这里插入图片描述

可以看出一周中给出打赏的人占极少数,月票甚至比周榜的人数还少。
通过饼状图可以看清楚在整体中所占的比重。
sizes= []
for booktype in x:#x是上文折线图中横坐标,即小说所有的类型。bookTypeNum=len(data[data['类型']==booktype])#获取各种小说的数量sizes.append(bookTypeNum)
plt.figure(figsize=(20,20)) #调节图形大小
plt.rcParams['font.sans-serif'] = ['SimHei'] 
plt.rcParams['axes.unicode_minus'] = False
plt.pie(sizes,labels=x,#指定显示的标签autopct='%1.1f%%'#数据保留固定小数位
)
plt.axis('equal')# x,y轴刻度设置一致#本文中可以不用
plt.title('小说类型受欢迎的分布图比')
plt.legend(loc='upper left')# 左上角显示

在这里插入图片描述

由此可以玄幻和都市类型的小说是现在网络小说最受欢迎的类型,两种占据了40%的比重。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/6841.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

8篇报告|马斯克称Chat GPT好得惊人

8篇报告|马斯克称Chat GPT好得惊人‼️ 最近,连续刷屏的AI应用ChatGPT火爆全球,成为科技圈第一大热潮。 马斯克在推特上评价 ChatGPT 称:“ChatGPT 好得惊人。我们离强得可怕的 AI 不远了。”比尔盖茨盛赞其影响“不亚于互联网诞…

万字长文解读:从Transformer到ChatGPT,通用人工智能曙光初现

ChatGPT掀起的NLP大语言模型热浪,不仅将各家科技巨头和独角兽们推向风口浪尖,在它背后的神经网络也被纷纷热议。但实际上,除了神经网络之外,知识图谱在AI的发展历程中也被寄予厚望。自然语言处理是如何伴随人工智能各个流派不断发…

ChatGPT 爆火背后的大语言模型到底是什么?

ChatGPT 是一个基于大规模预训练语言模型的自然语言处理技术。大规模预训练语言模型是指利用大量文本语料对神经网络进行预训练,使得神经网络可以学习到语言的各种规律、结构和特征,从而能够实现各种自然语言处理任务。 ChatGPT 是由 OpenAI 团队开发的…

ChatGPT时代,我们可能站到了自然语言编程的大门口

ChatGPT大火,我现在有种感觉:我们可能站到了自然语言编程的门口,一脚下去,也许能把门踹开。 当然,也可能会踢到一块铁板。 回顾我们的编程之路,基本上就是一个编程门槛不断降低的历史。 最早的一批前辈们…

ChatGPT的语言处理功能真有那么强吗?

作为一名语言类专业的学生,听说ChatGPT的语言能力已经超过70~80%的人类,能够与人进行正常对话,那么对它输入一些我们经常分析的歧义句,不知会有何表现。 进入 ChatGPT中文网 网站 朱鸾AI助手 ChatGPT中文网 - ChatGPT国内网页…

斯坦福等学者对ChatGPT做了在NLP几乎所有任务上的优劣势分析

进NLP群—>加入NLP交流群 一句话总结 在NLP的7个代表性任务中的20个流行数据集上系统性的分析ChatGPT的zero-shot学习能力,最终得出ChatGPT在许多有利于推理能力的任务上表现良好(例如,算术推理),而在解决序列标注等…

【关于ChatGPT的30个问题】15、ChatGPT会对自然语言处理和人工智能领域产生什么影响?/ By 禅与计算机程序设计艺术

15、ChatGPT会对自然语言处理和人工智能领域产生什么影响? 目录 15、ChatGPT会对自然语言处理和人工智能领域产生什么影响?

复旦邱锡鹏:深度剖析 ChatGPT 类大语言模型的关键技术

分享嘉宾 | 邱锡鹏 整理 | 禾木木,梦依丹 出品 | CSDN(ID:CSDNnews) ChapGPT 自问世以来,便展现出了令世人惊艳的对话能力。仅用两个月时间,ChatGPT 月活跃用户就达一亿,是史上用户增速最…

【自然语言处理】【ChatGPT系列】ChatGPT的智能来自哪里?

相关博客 【自然语言处理】【大模型】PaLM:基于Pathways的大语言模型 【自然语言处理】【chatGPT系列】大语言模型可以自我改进 【自然语言处理】【ChatGPT系列】WebGPT:基于人类反馈的浏览器辅助问答 【自然语言处理】【ChatGPT系列】FLAN:微…

ChatGPT 类大语言模型为什么会带来“神奇”的涌现能力?

作者 | 张俊林 责编 | 王子彧 出品 | CSDN(ID:CSDNnews) 如今,大语言模型已经彻底改变了自然语言处理 (NLP)的研发现状。众所周知,增加语言模型的规模能够为一系列下游 NLP 任务带来更好的任务效果,当…

抖音seo源码/源代码搭建/源代码部署打包-支持二开

1. 抖音seo源码/源代码搭建/源代码部署打包-支持二开 抖音SEO是指通过提高在抖音平台的关键词排名,来获取流量、获取客户的目的。抖音的流量主要分为付费流量、推荐流量和搜索流量,其中搜索流量因为付费太贵、上热门太累而成为另一种进入方式。与传统搜…

【AI大事件】谷歌AI教父Hinton离职!深探AI风险与挑战,共赴智能科技新征程!

近日,整个科技圈再次惊掉了下巴!深度学习泰斗、神经网络之父、图灵奖得主 Hinton 突然宣布离职谷歌。 Hinton,他可是 AI 的教父啊,而他的学生就是发明了GPT 的首席科学家。 他的这一举动,引发了整个科技行业的关注和讨…

一个人如何做抖音矩阵

随着抖音发展的越来越成熟,不少企业、公司都开始在抖音上发力。但由于人员不够迟迟没有开始布局抖音矩阵,今天小编就来和大家聊一聊一个人怎么做抖音矩阵! 一个人做抖音矩阵其实也非常简单,只需要借助矩阵管理系统即可 很多小伙伴…

好消息,发现一款知网学术不端论文检测查重助手,永久免费分享给大家使用

今天Aliwen要为大家带来一款神器是,知网学术不端论文检测查重助手 v1.5。基本上每个高校都会对学生的毕业论文进行论文查重检测,一方面可以避免论文抄袭,另一方面可以端正同学们的写作态度,让学术氛围更加公正、公平。 点击添加图…

知网查重学术不端文献检测系统查不查公式和图表文字

知网查重学术不端文献检测系统查不查公式和图表文字 记录博文 知网查重学术不端文献检测系统升级到5.3版本 一些说明 查不查公式么? 查。特殊符号转换大多数不出,公式转化率较低,数字可以转化出,文字基本 100 % 转化出。查不查…

免费下论文及查重投稿的10来个方法

目录 免费下载1.超星期刊2.库问搜索3. 全国图书馆参考咨询联盟4.百度学术5.爱学术6.谷歌学术7.OA图书馆8.Idata9.中国国家图书馆10.湖南图书馆——白嫖知网,强烈推荐 免费查重1.百度学术2.超星尔雅3.……待续…… 论文发表 眨眼间就快毕业了,是时候准备写…

20190312 文本查重系统(一)

整体框架部分参照牛客初级项目,python2.7flaskwebmysql; 首先是界面部分(这个部分实在是不大会前端,只能看个简单的效果) 首页:index.html 内容:学生登录和教师登录按钮,text按钮…

Python基于CRNN&CTPN的文本检测系统(源码&教程)

1.背景 文本是人类最伟大和最具影响力的发明之一,是人类智慧的结晶,是人类文化、思想传承的一种基本的表达方式和不可或缺的载体。在21世纪,文本与日常生活密切相关。描述、理解万事万物,表达情感,与他人交流都离不开文本。文本以各种形式存在于生活中,尤其在信息时…

英文论文查重用什么软件比较好?

提起查重,是不是又许多同学已经开始在脑袋大了呀? 确实,我们在进行论文查重的时候既要考虑这个软件靠不靠谱,准不准确,又要考虑哪个软件我们的荷包能够负担的起,还要查询自己选择的软件会不会给我们提供降…

推荐 :数据可视化的方法、工具和应用

1. 数据可视化简介 数据可视化,是指用图形的方式来展现数据,从而更加清晰有效地传递信息,主要方法包括图表类型的选择和图表设计的准则。随着互联网的广泛应用,我们的工作和生活等各个方面,每时每刻都在产生大量的数据…