周杰伦新歌发布,爬取《Mojito》MV弹幕,看看粉丝们都说的些啥!

6月12日凌晨0点,Jay Chou最新单曲《Mojito》正式上线,仅上线1小时销售量就超过百万张,预计今天这首单曲的销量仍然会继续攀升。这次新歌的歌名叫做《Mojito》,翻译成中文是莫吉托,一种巴西鸡尾酒,怪不得观看这首歌MV的时候,感受到一股很浓烈的异域风情呢。
在这里插入图片描述
杰伦的上一首单曲《说好不哭》是在2019.9发布的,这首歌是与老搭档方文山搭档的歌曲,当时这首歌在QQ音乐上的销量超过了1500万张,创造历史新高。而新歌《Mojito》则是与另外一位搭档黄俊郎合作的单曲,相信这首歌肯定也会有不错的销量。

好了回归到正题,既然这首歌大家反应这么大,那么大家都是怎么评论这首歌曲的呢?我们爬取了B站上面的弹幕数据,看看粉丝们都说了什么。

1.B站弹幕的爬取

B站的网页确实变化的很快,我还记得5月份的时候,弹幕的接口数据还找得到。然而今天我找了好久都没有找到,难道是今天的状态不行?没关系,在网页中虽然没找的这个弹幕数据的接口,但是我们之前找到了,我们直接拿过来用就好了。

爬取B站弹幕数据的API:https://api.bilibili.com/x/v1/dm/list.so?oid=XXX

从上述网址中我们看到了一个叫做oid的东西,后面是一串数字,不同的网页有着不同的数字串,因此我这里用“XXX”代替了。我们现在就要思考的是,这个oid我们应该怎么获取呢?不要着急下面带大家一步步查找。

我们要想知道这个oid是什么,首先要获取到cid。弹幕数据的接口我们虽然找不到,但是目录页接口还是可以找到的,网址如下。通过这个网址我们可以获取到我们要的那个cidcid这个键对应的值,就是我们要的oid数字串。
https://api.bilibili.com/x/player/pagelist?bvid=BV1PK4y1b7dt&jsonp=jsonp
在这里插入图片描述
注意:由于这个MV只有一个完整的视频,所以这里只有一个cid,如果一个视频是分不同小结发布的,这里就会有多个cid,不同的cid代表不同的视频。

我们将上面接口的url地址和拿到的oid数字串进行拼接,就可以得到这首MV弹幕的真正地址啦,现在把地址提供给大家。我们只需要请求这个网址,解析网页后就可以获取我们想要的数据啦。
https://api.bilibili.com/x/v1/dm/list.so?oid=201056987
在这里插入图片描述

这里还有最后一点需要提醒大家的。观察目录页的那个接口(网址如下),里面有一串字符串BV1PK4y1b7dt,我们先不管这个参数是什么,我们只关心这个字符串从哪里来的呢?
https://api.bilibili.com/x/player/pagelist?bvid=BV1PK4y1b7dt&jsonp=jsonp

最后我们观察这首MV的原始网址(网址如下),原来这个字符串就在这首MV的原始网址中。好了,说到这里,我就将B站弹幕数据爬取的一些参数的来龙去脉,给大家讲清楚了,下面我们开始代码部分吧。
https://www.bilibili.com/video/BV1PK4y1b7dt?t=1

代码如下:

import requests
import json
import chardet
import re
from pprint import pprint
# 1.根据bvid请求得到cid
def get_cid():url = 'https://api.bilibili.com/x/player/pagelist?bvid=BV1PK4y1b7dt&jsonp=jsonp'res = requests.get(url).textjson_dict = json.loads(res)#pprint(json_dict)return json_dict["data"][0]["cid"]# 2.根据cid请求弹幕,解析弹幕得到最终的数据
"""
注意:哔哩哔哩的网页现在已经换了,那个list.so接口已经找不到,但是我们现在记住这个接口就行了。
"""
def get_data(cid):final_url = "https://api.bilibili.com/x/v1/dm/list.so?oid=" + str(cid)final_res = requests.get(final_url)final_res.encoding = chardet.detect(final_res.content)['encoding']final_res = final_res.textpattern = re.compile('<d.*?>(.*?)</d>')data = pattern.findall(final_res)#pprint(final_res)return data# 3.保存弹幕列表
def save_to_file(data):with open("dan_mu.txt", mode="w", encoding="utf-8") as f:for i in data:f.write(i)f.write("\n")cid = get_cid()
data = get_data(cid)
save_to_file(data)

结果如下:
在这里插入图片描述

2.词云图的制作

# 1 导入相关库
import pandas as pd
import jieba
from wordcloud import WordCloud
import matplotlib.pyplot as plt
from imageio import imreadimport warnings
warnings.filterwarnings("ignore")# 2 读取文本文件,并使用lcut()方法进行分词
with open("dan_mu.txt",encoding="utf-8") as f:txt = f.read()
txt = txt.split()
data_cut = [jieba.lcut(x) for x in txt]
data_cut
# 3 读取停用词
with open(r"G:\6Tipdm\wordcloud\data\stoplist.txt",encoding="utf-8") as f:stop = f.read()
stop = stop.split()
stop = [" ","道","说道","说"] + stop
# 4 去掉停用词之后的最终词
s_data_cut = pd.Series(data_cut)
all_words_after = s_data_cut.apply(lambda x:[i for i in x if i not in stop])
# 5 词频统计
all_words = []
for i in all_words_after:all_words.extend(i)
word_count = pd.Series(all_words).value_counts()
# 6 词云图的绘制
# 1)读取背景图片
back_picture = imread(r"G:\6Tipdm\wordcloud\jay1.jpg")# 2)设置词云参数
wc = WordCloud(font_path="G:\\6Tipdm\\wordcloud\\simhei.ttf",background_color="white",max_words=2000,mask=back_picture,max_font_size=200,random_state=42)
wc2 = wc.fit_words(word_count)# 3)绘制词云图
plt.figure(figsize=(16,8))
plt.imshow(wc2)
plt.axis("off")
plt.show()
wc.to_file("ciyun.png")

结果如下:
在这里插入图片描述
从词云图可以看到,整个弹幕屏幕都是表达了粉丝对于《Mojito》这首歌的热爱,可能有些词语显得有些莫名其妙,像震动手机等词语,但是看过MV的人都知道确实都是赞美之词。

首先,啊啊啊这个感叹词出现的次数是最多的,难道大家是刚刚听到这首歌,惊喜之情无法用言语来表达?只好借用这样的感叹词来表达自己内心的激动?这可不是我的风格,我要是喜欢就会用直白的话表达出来。

其次,手机震动这样的词出现的也很多。我刚刚看到这样的词语时候,我很莫名其妙。一首新歌MV和手机震动有啥关系呢?这原来是一个梗,恕我当时也没怎么关注,含义就是:周杰伦新歌销量太好,网友调侃便说结论手机一直在震动。如果你也不知道这是一个什么梗,提供一个网址给大家了解一下。
https://www.ixiumei.com/a/20190917/364084.shtml

我们还可以注意到,有一个词的频率出现次数也是很高的,那就是爷青回。哈哈,刚刚看到这个词语的人肯定是很懵逼的,这是什么意思呢?其实就是爷的青春回来了的意思。不得不说周杰伦的歌确实影响了我们这一代人,新歌一发布,不少人感叹:杰伦,回不去了吗?虽然我们的年纪在慢慢长大,但是我们却始终习惯停留在青春的状态。

当然像好听亿遍这样的词语大家也都知道是什么意思,我也就不详细说明了,总的来说从整个词云图来看,基本上是0差评。《Mojito》整首歌给我的感觉就是节奏欢快周杰伦虽然成了无数人的青春,不少人也是感叹青春回不去了吗?但是在这个炎炎夏日聆听这首欢快的歌曲,也是及其不错的

  
  

   

关注微信公众号『数据分析与统计学之美』,后台回复“code”自动获取本文完整数据和代码。

好文一定要 点再看 和朋友一起分享!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/57160.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

如何免费在线听周杰伦的歌曲

我平常用网易云来听音乐 http://music.163.com/ &#xff0c;网易云除了歌好听&#xff0c;评论更有故事。 之前已经写过网易云音乐了&#xff0c;有兴趣看看之前的文章那些你可能不知道的网易云音乐奇技淫巧 可惜周杰伦的大部分歌曲网易没有版权&#xff0c;还好我保存了一份…

周杰伦新歌《说好不哭》上线,程序员哭了......【华为云分享】

前些天&#xff0c;场主的朋友圈被一首歌刷屏了。 数据有多牛逼&#xff1f;除了揽获各大新闻头条&#xff0c;新歌发售3小时&#xff0c;数字专辑就在QQ音乐卖了360万张。以单价3元计算&#xff0c;一首《说好不哭》已狂揽千万&#xff0c;无人匹敌。 结果因为访问量太大&…

独家 | AI聊天机器人成为安全灾难的三种形式(附链接)

作者&#xff1a;Melissa Heikkil 翻译&#xff1a;李洪君 校对&#xff1a;zrx本文约1000字&#xff0c;建议阅读8分钟本文介绍了AI聊天机器人在当下被恶意行为者用来破解、辅助网络诈骗和数据污染的三种影响网络安全的形式。 现在&#xff0c;AI语言模型是技术领域最炙手可热…

不要让GPT成为你通向“学业作弊”的捷径——使用GPT检测工具来帮助你保持正确的方向

不要让GPT成为你通向“学业作弊”的捷径——使用GPT检测工具来帮助你保持正确的方向 最近&#xff0c;多所美国高校以及香港大学等都明确禁止在校使用ChatGPT等智能文本生成工具。GPT&#xff08;Generative Pre-trained Transformer&#xff09;是一种自然语言处理技术&#x…

chatgpt赋能python:Python对接接口:一种高效的数据交互方式

Python对接接口&#xff1a;一种高效的数据交互方式 在现代数字化时代&#xff0c;软件系统之间的信息共享已经成为了一种必不可少的需求。这也就使得各种不同语言和不同框架之间的接口对接成为了程序员们在日常工作中必须掌握的技能之一。Python作为一个简洁高效的编程语言&a…

【古风女孩-InsCode Stable Diffusion 美图活动一期】

介绍 InsCode InsCode是一个集成了在线IDE、在线AI编程、在线算力租赁、在线项目部署以及在线SD 模型使用的综合代码开发平台。不论你是初级软件工程师&#xff0c;还是AI大模型爱好者&#xff0c;InsCode都能帮助你快速编写代码&#xff0c;运行项目。甚至在这里你还可以一键…

云端IDE系列教程:云原生 Terminal 大比拼 (看 ChatGPT 如何选择)

原文作者&#xff1a;行云创新技术总监 邓冰寒 概述 上一期在使用 Ubuntu 20.04 作为基础镜像而定制的 WeTTY 成功的在 TitanIDE 运行起来了 &#xff0c;非常适合程序员使用。能作为云原生 Terminal 的候选项目有 WeTTY、GoTTY、ttyd。接下来&#xff0c;我将在这三者中选择…

如何在知网论文查重

前言&#xff1a;因之前不清楚知网如何查重&#xff0c;被坑了168大洋&#xff0c;愤愤不平&#xff0c;由此记录一下如何论文查重。 希望各位学子不要走我老路&#xff0c;真的一句T M D亏了。 首先先百度搜索&#xff1a;中国知网 或者输入地址&#xff1a;中国知网 在首…

美服lol服务器状态,LOL美服训练模式上线:炮塔可关闭 野区无限刷新

[摘要]目前LOL训练模式已正式在北美服务器测试服上线&#xff0c;关于这一模式&#xff0c;究竟有哪些功能呢&#xff1f;一起来看看吧&#xff01; 训练模式中可以使用什么命令&#xff1f; 个人命令 自动刷新冷却时间 自动刷新HP 自动刷新法力(能量&#xff0c;愤怒等) 添加金…

美服fgo显示服务器异常,FGO日服美服错误代码合集_FGO日服美服错误代码汇总_牛游戏网...

《FGO》日服美服错误代码汇总由牛游戏网小编带来&#xff1a;日服美服错误代码合集&#xff0c;随着美服的开启&#xff0c;也有不少玩家想去美服玩玩了&#xff0c;美服可能碰到的情况给各位在下面列一下&#xff0c;还不是很清楚的玩家们&#xff0c;下面就一起来瞧瞧吧&…

传说对决美服服务器维护,如何进入传说对决美服 | 手游网游页游攻略大全

发布时间&#xff1a;2016-06-29 炉石传说TGT美服传说前十T7猎卡组分享.今天99单机网小编给大家带来炉石传说TGT美服传说前十T7猎卡组分享,希望对大家有所帮助. 卡组 1.叫嚣中士:对于T7猎来说这是一张能给你赚到节奏的好牌.你可以用它解场或者打伤 ... 标签&#xff1a; 游戏资…

美服魔域服务器维护时间表,《指环王OL》美服维护时间推迟 玩家获官方补偿

《指环王OL》最新游戏截图 http://img4.cache.netease.com/photo/0031/2011-09-16/7E3D2QSK3S010031.jpg http://img3.cache.netease.com/photo/0031/2011-09-16/t_7E3D2QSK3S010031.jpg 《指环王OL》最新游戏截图 http://img3.cache.netease.com/photo/0031/2011-09-16/7E3D32…

美服fgo显示服务器异常,FGO美服错误代码合集 FGO美服错误代码解决办法

类型&#xff1a;角色扮演大小&#xff1a;164.0M语言&#xff1a;中文 评分&#xff1a;1.2 标签&#xff1a; 立即下载 FGO美服终于上线&#xff0c;很多玩家进驻FGO美服&#xff0c;不过由于手机和系统的原因&#xff0c;经常遇见FGO美服错误代码&#xff0c;ErrorCodeXX的字…

美服fgo显示服务器异常,FGO日服美服错误解析 日服美服错误代码汇总

FGO在最近开启了美服&#xff0c;美服沿用了日服的版本&#xff0c;因此无论是日服还是美服进度都要比国服快很多&#xff0c;有的玩家想要去美服玩&#xff0c;不过可能会遇到一些错误&#xff0c;今天小编就带来了FGO日服美服错误代码汇总&#xff0c;大家赶紧来看看吧。 日服…

国际服服务器怎么换账号吗,战争雷霆国际服怎么切换账号 | 手游网游页游攻略大全...

发布时间:2016-04-21 战争雷霆国际服回归活动和不删档集结活动可以一起参加吗?活动奖励领取说明.战争雷霆战争小伙伴们可能对于不删档开启之后的活动还不了解,那么就和多游小编一起来看一看吧. 战争雷霆国际服回归活动和不删档集结活动可以一起参加吗 这 ... 标签: 游戏攻略…

美服fgo显示服务器异常,《fgo》美服错误代码合集及解决办法

命运冠位指定fgo美服错误代码合集及解决办法 由于刚开的FGO美服游戏进度与日服一致&#xff0c;所以吸引不少国人前往。但登陆外服总会遇到一些阻挡你游戏的错误代码&#xff0c;下面请小心代码合集&#xff01; 命运冠位指定fgo国服鬼哭醉梦魔京罗生门开启 当你打开日服或美服…

美服无限火力是哪个服务器,为啥无限火力不能永久开放?其实美服曾经开放过,但结果太残酷...

说起LOL中的无限火力这个模式&#xff0c;相信小伙伴们都是很熟悉了吧&#xff0c;这个模式自从上线以来&#xff0c;一直都深受大众的喜欢&#xff0c;也是游戏中热度最高的模式。不得不说&#xff0c;无限火力非常的好玩&#xff0c;毕竟这个模式的英雄都会减免80%的技能CD&a…

美服无限火力是哪个服务器,无限火力再度来袭 美服已经上线国服还会远吗?...

最近美服测试“无限火力”重新开启&#xff0c;预计本月就会正式上线美服正式服&#xff0c;随后也将会在国服正式上线。而且大家千万不要把过年期间限时上线的“无限乱斗”与即将要上线的“无限火力”混在一起&#xff0c;虽然模式的玩法都差不多&#xff0c;但还是存在一些本…

做聊天机器人平台就是赌博

最开始并没有操作系统&#xff0c;软件运行时都是竞争的&#xff1a;直接请求硬件资源&#xff0c;造成竞争。而且多人用一个计算机时&#xff0c;这种情况更容易发生。然后人家开始做操作系统&#xff0c;你觉得不可能&#xff0c;那怎么可能呢。 后来操作系统使用很麻烦&…

企业微信版本更新(4.0.0.6003)

4.0 版本新功能介绍 一、 连接微信&#xff0c;线上、线下全面连接客户 1. 微信客服 - 微信客服是提供给企业的一种全新的、连接客户的能力。 - 企业可在微信内的视频号、公众号、小程序、微信搜索、微信支付凭证&#xff0c;以及微信外的App、网页等多个入口&#xff0c;接…