网易云音乐一直是一个非常棒的听歌平台,尤其是推荐算法,我个人觉得是比某Q音乐更得人心,一直以来都用的都是网易云来听歌。
今天我就来教大家一个爬取网易云任意歌曲的评论并生成特殊词图的方法,对爬虫感兴趣的小伙伴们可以去试试练手,掌握方法之后,想爬什么歌都可以。
一、效果
我们先来看看效果最终的词图效果,以任然的《无人之岛》为例,虽然是3年前的歌曲了,但是依然有很多听众喜欢这首歌,至今已有25万多条评论。
我们来看看这25万多人在听这首歌的时候都在说些什么,看看评论爬取出来的效果图:
二、用到的技术
这个技术难度并不大,主要用到了selenium和几个第三方库就可以实现,先给大家做个简单的技术阐述。
1.无头浏览器selenium
Selenium是一个用于Web应用程序测试的工具,Selenium测试直接运行在浏览器中,就像真正的用户在操作一样,不会被要爬的网站产生怀疑。
2.selenium的优势
自动渲染所有响应内容,可以直接绕过js加密的操作,只要是展示在浏览器上看的数据,都可以使用无头浏览器获取,几乎可以达成可见即可爬。
3.使用到的第三方库
jieba库、wordcloud库、MySQLdb、numpy库。
三、源码分析
1.爬取评论进库部分。
2.进行效果图展示可视化。
如果需要源码的话,可以在下方评论区留言“网易云”3个字,然后私聊我,我给你发源码,或者在我技术交流群里找我助手就可以了。
四、爬取任意歌曲评论
掌握这个方法之后,我们不仅仅可以爬任然的《无人之岛》,还可以爬其他的歌曲,方法都是如出一辙,通过这几步就能完成。
1.请求的url
首先,我们代码里面有一条请求网址的url,也就是地址栏的那一串地址,需要声明一点,仅限网页版的网易云音乐官网的歌曲。示例图如下:
2.需要爬取的评论
如果还需要可视化的话,照着上面的方法进行操作就可以了。
感谢你们的阅读和喜欢,我收藏了很多技术干货,可以共享给喜欢我文章的朋友们,如果你肯花时间沉下心去学习,它们一定能帮到你,干货内容包括:
点击文末的名片可以抱走