用python爬取音乐APP歌单

这篇文章,我们就来讲讲怎样爬取歌单,并且播放量从高到低排列,下面是爬取结果

一 核心代码如下

 1.需要导入的包有

from urllib import parse
from lxml import etree
from urllib3 import disable_warnings
import requests

2.设置请求头部信息,获取header

self.header = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:109.0) Gecko/20100101 Firefox/112.0","Referer": "https://music.163.com/","Upgrade-Insecure-Requests": '1',}

3.设置请求表格信息

    def set_froms(self):self.key = parse.quote(self.types)self.froms = {"cat": self.key,"order": self.years,"limit": self.limit,"offset": self.offset,}return self.froms

4.解析代码,获取有用的数据

    def parsing_codes(self):page = etree.HTML(self.code)# 标题self.title = page.xpath('//div[@class="u-cover u-cover-1"]/a[@title]/@title')# 作者self.author = page.xpath('//p/a[@class="nm nm-icn f-thide s-fc3"]/text()')# 阅读量self.listen = page.xpath('//span[@class="nb"]/text()')# 歌单链接self.link = page.xpath('//div[@class="u-cover u-cover-1"]/a[@href]/@href')# 打印看看for i in zip(self.title, self.link, self.author, self.listen):print("[歌单名称]:{}\n[发布作者]:{}\n[总播放量]:{}\n[歌单链接]:{}\n".format(i[0],i[2],i[3],"https://music.163.com/"+i[1]))print('第{}页'.format(self.pages).center(50,'='))

二 完整代码


from urllib import parse
from lxml import etree
from urllib3 import disable_warnings
import requestsclass Wangyiyun(object):def __init__(self, **kwargs):# 歌单的歌曲风格self.types = kwargs['types']# 歌单的发布类型self.years = kwargs['years']# 这是当前爬取的页数self.pages = pages# 这是请求的url参数(页数)self.limit = 35self.offset = 35 * self.pages - self.limit# 这是请求的urlself.url = "https://music.163.com/discover/playlist/?"# 设置请求头部信息(可扩展:不同的User - Agent)def set_header(self):self.header = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:109.0) Gecko/20100101 Firefox/112.0","Referer": "https://music.163.com/","Upgrade-Insecure-Requests": '1',}return self.header# 设置请求表格信息def set_froms(self):self.key = parse.quote(self.types)self.froms = {"cat": self.key,"order": self.years,"limit": self.limit,"offset": self.offset,}return self.froms# 解析代码,获取有用的数据def parsing_codes(self):page = etree.HTML(self.code)# 标题self.title = page.xpath('//div[@class="u-cover u-cover-1"]/a[@title]/@title')# 作者self.author = page.xpath('//p/a[@class="nm nm-icn f-thide s-fc3"]/text()')# 阅读量self.listen = page.xpath('//span[@class="nb"]/text()')# 歌单链接self.link = page.xpath('//div[@class="u-cover u-cover-1"]/a[@href]/@href')# 打印看看for i in zip(self.title, self.link, self.author, self.listen):print("[歌单名称]:{}\n[发布作者]:{}\n[总播放量]:{}\n[歌单链接]:{}\n".format(i[0],i[2],i[3],"https://music.163.com/"+i[1]))print('第{}页'.format(self.pages).center(50,'='))# 获取网页源代码def get_code(self):disable_warnings()self.froms['cat']=self.typesdisable_warnings()self.new_url = self.url+parse.urlencode(self.froms)self.code = requests.get(url = self.new_url,headers = self.header,data = self.froms,verify = False,).text# 爬取多页时刷新offsetdef multi(self ,page):self.offset = self.limit * page - self.limitif __name__ == '__main__':# 歌单的歌曲风格types = "说唱"# 歌单的发布类型:最热=hot,最新=newyears = "hot"# 指定爬取的页数pages = 3# 例子:通过pages变量爬取指定页面(多页)music = Wangyiyun(types = types,years = years,)for i in range(pages):page = i+1              # 因为没有第0页music.multi(page)       # 爬取多页时指定,传入当前页数,刷新offsetmusic.set_header()      # 调用头部方法,构造请求头信息music.set_froms()       # 调用froms方法,构造froms信息music.get_code()        # 获取当前页面的源码music.parsing_codes()   # 处理源码,获取指定数据

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/24858.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

这几款音乐人必备的软件,你了解吗?

近几年随着各种关于音乐的综艺节目和自媒体盛行,音乐变得更加贴近民众。除了歌手以外的,音乐生产工作中的其他角色,例如编曲师、混音师、母带师等也渐渐走进大众的视野。 EarMaster:souurl.cn/b6rSSt Guitar Pro:sou…

某某星图sign参数解密分析

​ 大家好,我是TheWeiJun,欢迎来到我的公众号。今天给大家带来星图sign参数的解密分析,希望大家能够喜欢。如果你觉得我的文章内容有用,记得点赞👍🏻关注! 特别声明:本公众号文章…

苹果发布黄色版 iPhone 14,定价 5999 元起;大神李沐被曝离职投身大模型创业;Atlassian 裁员 |极客头条

「极客头条」—— 技术人员的新闻圈! CSDN 的读者朋友们早上好哇,「极客头条」来啦,快来看今天都有哪些值得我们技术人关注的重要新闻吧。 整理 | 梦依丹 出品 | CSDN(ID:CSDNnews) 一分钟速览新闻点&…

神经网络中的损失函数

在《神经网络中常见的激活函数》一文中对激活函数进行了回顾,下图是激活函数的一个子集—— 而在神经网络领域中的另一类重要的函数就是损失函数,那么,什么是损失函数呢? 损失函数是将随机事件或其有关随机变量的取值映射为非负实…

Sam Altman 最新访谈:谈谈 AI 的未来,还有中国 AI 发展现状

Sam Altman最新访谈:这次他更结构化地谈了AI的未来,还有中国AI现状 目录 Sam Altman最新访谈:这次他更结构化地谈了AI的未来,还有中国AI现状 划重点:

苹果发布黄色版 iPhone 14,定价 5999 元起;大神李沐被曝离职投身大模型创业;Atlassian 裁员 |极客头条...

「极客头条」—— 技术人员的新闻圈! CSDN 的读者朋友们早上好哇,「极客头条」来啦,快来看今天都有哪些值得我们技术人关注的重要新闻吧。 整理 | 梦依丹 出品 | CSDN(ID:CSDNnews) 一分钟速览新闻点&#…

正在改变一切的Ai聊天机器人

ChatGPT通过Al生成的内容让我们眼花缭乱,从一个聊天机器人转化成推动一个创新时代的技术,但,也并非人人都知道,那么,你知道Chatgpt到底是什么吗? 文章目录 前言一、什么是Chatgpt?二、如何使用C…

人工智能、机器学习、深度学习、神经网络概念说明

目录 1.机器学习的范围2.机器学习的方法2.1回归算法2.2神经网络2.3 SVM(支持向量机)2.4聚类算法2.5降维算法2.6推荐算法2.7总结 3 机器学习的分类3.1 监督学习3.2 无监督学习3.3 强化学习 4 机器学习模型的评估5 机器学习的应用 6 机器学习的子类--深度学…

chatgpt赋能python:处理超大文本文件的Python技巧

处理超大文本文件的Python技巧 在今天互联网时代,我们每天都会处理大量的数据。有些数据集非常庞大,可能包含数百万行甚至数十亿行。其中最常见的就是文本文件。如何在Python中高效地处理超大文本文件呢?在本文中,我们将提供一些…

chatgpt赋能python:Python文本段落提取:优化文章阅读体验

Python文本段落提取:优化文章阅读体验 在阅读长篇文章时,我们往往需要快速地找到自己感兴趣的内容,这就需要滚动查找。但是如果一篇文章没有明确的章节分析和标记,那么这个查找过程就会变得非常麻烦。因此,一些文本段…

chatgpt赋能python:Python文本纠错:改善你的SEO和文字质量

Python文本纠错:改善你的SEO和文字质量 作为一名有10年Python编程经验的工程师,无论是对于数据分析还是自然语言处理,我都有自己独特的编程技巧和工具。在这篇文章里,我将和大家分享使用Python进行文本纠错,从而改善你…

机器学习面试手册.PDF

点击上方“AI遇见机器学习”,选择“星标”公众号 第一时间获取价值内容 分享《机器学习面试手册》 ,文末提供 高清PDF下载方式。 内容概览 Preparing for Coding Interviews Imbalanced Data in Classification Bayes Theorem and Classifier Convolutio…

最难毕业季,会Python简直可以开挂!

上半年,“史上最多毕业生1076万”冲上热搜,阅读量达4.6亿次,众多应届大学生感叹想要成为打工人竟如此艰难! 不仅如此,前几天上线的《怎么办,脱口秀大会》中,知名辩手、武汉大学新闻与传播学院讲…

Midjourney入门指南:简单提示词,搞定高质量应用设计

Midjourney是一款文本到图像的AI工具,可以根据纯文本描述生成图片,例如UI屏幕、应用程序图标、产品图片、标志和吉祥物等。虽然它不能替代UI设计师,但它可以在产品设计和视觉探索的早期阶段成为有帮助的工具。要使用Midjourney,您…

Google公布2022年度最热门Chrome扩展

Google 从去年开始一直在大力推行 Manifest V3 扩展,虽然遭到了不少外部阻力,但这并没有影响 Chrome 扩展程序生态的繁荣。那么在过去一年,有哪些扩展脱颖而出,获得了 Google 和用户的青睐呢?日前,Google 就…

《写给Python程序员的GPT指南》.pdf

点击上方“Python与机器智能”,选择“星标”公众号 第一时间获取价值内容 分享新书:《写给Python程序员的GPT指南》 ,文末提供高清PDF下载! 通过学习,可灵活使用OpenAI GPT-3、GPT-4、DALLE 2等模型开发AI应用&#xf…

【壁纸】(可商用) 70枚壁纸高清免费

小样上有分辨率尺寸,可以参考,欢迎下载。 查看付费内容 文字20个图片6张 评论推荐Ta

应届生求职简历HTML模板

优秀的简历需要具备哪些要素?1、逻辑清晰、有条有理。HR面临的动辄几百上千份简历,简历需要在5秒内让HR能够get到所有重要信息。2、重点突出,简历有亮点用成绩说话!奖学金,荣誉奖项等内容必不可少。3、目标明确&#x…

word论文公式编号排版

中文论文公式一般需要添加序号,并且保持公式居中,序号右对齐的排版格式。这里记录一下使用word排版公式的方法。 排版主要使用制表位的方法,就是将word中一行分割成三个部分。主要分为三个步骤: 1.编写公式及编号 公式编写就是采…

ipad怎么阅读html文件,iPad浏览器怎么开阅读模式

在iPhone、iPad等中,Safari是浏览器是iOS自带的一款优秀浏览器,相比什么UC、QQ浏览器等体验更为出色,正是因为如此,果粉们基本很少使用第三方浏览器。今天,小编主要分享一个Safari浏览器小技巧,教大家Safar…