python爬虫实战零基础(3)——某云音乐

爬取某些云网页音乐,无需app

  • 分析网页
  • 第二种方式
    • 批量爬取

声明:仅供参考学习,参考,若有不足,欢迎指正

你是不是遇到过这种情况,在pc端上音乐无法下载,必须下载客户端才能下载?
那么,爬虫可以解决这个麻烦!继续实战利用request和xpath爬取网上音乐。

本文主要是在网页端下载音乐,如果你有客户端也可以,太高级的笔者也不会。这是一个基础皮毛的练习

分析网页

定位目标网址:(你也可以在浏览器打开某云之后随便进入一个歌单)
https://music.163.com/#/playlist?id=26467411

对于网页上的音乐在进行下载时,经常会弹出提示页面:请前往客户端下载!!!
非常讨厌了也是,好好的下载一首歌曲,非要弄得这么麻烦。甚至,有些音乐在下载了软件后,需要付费或者VIP,万恶的资本家。

本次实战就可以通过简单的爬虫解决以上问题,直接下载歌曲。

  • 首先,检查—> Network —> 刷新
  • 点击 文档(Doc),可以看到它的标头里面的请求网址为:
    https://music.163.com/playlist?id=26467411 这跟最开始是不一样的。

这是因为我们所请求的网址并非是浏览器地址栏上的网址,通过这张截图,很清晰的发现我们所请求的网址是哪个了。

  • 通过对每首歌曲打开,进行网页源代码分析不难发现,本网页的歌曲都有一个共同的特点:即前面的网址为 https://music.163.com/#/song?id= 加每首歌曲的 id 号。
    在这里插入图片描述
    然而,目前为止,我们仅仅是找到了些许规律,并没有找到歌曲的真正链接,要真正下载到每一首歌曲,还遥不可及。

音乐文件一般为mpeg,mp3,mpeg-4,midi,mwa,m4a等

到现在为止还没有请求音乐,当我们在进行点击播放时会发现:
在这里插入图片描述
当我们在进行播放音乐时,请求数量增多,说明该网页又重新进行了对网页的请求。通过重新查找发现(只需查看后面新的内容)这次有了一些 .m4a 文件。

当点击这些文件打开时会发现,有一个新的 Request URL:,当你将该网址复制在新的网页下进行打开,会出现如下图所示(打开时浏览器会自动进行下载该音乐)
在这里插入图片描述

结合上面的情况来说,我们是不是已经成功了呢?但很难过的告诉你,这个网址在短时间内打开,的确会有用,但是,它是有时间限制的,不信的话,你可以过五分钟(或许还不需要这么久)再重新打开该网址,试一下。
所以这种方式行不通,由于是初学者,我们就需要点外援了。

第二种方式

  • 这里介绍一个新的URL:(不要问这个怎么来的)

http://music.163.com/song/media/outer/url?id=

在之前的分析中,我们发现了一个很重要的一点,便是这10首歌曲都是一个网址加每首歌曲的id所在的新页面。

我们有了上面的这个网址,便可以为所欲为了。你现在便可以立马复制上面的链接,在网页上找到一首歌曲的id号添加至网址后面进行打开(如:http://music.163.com/song/media/outer/url?id=36897723),是不是得到了如下的界面:
在这里插入图片描述
通过这个页面就可以直接下载。

批量爬取

首先,每首音乐可以通过这个网址id 进行下载,所以,我们第一步便是想办法获取每首音乐的 id 。根据之前的分析,不难发现,每首音乐的 id 都在一个<a>标签内,我们只要获取这个<a>就可以了。

一步一步来开始写代码

  1. 根据真正的目标网址(注意真正的)获取源码信息
import requests
from lxml import etree# 真实地址在Network--Doc
url = 'https://music.163.com/playlist?id=26467411'# 请求(requests) 图片,视频,音频  content  | 字符串 text
html_str = requests.get(url).text
print(html_str)
print(type(html_str))    # 字符串类型result = etree.HTML(html_str) 
  1. 从源码中用 xpath 找到每首歌的id和name
song_ids = result.xpath('//a[contains(@href,"/song?")]/@href')   # 歌曲id
song_names = result.xpath('//a[contains(@href,"/song?")]/text()')     # 歌名
# print(song_ids)
# print(song_names)     #列表
for song_id,song_name in zip(song_ids,song_names):print(song_id)print(song_name)

整理一下
通过打印发现,前面多了一些 /song?id= ,这时,便使用下面这行代码,进行删减,仔细观察打印结果发现后面多了三个无用的,这三个必须删掉才行,不然在进行后面的 URL 拼接,肯定会报错,因为压根就找不到这样的一个网址。

count_id = song_id.strip('/song?id=')   # 去掉/song?id=# print(count_id)# 过滤含有“$”符号if ('$' in count_id) == False:print(count_id)
  1. 拼接URL后,在浏览器里打开上面的任意链接 song_url,即可获取该音乐的链接,并进行下载。但是,我们最终的目的是让爬虫自动帮我们全部下载并进行保存至文件夹,利用 for 循环就可以啦
song_url = base_url + count_id      # 拼接url
print(song_url)
mp3 = requests.get(song_url).content
# 保存数据
with open('yinyue/{}.mp3'.format(song_name),'wb') as file:file.write(mp3)

如需完整代码,请自行查看。某云音乐爬取

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/106309.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

vue3 pdf、word等文件下载

效果&#xff1a; <div class"byLawBox"><div class"titleBox">规章制度公示</div><div class"contentBox"><TableList:loading"byLawloading"ref"byLawtablistRef":hasImport"false"…

C语言练习3(巩固提升)

C语言练习3 选择题 选择题 前言 奋斗是曲折的&#xff0c;“为有牺牲多壮志&#xff0c;敢教日月换新天”&#xff0c;要奋斗就会有牺牲&#xff0c;我们要始终发扬大无畏精神和无私奉献精神。奋斗者是精神最为富足的人&#xff0c;也是最懂得幸福、最享受幸福的人。正如马克思…

AIGC ChatGPT 制作地图可视化分析

地图可视化分析是一种将数据通过地图的形式进行展示的方法&#xff0c;可以让人们更加直观、快速、准确的理解和分析数据。以下是地图可视化分析的一些主要好处&#xff1a; 加强数据理解&#xff1a;地图可视化可以将抽象的数字转化为直观的图形&#xff0c;帮助我们更好地理解…

C#,《小白学程序》第一课:初识程序

曰&#xff1a;扫地僧练就绝世武功的目的是为了扫地更干净。 1 文本格式 /// <summary> /// 《小白学程序》第一课&#xff1a;初识程序 /// </summary> /// <param name"sender"></param> /// <param name"e"></param&…

怎样做好数字营销呢?

2023 年&#xff0c;数字营销将随着新技术、趋势和消费者行为的不断发展而不断发展。要在 2023 年在数字营销领域取得成功&#xff0c;请考虑以下策略&#xff1a; 1.内容质量和个性化&#xff1a; 专注于制作与目标受众产生共鸣的高质量且相关的内容。 根据用户偏好、行为和…

NFT Insider #104:The Sandbox:全新土地销售活动 Turkishverse 来袭

引言&#xff1a;NFT Insider由NFT收藏组织WHALE Members、BeepCrypto联合出品&#xff0c;浓缩每周NFT新闻&#xff0c;为大家带来关于NFT最全面、最新鲜、最有价值的讯息。每期周报将从NFT市场数据&#xff0c;艺术新闻类&#xff0c;游戏新闻类&#xff0c;虚拟世界类&#…

CSDN编程题-每日一练(2023-08-25)

CSDN编程题-每日一练&#xff08;2023-08-25&#xff09; 一、题目名称&#xff1a;影分身二、题目名称&#xff1a;小鱼的航程(改进版)三、题目名称&#xff1a;排查网络故障 一、题目名称&#xff1a;影分身 时间限制&#xff1a;1000ms内存限制&#xff1a;256M 题目描述&am…

kubernetes--技术文档--可视化管理界面dashboard安装部署

阿丹&#xff1a; 使用官方提供的可视化界面来完成。 Kubernetes Dashboard是Kubernetes集群的Web UI&#xff0c;用户可以通过Dashboard进行管理集群内所有资源对象&#xff0c;例如查看资源对象的运行情况&#xff0c;部署新的资源对象&#xff0c;伸缩Deployment中的Pod数量…

linux篇---使用systemctl start xxx启动自己的程序|开机启动|守护进程

linux篇---使用systemctl start xxx启动自己的程序|开机启动|守护进程 1、创建服务2、修改权限3、启动服务4、测试 机器&#xff1a;Nvidia Jetson Xavier系统&#xff1a;ubuntu 18.04 最近在使用symfony的console组件&#xff0c;需要执行一个后台的php进程&#xff0c;并且…

容器内执行命令

上篇文章向读者介绍了一个Nginx的例子&#xff0c;对于Nginx这样一个容器而言&#xff0c;当它启动成功后&#xff0c;我们不可避免的需要对Nginx进行的配置进行修改&#xff0c;那么这个修改要如何完成呢&#xff1f;且看下文。 依附容器 docker attach 依附容器这个主要是…

【数据备份、恢复、迁移与容灾】上海道宁与云祺科技为企业用户提供云数据中心容灾备份解决方案

云祺容灾备份系统支持 主流虚拟化环境下的虚拟机备份 提供对云基础设施 云架构平台以及 应用系统的全方位数据保护 云祺容灾备份系统规范功能 增强决策能力 高效恢复数据至可用状态 有效降低恢复成本 更大限度减少业务中断时间 保障业务可访问性 开发商介绍 成都云祺…

vscode 无法跳转第三方安装包

vscode 无法跳转第三方安装包 场景&#xff1a;使用vscode写代码时&#xff0c; 第三方的安装包无法使用ctrl 左键&#xff0c;点击进入查看&#xff0c; 不方便源码查看 解决办法&#xff1a; 使用快捷键 Ctrl Shift P&#xff0c; 进入命令搜索框搜索 setting.json 编辑…

抖音电商,从消费者体验中做增量

夜晚总是最容易emo&#xff0c;也最容易冲动的时候。 王雪临睡前刷着抖音&#xff0c;看到一家化妆品品牌在直播&#xff0c;刚好最近她想买抗老精华&#xff0c;点进去听主播小姐姐介绍一番后下了单。第二天早上起来犹豫要不要退货&#xff0c;再货比三家时&#xff0c;手机收…

百度商业AI 技术创新大赛赛道二:AIGC推理性能优化TOP10之经验分享

朋友们&#xff0c;AIGC性能优化大赛已经结束了&#xff0c;看新闻很多队员已经完成了答辩和领奖环节&#xff0c;我根据内幕人了解到&#xff0c;比赛的最终代码及结果是不会分享出来的&#xff0c;因为办比赛的目的就是吸引最优秀的代码然后给公司节省自己开发的成本&#xf…

Java“牵手”天猫店铺所有商品API接口数据,通过店铺ID获取整店商品详情数据,天猫API申请指南

天猫商城是一个网上购物平台&#xff0c;售卖各类商品&#xff0c;包括服装、鞋类、家居用品、美妆产品、电子产品等。天猫商品详情可以帮助消费者更好的了解宝贝信息&#xff0c;从而做出购买决策。同时&#xff0c;消费者也可以通过商品详情了解其他买家对宝贝的评价&#xf…

工具--录屏软件

记录下录屏软件 ScreenToGif 官网 &#xff1a;https://www.screentogif.com/downloads 我下载的是 Installer 版本。 录屏&#xff0c;默认输出为 gif 。录制的 gif 清晰&#xff0c;且容量低。需要录gif的话主推&#xff01; 录制后输出为 mp4 的话提示要下载 FFmpeg &a…

【python】Leetcode(primer-pointer)

文章目录 26. 删除有序数组中的重复项&#xff08;快慢指针&#xff09;88. 合并两个有序数组&#xff08;双指针&#xff09;167. 两数之和 II - 输入有序数组&#xff08;双指针&#xff09; 更多 leetcode 题解可参考&#xff1a;【Programming】 26. 删除有序数组中的重复项…

0基础入门代码审计-2 Fortify初探

0x01 序言 目前又加入一位新童鞋了&#xff0c;最近将会再加入cs相关的专栏&#xff0c;都是以基础为主&#xff0c;毕竟太复杂的东西&#xff0c;能看懂的人太少。 0x02 准备工具 1、Fortify 2、需要审计的源码 0x03 Fortify的简单使用 1、 1、在开始菜单栏中找到Audit Wo…

盛最多水的容器——力扣11

int maxArea(vector<int>& height) {int l=0, r=height.size()

leetcode503. 下一个更大元素 II 单调栈

思路&#xff1a; 与之前 739、1475 单调栈的问题如出一辙&#xff0c;唯一不同的地方就是对于遍历完之后。栈中元素的处理&#xff0c;之前的栈中元素因无法找到符合条件的值&#xff0c;直接加入vector中。而这里需要再重头遍历一下数组&#xff0c;找是否有符合条件的&…