python爬虫实战案例——抓取B站视频,不同清晰度抓取,实现音视频合并,超详细!(内含完整代码)

文章目录

  • 1、任务目标
  • 2、网页分析
  • 3、代码编写

1、任务目标

目标网站:B站视频(https://www.bilibili.com/video/BV1se41117WP/?vd_source=e8e376ccbc5aa4cfd88e6a7917adfd1a),用于本文测验
要求:抓取该网址下的视频,将其存入本地,如下:

在这里插入图片描述

2、网页分析

在分析网页前,我们需要明白爬取的数据是什么,因为b站的视频跟音频是分开存放的,所以我们需要分别找到视频和音频的url,然后在对其发起请求将视频和音频保存至本地;最后将两者合并在一起,才能形成完整的视频文件

  1. 打开目标网站,大家可以先登录B站,这样才能下载高清视频,打开浏览器开发者模式,刷新网页,寻找数据接口
    在这里插入图片描述
  2. 经过分析,在Network-Doc下发现了一个文件,该文件源码中就存放了视频和音频的url地址,所以我们需要向该文件接口发起请求,将视频和音频的url地址解析出来

在这里插入图片描述

  1. 得到该数据接口的请求url和请求参数
    在这里插入图片描述

  2. 找到所需的数据接口后,我们可以先分析一下网页源码,我们发现视频url存放在一个 <script>标签下的 video
    在这里插入图片描述

  3. 我们需要获取的是 video下的 baseurl,但我们会发现这种url在video下有许多,他们其实代表着不同清晰度和不同编码,这里我教大家如何区分,首先id相同的表示是同一个清晰度的视频url,codes 代表着不同的编码格式;大家可以根据第3步图中信息判断清晰度,id=80就代表 高清1080p,因为我没有会员,这里最高只显示高清1080p的baseurl,所以我们就抓取它即可
    在这里插入图片描述

  4. 音频的url同样也在<script>标签下,我们向下翻,发现音频url在 audio 下的 baseUrl中,且下面有3种类型的baseurl,我们同样根据id来选择,视频url为高清1080p,所以音频就选择id=30280baseurl
    在这里插入图片描述

3、代码编写

编写代码前,需要大家安装一个第三方工具ffmpeg,用于合并视频和音频
安装教程:https://blog.csdn.net/qq_45956730/article/details/125272407


完整代码:

'''
目标站点:https://www.bilibili.com/video/BV1se41117WP/?vd_source=e8e376ccbc5aa4cfd88e6a7917adfd1a B站
任务:抓取网址下的视频,将其存入本地
'''# 导入模块
import requests
import re
import json
from jsonpath import jsonpath
from bs4 import BeautifulSoup
import os# 1、站点信息# 目标网站
url = 'https://www.bilibili.com/video/BV1se41117WP/'# 身份信息,若cookie值失效,刷新网页更换即可
header = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36","Referer":"https://www.bilibili.com/","Cookie":"i-wanna-go-back=-1; buvid4=3347E997-02D2-04C8-A7BF-156C62FCF90B88409-022070218-vps4PunhlmjD%2FldTeJtIPg%3D%3D; buvid_fp_plain=undefined; DedeUserID=131564301; DedeUserID__ckMd5=cd1905451e79f724; CURRENT_BLACKGAP=0; buvid3=256ABE92-A581-24BC-8E24-6FF290D67AAD49841infoc; b_nut=1698501949; b_ut=7; _uuid=E716FD102-B224-3AF5-BF13-7FFF9888B73450357infoc; rpdid=|(um)~|)kk)k0J'uYm)l|um~u; PVID=1; header_theme_version=CLOSE; enable_web_push=DISABLE; fingerprint=561ef2aee0e68972fc241f5969acd97b; hit-dyn-v2=1; FEED_LIVE_VERSION=V_WATCHLATER_PIP_WINDOW3; CURRENT_FNVAL=4048; buvid_fp=561ef2aee0e68972fc241f5969acd97b; SESSDATA=33cf5dfb%2C1744988952%2Cb57ab%2Aa1CjBKimVs0wevrn9Ta4wYyhdBx-INz-37PGOJXhzOdeCNbnP3by5al9qZYhWgDs8BqO0SVk5MQzdsRzNWbWNaTHhWX3E1d1RKbl9WS3BGWjVudnpjd0d6NnV0ZWxYSU9FREktWlY0d2pMaU1LU1JVSUNZWFFtdDk1OEMyWFNickFCOFlncy1RYXR3IIEC; bili_jct=f6fe7d7a9e53628a226c3b5635076cbf; bp_t_offset_131564301=990413587237306368; bili_ticket=eyJhbGciOiJIUzI1NiIsImtpZCI6InMwMyIsInR5cCI6IkpXVCJ9.eyJleHAiOjE3Mjk2OTY0MzcsImlhdCI6MTcyOTQzNzE3NywicGx0IjotMX0.6xy7DMJZDMBJycpOYWnXejp5ihkcRy4mE85OBVgjUFU; bili_ticket_expires=1729696377; bmg_af_switch=1; bmg_src_def_domain=i0.hdslb.com; sid=6az7b526; CURRENT_QUALITY=64; home_feed_column=4; browser_resolution=1279-700; b_lsid=61131031F_192AE3E6666",
}# 请求参数、
param = {"vd_source":"e8e376ccbc5aa4cfd88e6a7917adfd1a",
}# 2、请求网站
def get():response = requests.get(url,headers=header,params=param) # 发起请求if response.status_code == 200:html_data = response.text # 返回网页源码data = re.findall('<script>window.__playinfo__=(.*?)</script>',html_data,re.S)[0] # 用正则将网页中script标签内的数据匹配出来json_data = json.loads(data) # 将匹配的数据转换为json格式,字典return html_data,json_data# 3、解析数据
def parse(html_data,json_data):soup = BeautifulSoup(html_data,'lxml') # 生成解析对象title = soup.select('div.title-txt')[0].string # 获取视频标题,有多种方法,大家自行选择# print(title)video_url = jsonpath(json_data,'$..data.dash.video..baseUrl')[0] # 获取视频链接# print(video_url)audio_url = jsonpath(json_data,'$..data.dash.audio..baseUrl')[0] # 获取音频链接# print(audio_url)return title,video_url,audio_url# 4、将视频存放至本地
def save(title,video_url,audio_url,path):print('视频和音频开始下载')video = requests.get(video_url,headers=header).content # 下载视频audio = requests.get(audio_url,headers=header).content # 下载音频# 保存视频with open(f'{path}{title}.mp4','wb') as f1: # 将视频保存至指定路径下f1.write(video)print('视频下载完成')# 保存音频with open(f'{path}{title}.mp3','wb') as f2: # 将音频保存至指定路径下f2.write(audio)print('音频下载完成')# 5、合并视频和音频
def craft(path,title):# 使用第三方工具ffmpeg,合成视频和音频的命令,参考:https://blog.csdn.net/bangongzhushou/article/details/140019824cmd = fr"ffmpeg -i {path}{title}.mp4 -i {path}{title}.mp3 -c:v copy -c:a aac -strict experimental -map 0:v -map 1:a {path}csdn\{title}.mp4 -loglevel quiet" # -loglevel quiet 表示隐藏日志,不加问题不大os.system(cmd) # 调用windows命令print('视频和音频合并完成') # 合并后会生成新的.MP4文件os.remove(f'{path}{title}.mp4') # 删除原有的视频文件os.remove(f'{path}{title}.mp3') # 删除原有的音频文件print(f'已删除原有的视频和音频文件')print('---'*10)# 6、启动函数
def start(path):# 依次调用定义的函数,完成视频抓取html_data, json_data = get()title, video_url, audio_url = parse(html_data, json_data)save(title, video_url, audio_url, path)craft(path, title)if __name__ == '__main__':path = 'F:/videoDownload/' # 视频存放的路径,大家自定义start(path)

执行效果:
在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/459673.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

华为ICT题库-云服务部分

1651、关于创建数据盘镜像的约束条件&#xff0c;以下说法错误的是&#xff1f;&#xff08;云服务考点&#xff09; (A)使用云服务器的数据盘创建数据盘镜像时&#xff0c;要确保该云服务器必须有系统盘 (B)通过外部文件创建数据盘镜像必须明确指定操作系统类型 (C)使用云服务…

Docker快速上手教程:MacOS系统【安装/配置/使用/原理】全链路速通

背景 最近换了个 Macbook Air M3, 写个人项目需要用到 Docker,配置过程有一点点坎坷,还是得记录下避免重蹈覆辙。 什么。为什么是买 Air 而不是 Pro Max? 因为码农的钱也是钱啊。 这里我不会先讲原理,我认为工程的事情都是先看到现象,有了概念的轮廓,才应该去研究原理,…

Python基础学习(六)数据容器

代码获取&#xff1a;https://github.com/qingxuly/hsp_python_course 完结版&#xff1a;Python基础学习完结版 数据容器 基本介绍 数据容器是一种数据类型&#xff0c;有些地方也简称容器/collections。数据容器可以存放多个数据&#xff0c;每一个数据也被称为一个元素。存…

计算机网络IP地址分类,子网掩码,子网划分复习资料

IP 地址的概念 IP 地址是独立于硬件地址的逻辑地址&#xff0c;它是由软件提供的地址。 IP 地址是网络层地址。 IP 编址方案和分类 IP 地址由 32 位二进制数构成&#xff0c;分为前缀(网络地址)和后缀(主机地址) 同一网段中每台计算机的 IP 地址是唯一的网络地址的分配全球…

力扣21 : 合并两个有序链表

链表style 描述&#xff1a; 将两个升序链表合并为一个新的 升序 链表并返回。新链表是通过拼接给定的两个链表的所有节点组成的。 示例&#xff1a; 节点大小相同时&#xff0c;l1的节点在前 何解&#xff1f; 1&#xff0c;遍历两个链表&#xff0c;挨个比较节点大小 同时遍…

20241027_北京郊游香山公园

这次是第二次去香山公园&#xff0c;天气不是很晴朗&#xff0c;有雾。 乘坐地铁到的时候&#xff0c;第一趟车&#xff0c;我这么聪明&#xff0c;那肯定是不会坐的&#xff0c;因为没有座位&#xff0c;路程30多分钟&#xff0c;我都20多岁了&#xff0c;身体那肯定顶不住。 …

241024-Ragflow离线部署Docker-Rootless环境配置修改

A. 最终效果 B. 文件修改 docker-compose.yml include:- path: ./docker-compose-base.ymlenv_file: ./.envservices:ragflow:depends_on:mysql:condition: service_healthyes01:condition: service_healthyimage: ${RAGFLOW_IMAGE}container_name: ragflow-serverports:- ${…

WUP-MY-POS-PRINTER 旻佑热敏打印机票据打印uniapp插件使用说明

插件地址&#xff1a;WUP-MY-POS-PRINTER 旻佑热敏打印机票据打印安卓库 简介 本插件主要用于旻佑热敏打印机打印票据&#xff0c;不支持标签打印。适用于旻佑的各型支持票据打印的热敏打印机。本插件开发时使用的打印机型号为MY-805嵌入式面板打印机&#xff0c;其他型号请先…

海外媒体发稿:如何打造媒体发稿策略

新闻媒体的发稿推广策略对于提升品牌知名度、吸引流量以及增加收入非常重要。本文将介绍一套在21天内打造爆款新闻媒体发稿推广策略的方法。 第一天至第七天&#xff1a;明确目标和定位 在这个阶段&#xff0c;你需要明确你的目标和定位&#xff0c;以便为你的新闻媒体建立一个…

66Analytics 汉化版,网站统计分析源码,汉化前台后台

66Analytics 汉化版,网站统计分析源码,汉化前台后台 本源码汉化前台后台&#xff0c;非其他只汉化前台版 网络分析变得容易。自托管、友好、一体化的网络分析工具。轻量级跟踪、会话回放、热图、用户旅程等 简单、好看、友好-大多数网络分析解决方案做得太多了&#xff0c;在大…

详解PHP正则表达式中的转义操作

PHP正则表达式中的特殊字符和转义 在 PHP 正则表达式中&#xff0c;有许多特殊字符具有特定的意义。这些特殊字符通常用于定义匹配模式的一部分&#xff0c;或者改变匹配的行为。以下是 PHP 正则表达式中一些常用的特殊字符及其含义: .匹配除换行符之外的任何单个字符 ^在方括…

练习LabVIEW第二十四题

学习目标&#xff1a; 刚学了LabVIEW&#xff0c;在网上找了些题&#xff0c;练习一下LabVIEW&#xff0c;有不对不好不足的地方欢迎指正&#xff01; 第二十四题&#xff1a; 分别利用for循环的移位寄存功能和反馈节点两种方法求0510154550的值 开始编写&#xff1a; 两个…

PHP免杀详细讲解PHP免杀详细讲解

基础学习 可变参数 $_GET $_POST $_COOKIE $_REQUEST $_SERVER 其中的某些参数可控,如REQUESTMETHOD,QUERYSTRING,HTTPUSERAGENT等 session_id() 这个比较特殊,但是依然可以利用 $_FILE $GLOBALS getallheaders() get_defined_vars() get_defined_functions() fil…

晓羽扫码点餐快销版系统源码

扫码点餐系统&#xff08;快销版&#xff09;是一款专为快销类餐饮行业设计的点餐工具&#xff0c;如早餐店、面馆、快餐店及零食小吃摊等&#xff0c;旨在满足这些场景下快捷、高效的扫码点餐需求。其核心功能在于仅支持先付款后就餐的模式&#xff0c;这一设计大大简化了点餐…

cesium 加载本地json、GeoJson数据

GeoJSON是一种用于编码地理数据结构的格式 {"type": "Feature","geometry": {"type": "Point","coordinates": [125.6, 10.1]},"properties": {"name": "某地点"} } 一、直接加载…

软件测试学习笔记丨Selenium学习笔记:css定位

本文转自测试人社区&#xff0c;原文链接&#xff1a;https://ceshiren.com/t/topic/22511 本文为霍格沃兹测试开发学社的学习经历分享&#xff0c;写出来分享给大家&#xff0c;希望有志同道合的小伙伴可以一起交流技术&#xff0c;一起进步~ 说明&#xff1a;本篇博客基于sel…

OpenHarmony4.0配置应用开机自启

一、开发环境 系统版本:OpenHarmony 4.0.10.13 设备平台:rk3588 SDK版本:fullSDK 4.0.10.13 二、背景 使用自研应用作为默认Launcher,或者说使特定应用默认开机自启作为Home应用。 三、分析过程 通过分析原生Launcher启动流程可知: AMS启动根据应用优先级启动应用,通…

leetcode 75-13 k和数对的最大数目

我的思路 sort函数排序 然后双指针判断 这样时间复杂度nlgn 题解给出了一种空间换时间方法 用哈希表 注意一下写法 现在完全不会这样写 还有就是注意sort函数的代码 怎么写排序也给忘了 sort用的是什么排序方法、 分析 自己写的代码和所谓的滑动窗口就是相当于简化了每个…

【04】RabbitMQ的集群机制

1、RabbitMQ的性能监控 关于RabbitMQ的性能监控&#xff0c;在管理控制台中提供了非常丰富的展示。例如&#xff1a;首页这个整体监控页面&#xff0c;就展示了非常多详细的信息&#xff1a; 还包括消息的生产消费频率、关键组件的使用情况等等非常多的消息。都可以在这个管理…

week08 zookeeper多种安装与pandas数据变换操作-new

课程1-hadoop-Zookeeper安装 Ububtu18.04安装Zookeeper3.7.1 环境与版本 这里采用的ubuntu18.04环境的基本配置为&#xff1a; hostname 为master 用户名为hadoop 静态IP为 192.168.100.3 网关为 192.168.100.2 防火墙已经关闭 /etc/hosts已经配置全版本下载地址&#xff1…