Python 爬虫之下载视频（一）

爬取某平台视频

文章目录

爬取某平台视频
前言
一、大致内容
二、基本思路
三、代码编写
- 1.引入库
- 2.前期准备
- 3.获取视频标题和地址
- 3.下载保存视频
总结

前言

今天写个从好K视频平台爬取正在播放的视频，并下载保存到本地。

注意：建议大家先看看我之前的比较简单的基础教程文章，要不可能看起来会有点费劲哦。

一、大致内容

通过用户输入某个视频的地址，然后程序会根据这个地址，自动获取视频的标题和下载视频，并将标题命名为视频文件的名称。
注意：仅限该平台哦。

二、基本思路

第一步：获取视频的网页地址。（需要手动获取输入）
第二步：关闭每次打开弹出的登陆窗口，并获取视频的标题和下载地址。（程序自动执行）
第三步，下载视频并以标题来命名下载的视频。（程序自动执行）

三、代码编写

下面所用到的库，记得先用pip等命令安装一下哈。

1.引入库

代码如下：

# 用来请求网页
import requests# 用来解析网页
from selenium import webdriver# 用来定位某个元素在网页中的位置
from selenium.webdriver.common.by import By# 用来记录时间或者短暂等待
import time

2.前期准备

代码如下：

# 创建一个对象实例，用来表示用哪个浏览器爬取
driver = webdriver.Firefox()
# 某个视频的地址
driver.get("https://haokan.baidu.com/v?vid=7073936468876035706&tab=recommend")
# 等待一下，等打开网页
time.sleep(8)# 页面打开会弹出一个登录窗口
close = driver.find_element(by=By.CSS_SELECTOR, value='.close-btn')
# 等登录窗口弹出来
time.sleep(5)
# 关闭弹出的登录窗口
close.click()

主要讲一下下半部分代码的的作用吧，请看下图（通过检查元素获取其位置，然后用代码定位进行操作）：
在这里插入图片描述

3.获取视频标题和地址

代码如下：

# 获取视频地址所在的位置
video = driver.find_element(by=By.CSS_SELECTOR, value='.art-video')
# 获取到该视频地址
video_url = video.get_attribute('src')# 获取视频的标题
video_name = driver.find_element(by=By.CSS_SELECTOR, value='.videoinfo-title')

下面我用图片给大家解释吧，这样大家容易理解一点。

获取视频下载地址，首先各位先复制上面代码 art-video ，然后接着下图操作：
获取视频标题。

3.下载保存视频

代码如下：

# 发送HEAD请求，我们可以获取到服务器返回的关于资源的一些元数据，例如内容类型、内容长度、最后修改日期等
response = requests.head(short_video_url)
# 获取视频的大小(以字节为单位)
content_length = response.headers.get('content-length')
print(content_length)# 设置stream=True参数以流的方式下载
mp4 = requests.get(short_video_url, stream=True)
with open(f'{video_name.text}.mp4', 'wb') as f:# 写入文件时，使用(chunk_size=1024)这种方式按块读取和写入for chunk in mp4.iter_content(chunk_size=1024):f.write(chunk)