Python 爬虫之下载视频(四)

爬取某投币视频平台的小视频


文章目录

  • 爬取某投币视频平台的小视频
  • 前言
  • 一、基本内容
  • 二、基本思路
  • 三、代码编写
    • 1.引入库
    • 2.设置手机模式
    • 3.跳过手动点击等操作
    • 4.获取视频下载地址
    • 5.获取视频标题
    • 6.下载保存
  • 总结


前言

这篇用来记录一下如何爬取这个平台的视频,比如一些Python的教程小视频(一个视频四五分钟的那种的),效果还是不错的。

举例,如下图所示:
在这里插入图片描述
在这里插入图片描述


一、基本内容

打开一个正在播放的网页页面,获取视频标题和下载链接,在本地保存成mp4格式的视频文件。


二、基本思路

  1. 获取视频下载链接,电脑网页检查元素定位到的是blob转换的url地址(用不了),视频标题不影响。
  2. 需要电脑网页开启手机模式(开发者模式里可以设置),这里的定位到的url是可以用的。
  3. 以上可得,在爬取的时候,需要程序代码以手机模式进行爬取(跟之前的教程一样,只不过是多个一个这个步骤)。
  4. 像之前的教程一样,去爬取下载就可以。

三、代码编写

1.引入库

代码如下:

import requests
from selenium import webdriver
from selenium.webdriver.common.by import By
import time

2.设置手机模式

代码如下:

# 打开电脑浏览器,以手机模式运行
chrome_options = webdriver.ChromeOptions()# 模拟一种存在的手机设备类型
chrome_options.add_experimental_option("mobileEmulation",{'deviceName': 'iPhone XR'})# 创建一个实例对象,添加配置项
driver = webdriver.Chrome(options=chrome_options)# 在执行任何查找元素的操作时等待时间
driver.implicitly_wait(5)# 要爬取的网页地址
driver.get("网页地址")
time.sleep(5)

这里主要讲了两个点:一是将网页模式设置成了 iPhone XR 手机模式;二是在执行任何查网页找元素的操作时等待时间,为了给网页反应的时间。然后输入网页地址。


3.跳过手动点击等操作

代码如下:

# 页面打开点击播放按钮
play_icon = driver.find_element(by=By.CSS_SELECTOR, value='.main-cover')
play_icon.click()# 等窗口弹出来
time.sleep(3)# 点击继续网页播放
to_see = driver.find_element(by=By.CSS_SELECTOR, value='.to-see')
to_see.click()
time.sleep(3)

大家都懂得,厂商都想让你跳转到app看,但是也有不显眼的在网页继续观看,上面的代码就是解决这个问题的。


4.获取视频下载地址

代码如下:

# 视频下载地址
# 定位到包含 video 标签的 div 元素
movie_div = driver.find_element(by=By.CSS_SELECTOR, value='.mplayer-video-wrap')# 在 div 元素中查找 video 标签
video_element = movie_div.find_element(By.TAG_NAME, "video")# 获取 video 标签的 src 属性值
movie_url = video_element.get_attribute("src")# 打印下载地址
print(movie_url)

这是获取下载地址的一个嵌套逻辑,要想理解需要大家去实际操作一下。


5.获取视频标题

代码如下:

## 视频标题
movie_title = driver.find_element(by=By.CSS_SELECTOR, value='.part-item.on').text.strip()# 打印视频标题
print(movie_url)

标题的获取到时不难,就两行代码。
或者去这个东西主要是为了给下载的视频起名字,对号入座,好区分。


6.下载保存

代码如下:

# 视频头部信息,做验证用
headers = {'user-agent': 'Mozilla/5.0 (iPhone; CPU iPhone OS 16_6 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/16.6 Mobile/15E148 Safari/604.1',
}# 获取到视频
response = requests.get(movie_url, headers=headers)
chunk_size = 1024 * 1024 * 2# 开始下载保存文件
with open(f'{movie_title}.mp4', 'wb') as f:for chunk in response.iter_content(chunk_size=chunk_size):f.write(chunk)# 打印下载完成的消息
print(f'下载完了!!{movie_title}.mp4')

总共四部分:

  1. 验证头部信息(相当于获取下载视频的权限)。
  2. 获取到视频的信息。
  3. 开始下载保存文件。
  4. 打印下载完成的消息。

总结

到这里,主要部分就大功告成了。图片中的动态进度条没加进来,太多了大家看着也烦,主要的东西告诉大家就OK了。

需要的请点击《Python 小程序之动态进度条》的链接:https://only-me.blog.csdn.net/article/details/134937611

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/224045.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

NUAA-云计算-考试

19级期末 问题 答案: md格式 自己想办法看 # 随堂测验#### 一、请简述GFS 的系统架构和特点。**1. 系统架构**- GFS将整个系统节点分为三类角色:- Client(客户端):Client是GFS提供给应用程序的访问接口,以库文件的…

C语言如何生成随机数以及设置随机数的范围。(超详细)

文章目录 前言一、随机数的生成1.rand函数2.srand函数3.time函数4.生成随机数的代码如下: 二、设置随机数的范围总结 前言 博主将会这篇文章介绍c语言如何生成随机数以及设置随机数的范围。创作不易请大家点点赞,点点关注。 一、随机数的生成 1.rand函…

Ubuntu20.04纯命令配置PCL(点云库)

Ubuntu20.04纯命令配置PCL(点云库) 最近在学习点云库(PCL)的使用,第一步就是在自己的电脑安装配置PCL。 首先,对于ubuntu 16.04以上版本,可以直接使用命令进行安装,新建好一个文件夹…

IDEA中Git的常用使用方式

IDEA中Git的常用使用方式 1.初次拉取远程仓库项目代码到本地2.初次提交本地项目代码到远程仓库新分支方式一:提交时把.git目录删除掉,不保留以往修改记录方式二:提交时不删除.git目录,保留以往修改记录 3.日常拉取、提交、推送代码…

基于Hexo+GitHub Pages 的个人博客搭建

基于HexoGitHub Pages 的个人博客搭建 步骤一:安装 Node.js 和 Git步骤二:创建Github Pages 仓库步骤二:安装 Hexo步骤三:创建 Hexo 项目步骤四:配置 Hexo步骤五:创建新文章步骤六:生成静态文件…

vscode | python | remote-SSH | Debug 配置 + CLIP4Clip实验记录

安装Extension 本地安装Remote-SSH、python 远程服务器上安装Python 难点:主机和远程服务器上安装Python扩展失败,可能是网络、代理等原因导致解决方法: 主机在官方网站下载Python扩展:https://marketplace.visualstudio.com/it…

AI绘画训练一个扩散模型-上集

介绍 AI绘画,其中最常见方案基于扩散模型,Stable Diffusion 在此基础上,增加了 VAE 模块和 CLIP 模块,本文搞了一个测试Demo,分为上下两集,第一集是denoising_diffusion_pytorch ,第二集是diff…

数据库开发之图形化工具以及表操作的详细解析

2.3 图形化工具 2.3.1 介绍 前面我们讲解了DDL中关于数据库操作的SQL语句,在我们编写这些SQL时,都是在命令行当中完成的。大家在练习的时候应该也感受到了,在命令行当中来敲这些SQL语句很不方便,主要的原因有以下 3 点&#xff…

截断整型提升算数转换

文章目录 🚀前言🚀截断🚀整型提升✈️整型提升是怎样的 🚀算术转换 🚀前言 大家好啊!这里阿辉补一下前面操作符遗漏的地方——截断、整型提升和算数转换 看这一篇要先会前面阿辉讲的数据的存储否则可能看不…

Dijkstra(迪杰斯特拉)算法总结

知识概览 Dijkstra算法适用于解决所有边权都是正数的最短路问题。Dijkstra算法分为朴素的Dijkstra算法和堆优化版的Dijkstra算法。朴素的Dijkstra算法时间复杂度为,适用于稠密图。堆优化版的Dijkstra算法时间复杂度为,适用于稀疏图。稠密图的边数m和是一…

React学习计划-React16--React基础(五)脚手架创建项目、todoList案例、配置代理、消息订阅与发布

一、使用脚手架create-react-app创建项目 react脚手架 xxx脚手架:用来帮助程序员快速创建一个基于xxx库的模板项目 包含了所有需要的配置(语法检查、jsx编译、devServe…)下载好了所有相关的依赖可以直接运行一个简单的效果 react提供了一个…

产品设计 之 创建完美产品需求文档的4个核心要点

客户描述他们想要的产品和最终交付的产品之间的误解一般很大,设计者和客户的角度不同,理解的程度也不同,就需要一个统一的交流中介。这里包含PRD。 为了说明理解误差的问题。下面这张有趣的图画可以精准阐述。 第一张图片展示了客户所描述…

Matlab仿真OOK、2FSK、2PSK、QPSK、4QAM在加性高斯白噪声信道中的误码率与归一化信噪比的关系

本文为学习所用,严禁转载。 本文参考链接 https://zhuanlan.zhihu.com/p/667382398 QPSK代码及高斯白噪声如何产生 https://ww2.mathworks.cn/help/signal/ref/butter.html 滤波器 https://www.python100.com/html/4LEF79KQK398.html 低通滤波器 本实验使用matlab仿…

【linux提权】利用setuid进行简单提权

首先先来了解一下setuid漏洞: SUID (Set UID)是Linux中的一种特殊权限,其功能为用户运行某个程序时,如果该程序有SUID权限,那么程序运行为进程时,进程的属主不是发起者,而是程序文件所属的属主。但是SUID权限的设置只…

「微服务模式」七种微服务反模式

什么是微服务 流行语经常为进化的概念提供背景,并且需要一个良好的“标签”来促进对话。微服务是一个新的“标签”,它定义了我个人一直在发现和使用的领域。文章和会议描述了一些事情,我慢慢意识到,过去几年我一直在发展自己的个人…

2023航天推进理论基础考试划重点(W老师)-液体火箭发动机1

适用于期末周求生欲满满的西北工业大学学生。 1、液体火箭发动机的基本组成及功能是什么? 推力室组件、推进剂供应系统、阀门与调节器、发动机总装元件等组成。 2、液体火箭发动机的分类和应用是什么?3、液体火箭发动机系统、分系统的概念是什么&…

交友系统设计:哪种地理空间邻近算法更快?

小熊学Java:https://javaxiaobear.cn 交友与婚恋是人们最基本的需求之一。随着互联网时代的不断发展,移动社交软件已经成为了人们生活中必不可少的一部分。然而,熟人社交并不能完全满足年轻人的社交与情感需求,于是陌生人交友平台…

vue3(六)-基础入门之自定义组件与插槽、ref通信

一、全局组件 html: <div id"app"><mytemplace></mytemplace> </div>javascript: <script>const { createApp } Vueconst app createApp({})app.component(mytemplace, {template: <div><button>返回</button>…

RPC 实战与原理

文章目录 什么是 RPC&#xff1f;RPC 有什么作用&#xff1f;RPC 步骤为什么需要序列化&#xff1f;零拷贝什么是零拷贝&#xff1f;为什么需要零拷贝&#xff1f;如何实现零拷贝&#xff1f;Netty 的零拷贝有何不同&#xff1f; 动态代理实现HTTP/2 特性为什么需要服务发现&am…

7. 结构型模式 - 代理模式

亦称&#xff1a; Proxy 意图 代理模式是一种结构型设计模式&#xff0c; 让你能够提供对象的替代品或其占位符。 代理控制着对于原对象的访问&#xff0c; 并允许在将请求提交给对象前后进行一些处理。 问题 为什么要控制对于某个对象的访问呢&#xff1f; 举个例子&#xff…