Python 视频爬取教程

文章目录

  • 前言
  • 基本原理
  • 环境准备
    • Python安装
    • 选择Python开发环境
    • 安装必要库
  • 示例 1:爬取简单直链视频
  • 示例 2:爬取基于 HTML5 的视频(以某简单视频网站为例)


前言

以下是一个较为完整的 Python 视频爬取教程,包含基本原理、不同网站的爬取示例以及注意事项。


基本原理

视频爬取本质上是模拟浏览器向服务器发送请求,获取包含视频信息的网页内容,解析出视频的真实下载地址,然后将视频文件下载到本地。一般会用到requests库来发送请求,BeautifulSoup或lxml库来解析网页内容。

环境准备

Python安装

访问 Python 官方网站,根据你的操作系统(Windows、Mac 或 Linux)下载并安装 Python 3.x 版本。安装时勾选 “Add Python to PATH”,方便在命令行中使用 Python。

Python 3.11安装教程:https://blog.csdn.net/u014164303/article/details/145549489
Python 3.13安装教程:https://blog.csdn.net/u014164303/article/details/146024500

Python 3.11下载地址:https://pan.quark.cn/s/9c44793cb24c
Python 3.13下载地址:https://pan.quark.cn/s/bce37ebd7f70

选择Python开发环境

PyCharm 社区版(免费)或专业版(需付费或申请教育版)。安装完成后,打开 PyCharm,创建一个新的项目,在项目设置中选择之前创建的虚拟环境作为项目的 Python 解释器。PyCharm 功能强大,提供代码自动补全、调试等功能,适合开发大型项目。

Pycharm安装教程:https://blog.csdn.net/u014164303/article/details/145674773
PyCharm下载地址:https://pan.quark.cn/s/5756c8cf8b2a

安装必要库

在开始之前,需要安装必要的 Python 库。可以使用以下命令进行安装:

pip install requests beautifulsoup4 lxml

示例 1:爬取简单直链视频

有些网站会直接提供视频的下载链接,对于这类视频,爬取过程相对简单。以下是一个示例代码:

import requestsdef download_video(url, save_path):try:# 发送请求,获取视频内容response = requests.get(url, stream=True)response.raise_for_status()# 以二进制写入模式打开文件with open(save_path, 'wb') as file:for chunk in response.iter_content(chunk_size=8192):if chunk:file.write(chunk)print(f"视频下载成功,保存路径:{save_path}")except requests.RequestException as e:print(f"下载失败:{e}")# 视频的直接下载链接
video_url = "https://example.com/video.mp4"
# 保存视频的本地路径
save_path = "video.mp4"download_video(video_url, save_path)

示例 2:爬取基于 HTML5 的视频(以某简单视频网站为例)

有些网站使用 HTML5 的标签来播放视频,我们可以通过解析网页内容获取视频的真实地址。

import requests
from bs4 import BeautifulSoupdef get_video_url(url):try:# 发送请求,获取网页内容response = requests.get(url)response.raise_for_status()# 使用 BeautifulSoup 解析网页soup = BeautifulSoup(response.text, 'lxml')# 查找 video 标签video_tag = soup.find('video')if video_tag:# 获取视频的 src 属性video_url = video_tag.get('src')if video_url:if not video_url.startswith('http'):# 处理相对路径base_url = url.rsplit('/', 1)[0]video_url = f"{base_url}/{video_url}"return video_urlexcept requests.RequestException as e:print(f"请求失败:{e}")return Nonedef download_video(url, save_path):try:response = requests.get(url, stream=True)response.raise_for_status()with open(save_path, 'wb') as file:for chunk in response.iter_content(chunk_size=8192):if chunk:file.write(chunk)print(f"视频下载成功,保存路径:{save_path}")except requests.RequestException as e:print(f"下载失败:{e}")# 视频网页的 URL
web_url = "https://example.com/video_page.html"
# 获取视频的真实下载地址
video_url = get_video_url(web_url)
if video_url:save_path = "video.mp4"download_video(video_url, save_path)
示例 3:爬取短视频平台视频(以抖音为例)
抖音的视频爬取相对复杂,因为其采用了加密和反爬机制。以下是一个简单的示例:
python
import requests
import redef get_douyin_video_url(share_url):try:# 发送请求,获取重定向后的 URLresponse = requests.get(share_url, allow_redirects=True)response.raise_for_status()# 使用正则表达式提取视频 IDvideo_id_pattern = re.compile(r'video/(\d+)')match = video_id_pattern.search(response.url)if match:video_id = match.group(1)# 构造视频 API 请求 URLapi_url = f"https://www.iesdouyin.com/web/api/v2/video/playwm/?video_id={video_id}"headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36"}# 发送 API 请求,获取视频信息api_response = requests.get(api_url, headers=headers)api_response.raise_for_status()data = api_response.json()if 'video' in data and 'play_addr' in data['video'] and 'url_list' in data['video']['play_addr']:video_url = data['video']['play_addr']['url_list'][0]# 去除水印video_url = video_url.replace("playwm", "play")return video_urlexcept requests.RequestException as e:print(f"请求失败:{e}")return Nonedef download_video(url, save_path):try:response = requests.get(url, stream=True)response.raise_for_status()with open(save_path, 'wb') as file:for chunk in response.iter_content(chunk_size=8192):if chunk:file.write(chunk)print(f"视频下载成功,保存路径:{save_path}")except requests.RequestException as e:print(f"下载失败:{e}")# 抖音视频的分享链接
share_url = "https://v.douyin.com/xxxxxx/"
# 获取视频的真实下载地址
video_url = get_douyin_video_url(share_url)
if video_url:save_path = "douyin_video.mp4"download_video(video_url, save_path)

注意事项

  • 遵守法律法规:在进行视频爬取时,必须遵守相关法律法规和网站的使用条款,不得进行非法爬取和传播。
  • 反爬机制:许多网站都有反爬机制,如 IP 封禁、验证码等。可以使用代理 IP、设置合理的请求头和请求间隔时间来绕过反爬机制。
  • 版权问题:确保下载的视频具有合法的使用权限,避免侵犯他人的版权。
    通过以上教程,你可以了解到不同场景下 Python 视频爬取的基本方法。在实际应用中,需要根据具体网站的特点进行调整。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/35156.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【LangChain】理论及应用实战(5):Agent

文章目录 一、基本介绍1.1 Agent介绍1.2 Agent示例 二、几种主要的Agent类型2.1 ZERO_SHOT_REACT_DESCRIPTION2.2 CHAT_ZERO_SHOT_REACT_DESCRIPTION2.3 CONVERSATIONAL_REACT_DESCRIPTION2.4 CHAT_CONVERSATIONAL_REACT_DESCRIPTION2.5 OPENAI_FUNCTIONS 三、给Agent增加Memor…

口袋书签系统:AI 智能生成分类描述,省时又高效

口袋书签一键触达,免费使用:https://navfinder.cn/ 口袋书签系统新增了“根据收藏站点,AI自动生成分类描述”的功能,简要说明如下: 自动分析站点信息 系统会根据用户当前分类中的站点标题、标签等信息,结合…

AtCoder Beginner Contest 397 A - D题解

Tasks - OMRON Corporation Programming Contest 2025 (AtCoder Beginner Contest 397) 本文为 AtCoder Beginner Contest 397 A - D题解 题目A: 代码(C): #include <bits/stdc.h>int main() {double n;std::cin >> n;if (n > 38.0) {std::cout << 1;}…

linux按照nginx

第一步先按照依赖gcc 一键安装上面四个依赖 Nginx的编译安装需要一些依赖库&#xff0c;如gcc、make、zlib、openssl等。可以使用yum命令安装这些依赖&#xff1a; yum -y install gcc zlib zlib-devel pcre-devel openssl openssl-devel 创建目录 mkdir /usr/nginx 切换…

Muon: An optimizer for hidden layers in neural networks

引言 在深度学习领域&#xff0c;优化算法对模型训练效率和性能起着关键作用。从经典的随机梯度下降 (SGD) 及其动量法&#xff0c;到自适应优化方法 Adam/AdamW 等&#xff0c;一系列优化器大大加速了神经网络的收敛。然而&#xff0c;随着模型规模和数据量的爆炸式增长&…

数据结构与算法-图论-拓扑排序

前置芝士 概念 拓扑排序&#xff08;Topological Sorting&#xff09;是对有向无环图&#xff08;DAG&#xff0c;Directed Acyclic Graph&#xff09;的顶点进行排序的一种算法。它将图中的所有顶点排成一个线性序列&#xff0c;使得对于图中的任意一条有向边 (u, v)&#x…

市长海报/ Mayor‘s posters

AB 省 Bytetown 的市民无法忍受市长竞选活动的候选人随心所欲地将他们的选举海报贴在各个地方。市议会最终决定建造一面选举墙来放置海报&#xff0c;并引入以下规则&#xff1a; 每个候选人都可以在墙上放置一张海报。所有海报的高度都与墙壁的高度相同;海报的宽度可以是任意整…

LeetCode hot 100—验证二叉搜索树

题目 给你一个二叉树的根节点 root &#xff0c;判断其是否是一个有效的二叉搜索树。 有效 二叉搜索树定义如下&#xff1a; 节点的左子树只包含 小于 当前节点的数。节点的右子树只包含 大于 当前节点的数。所有左子树和右子树自身必须也是二叉搜索树。 示例 示例 1&#…

ccfcsp3402矩阵重塑(其二)

//矩阵重塑&#xff08;其二&#xff09; #include<iostream> using namespace std; int main(){int n,m,t;cin>>n>>m>>t;int c[10000][10000];int s0,sum0;int d[10000],k[100000];for(int i0;i<n;i){for(int j0;j<m;j){cin>>c[i][j];d[s…

MCP和Function Calling的区别

文章目录 1、什么是MCP1.1、定义和特点1.2、架构和工作原理3.3、MCP 的主要优势 2、什么是Function Calling3、MCP和Function Calling的区别4、总结 &#x1f343;作者介绍&#xff1a;双非本科大四网络工程专业在读&#xff0c;阿里云专家博主&#xff0c;前三年专注于Java领域…

裂缝识别系统 Matlab GUI设计

使用说明 裂缝识别系统 Matlab GUI设计 &#xff0c;运行环境Matlab2023b及以上&#xff1b; 一种基于MATLAB图形用户界面&#xff08;GUI&#xff09;的裂缝自动识别系统&#xff0c;该系统利用数字图像处理技术实现裂缝图像的预处理&#xff0c;集成均衡化、噪声滤波、对比…

【源码分析】Nacos实例注册流程分析-事件驱动框架

【踩坑记录】 本人下载的Nacos 服务端版本是2.3.2&#xff0c;在开始进行源码编译便遇到问题&#xff0c;下面是各个问题记录 源码大量爆红 在最开始用Idea加载Maven项目的时候&#xff0c;发现项目中大量的代码爆红&#xff0c;提示其类或者包不存在&#xff0c;后来结果查…

51单片机指令系统入门

目录 基本概念讲解 一、机器指令​ 二、汇编指令​ &#xff08;一&#xff09;汇编指令的一般格式 &#xff08;二&#xff09;按字节数分类的指令 三、高级指令 总结​ 基本概念讲解 指令是计算机&#xff08;或单片机&#xff09;中 CPU 能够识别并执行的基本操作命令…

mysql5.x和mysql8.x查看和设置隔离级别

MySQL的隔离级别 级别标志值描述读未提交READ-UNCOMMITTED0存在脏读、不可重复读、幻读的问题读已提交READ-COMMITTED1解决脏读的问题&#xff0c;存在不可重复读、幻读的问题可重复读REPEATABLE-READ2mysql 默认级别&#xff0c;解决脏读、不可重复读的问题&#xff0c;存在幻…

【函数式编程】【C#/F#】第四讲:单子与函子 - 抽象的编程模式

在第二讲中我们探讨了一个诚实的函数应该要做到什么事&#xff0c;并运用了一种方法&#xff0c;让我们可以去准确的描述数据。 不过有一种情况让我们始料未及&#xff0c;例如网站需要收集一些信息&#xff0c;但有些信息不是必须的&#xff0c;是可有可无的。如果我们要去准…

【vue2 + Cesium】使用Cesium、添加第三方地图、去掉商标、Cesium基础配置、地图放大缩小事件、获取可视区域、层级、高度

参考文章&#xff1a; vue2 使用 cesium 篇【第一篇】 vue2 使用 cesium 【第二篇-相机视角移动添加模型】 vue2 项目模版&#xff1a; vue2-common 安装 cesium npm install cesium --save这个就很简单&#xff0c;只需要一句简简单单的命令就可以实现在 vue 项目中安装 ce…

vllm-openai多服务器集群部署AI模型

服务器配置是两台ubantu系统电脑,每台电脑安装两张4090-48G显存的显卡,共计192G显存。 服务器1 服务器2 准备工作: 1.两台电脑都已经安装了docker 2.两台电脑都已经安装了nvidia驱动 参考vllm官方资料 https://docs.vllm.ai/en/latest/serving/distributed_serving.html…

【电源】斩波电路

文章目录 前言定义概念 缩写降压斩波电路使用步骤总结参考文献 前言 进行大创项目开发的学习 bilibili 定义概念 缩写 斩波电路&#xff1a;分为降压&#xff0c;电荷泵&#xff0c;升压&#xff0c;升降压&#xff0c;Cuk&#xff0c;Speic&#xff0c;Zeta 等等 降压斩…

Hadoop集群组成

&#xff08;一&#xff09;Hadoop的组成 对普通用户来说&#xff0c; Hadoop就是一个东西&#xff0c;一个整体&#xff0c;它能给我们提供无限的磁盘用来保存文件&#xff0c;可以使用提供强大的计算能力。 在Hadoop3.X中&#xff0c;hadoop一共有三个组成部…

c++基础知识-图论进阶

一、拓扑排序 1、基础知识 1&#xff09;什么是拓扑排序 对一个有向无环图G进行拓扑排序&#xff0c;是将G中所有顶点排成一个线性序列&#xff0c;使得图中任意一对顶点u和v&#xff0c;若&#xff0c;则u在线性序列中出现在v之前。 2&#xff09;拓扑排序的操作方法 重复执行…