深度学习笔记(4)——视频理解

视频理解

视频理解的问题:视频太大了

解决方案:在切片上训练,低FPS,低分辨率

测试的时候:在不同的clips上运行模型,取平均预测结果

视频由图片序列组成:$T\times 3 \times H \times W$

单帧CNN模型

训练普通的2D CNN模型,对每一帧进行分类,通常是视频分类的一个非常强的基线方法。

Late Fusion(FC)

不同的特征使用不同的分类器,得到基于每个特征的分类结果,再对所有结果进行融合(可能是投票、加权平均等),这个融和发生在不同特征分类结果之间的融合

Late Fusion(Pooling)

将每帧的CNN特征池化并送入线性层

问题:难以捕捉帧之间的low-level motion(细微的运动)

Early Fusion

先将不同的特征融合再一起,最后再使用分类器对其进行分类,也称为特征融合

问题:一层卷积处理输入视频可能不够,转向3D卷积

2Dconv:没有时间平移不变性,不同时间都有单独滤波器

3Dconv:有时间平移不变性,使用3D卷积,将时间维度也考虑进去,但计算量较大

视频理解数据集:Sports-1M

100万个带有487种不同运动标签的YouTube视频

衡量运动:光流

光流可以突出局部运动

双流网络:分别处理motion和appearance,一个在空间上(spatial),一个在时间上(temporal),最后将两个分类器的score融合

视频不仅包含空间信息(单一帧的图像信息),还包含时间信息(帧与帧之间的运动信息)

视频理解中建模长时间时序结构

使用循环网络(如LSTM)处理局部特征

  1. Many to one:最终输出一个结果
  2. Many to many:为每一帧输出结果

CNN内部:每个特征都是固定时间窗口的函数(局部时间结构)

RNN内部:每个向量都是所有先前向量的函数(全局时间结构)

结合这两个方法,转向多层RNN

多层RNN:

每个输出都取决于两个输入:

  1. 同一层:前一时间步
  2. 上一层:相同时间步

在每一层使用不同的权重,跨时间共享权重

问题:RNN对于长序列很慢,即无法并行化

解决方案:self-attention

经典模型:

Spatio-Temporal Self-Attention

先做一个3DCNN,然后经过一个Nonlocal Block

Nonlocal Block:使用自注意力机制,对每个特征图,计算其他特征图上的注意力权重,然后加权求和

I3D(Inflating 2D Networks to 3D)

使用2Dconv的权重来初始化3Dconv,在空间中复制kt次并处以kt,使得两者的预测结果相同。

Temporal Action Localization

给定一个长视频序列,识别与不同动作对应的帧

可以使用类似Faster R-CNN的架构:先生成temporal proposals,然后对每个proposal进行分类

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/497749.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

前端项目 npm报错解决记录

1.首先尝试解决思路 npm报错就切换yarn , yarn报错就先切换npm删除 node_modules 跟 package-lock.json文件重新下载依 2. 报错信息: Module build failed: Error: Missing binding D:\vue-element-admin\node_modules\node-sass\vendor\win32-x64-8…

【AI大模型】探索GPT模型的奥秘:引领自然语言处理的新纪元

目录 🍔 GPT介绍 🍔 GPT的架构 🍔 GPT训练过程 3.1 无监督的预训练语言模型 3.2 有监督的下游任务fine-tunning 🍔 小结 学习目标 了解什么是GPT.掌握GPT的架构.掌握GPT的预训练任务. 🍔 GPT介绍 GPT是OpenAI公…

elasticsearch-java客户端jar包中各模块的应用梳理

最近使用elasticsearch-java客户端实现对elasticsearch服务的Api请求,现对elasticsearch-java客户端jar包中各模块的应用做个梳理。主要是对co.elastic.clients.elasticsearch路径下的各子包的简单说明。使用的版本为:co.elastic.clients:elasticsearch-…

前后端分离(前后端交互步骤)

1.设计数据库 /*Navicat Premium Data Transfer ​Source Server : localhost_3306Source Server Type : MySQLSource Server Version : 80037 (8.0.37)Source Host : localhost:3306Source Schema : studymysql ​Target Server Type : MySQL…

【VulnOSv2靶场渗透】

文章目录 一、基础信息 二、信息收集 三、漏洞探测 四、提权 一、基础信息 Kali IP: 192.168.20.146 靶机IP:192.168.20.152 二、信息收集 nmap -sS -sV -p- -A 192.168.20.152 开放了22、80、6667等端口 22端口:openssh 6.6.1p1 80端口&…

无需训练!多提示视频生成最新SOTA!港中文腾讯等发布DiTCtrl:基于MM-DiT架构

文章链接:https://arxiv.org/pdf/2412.18597 项目链接:https://github.com/TencentARC/DiTCtrl 亮点直击 DiTCtrl,这是一种基于MM-DiT架构的、首次无需调优的多提示视频生成方法。本文的方法结合了新颖的KV共享机制和隐混合策略,使…

SpringBoot对静态资源的映射规则

目录 什么是SpringBoot静态资源映射? 如何实现SpringBoot静态资源映射? 1. webjars:以jar包的方式引入静态资源 示例: 2. /** 访问当前项目的任何资源 示例一: 示例二: 3. 静态首页(欢…

【EtherCATBasics】- KRTS C++示例精讲(2)

EtherCATBasics示例讲解 目录 EtherCATBasics示例讲解结构说明代码讲解 项目打开请查看【BaseFunction精讲】。 结构说明 EtherCATBasics:应用层程序,主要用于人机交互、数据显示、内核层数据交互等; EtherCATBasics.h : 数据定义…

【论文阅读】Reducing Activation Recomputation in Large Transformer Models

创新点: 针对Transformer结构,通过序列并行和选择性重计算激活值,在节省显存空间占用的情况下,不带来明显通信开销,同时减少重计算成本。 总的来说,就是在原有的张量并行的基础上,对LayerNorm和…

Linux arm 编译安装glibc-2.29

重要的话说三遍: !!!!!不要轻易自己去安装glibc!!!!! !!!!!不要轻易自己去安装glibc&a…

STM32完全学习——FLASH上FATFS文件管理系统

一、需要移植的接口 我们通过看官网的手册,可以看到我们只要完成下面函数的实现,就可以完成移植。我们这里只移植前5个函数,获取时间的函数我们不在这里移植。 二、移植接口函数 DSTATUS disk_status (BYTE pdrv /* Physical drive nmuber…

Docker使用——国内Docker的安装办法

文章目录 参考资料前言Mac安装办法Homebrew 安装1. 直接下报错2. 安装homebrew, 用国内镜像3. 安装Docker4. 启动docker服务5. 测试是否安装成功 参考资料 鸣谢大佬文章。 macOS系统中:Docker的安装:https://blog.csdn.net/sulia1234567890…

Java-38 深入浅出 Spring - AOP切面增强 核心概念 相关术语 Proxy配置

点一下关注吧!!!非常感谢!!持续更新!!! 大数据篇正在更新!https://blog.csdn.net/w776341482/category_12713819.html 目前已经更新到了: MyBatis&#xff…

【CSS in Depth 2 精译_096】16.4:CSS 中的三维变换 + 16.5:本章小结

当前内容所在位置(可进入专栏查看其他译好的章节内容) 第五部分 添加动效 ✔️【第 16 章 变换】 ✔️ 16.1 旋转、平移、缩放与倾斜 16.1.1 变换原点的更改16.1.2 多重变换的设置16.1.3 单个变换属性的设置 16.2 变换在动效中的应用 16.2.1 放大图标&am…

iOS 苹果开发者账号: 查看和添加设备UUID 及设备数量

参考链接:苹果开发者账号下添加新设备UUID - 简书 如果要添加新设备到 Profiles 证书里: 1.登录开发者中心 Sign In - Apple 2.找到证书设置: Certificate,Identifiers&Profiles > Profiles > 选择对应证书 edit &g…

【HENU】河南大学计院2024 计算机网络 期末复习知识点

和光同尘_我的个人主页 一直游到海水变蓝。 计网复习 第一章互联网组成类别交换方式分组交换的要点:分组交换的优点: 网络性能指标体系结构网络协议五层协议 第二章:物理层物理层的主要任务(四大特性)通信的三种方式…

Kafka中的Topic和Partition有什么关系?

大家好,我是锋哥。今天分享关于【Kafka中的Topic和Partition有什么关系?】面试题。希望对大家有帮助; Kafka中的Topic和Partition有什么关系? 1000道 互联网大厂Java工程师 精选面试题-Java资源分享网 在 Apache Kafka 中&#…

一文读懂变分自编码(VAE)

一文读懂变分自编码(VAE) 概述 变分自编码器(Variational Autoencoder, VAE)是一种生成模型,用于学习数据的潜在表示并生成与原始数据分布相似的新数据。它是一种概率模型,通过结合深度学习和变分推断的思想,解决了传…

第十七周:Fast R-CNN论文阅读

Fast R-CNN论文阅读 摘要Abstract文章简介1. 引言2. Fast R-CNN框架2.1 RoI位置信息映射2.2 RoI pooling2.3 分类器与边界框回归器2.4 以VGG16为backbone的Fast RCNN的网络结构 3. 训练细节3.1 采样3.2 多任务损失 4. 优缺点分析总结 摘要 这篇博客介绍了Fast R-CNN&#xff0…

ThinkPHP 8开发环境安装

【图书介绍】《ThinkPHP 8高效构建Web应用》-CSDN博客 《ThinkPHP 8高效构建Web应用 夏磊 编程与应用开发丛书 清华大学出版社》【摘要 书评 试读】- 京东图书 1. 安装PHP8 Windows系统用户可以前往https://windows.php.net/downloads/releases/archives/下载PHP 8.0版本&am…