论文研读|多媒体自动评论生成发展综述

前言:多媒体自动评论生成旨在通过使用生成模型,对给定上下文生成符合情境的评论,近年来,随着图像描述等跨模态工作取得较大突破,相关研究也逐渐展开。评论作为社交平台互动的重要组成部分,在引导舆论、提升用户体验等方面发挥重大作用。现有的多媒体自动评论生成研究工作相对有限,下面对其进行介绍。

目录

  • 检索式图像自动评论(Search-based Automatic Image Commenting)
  • 生成式图像自动评论(Generative Automatic Image Commenting)
  • 视频弹幕自动生成(Automatic Live Video Commenting)
  • 未来研究方向


检索式图像自动评论(Search-based Automatic Image Commenting)

[1]- Predicting Viewer Affective Comments Based on Image Content in Social Media (ICMR, 2014) National Taiwan University, Chen et al.
[2]- Assistive Image Comment Robot—A Novel Mid-Level Concept-Based Representation (TAC, 2015) FX Palo Alto Laboratory, Chen et al.

如下图,Chen等[1,2]提出使用贝叶斯概率模型,在分析图像情感的前提下,通过预测阅读者的情感反应,在此基础上提出为图像生成评论的模型。给定一张测试图像及其元数据,首先评估该图像的发布者情感因素(PAC),然后从训练集中选取和该测试图像具有相似PAC的图像,选取其对应评论构建候选评论池。通过计算评论与测试图像的向量内积,选取得分较高的评论进行回复。
图1 情感相关模型及其应用

如下图所示,自动评论能够较好贴合图像内容,但 (c ), (d)中的自动评论明显与图像不符,如出现错误的目标和动作等。

图2 自动评论结果示例

[3]- Object-Based Visual Sentiment Concept Analysis and Application (MM, 2014) Columbia University, Chen et al.

为解决工作[1,2]中生成评论含有错误目标和动作的问题,工作[3]将目标检测加入模型,使用传统目标检测方法DPM检测出测试图像中的目标。
图3 基于目标检测的自动评论生成
基于目标检测的评论生成提升了评论的质量,如下图所示。

图4 自动生成评论效果对比

[4-1]- Share-and-Chat: Achieving Human-Level Video Commenting by Search and Multi-View Embedding (MM, 2016) Sun Yat-sen University, Li et al.
[4-2]- Video ChatBot: Triggering Live Social Interactions by Automatic Video Commenting∗ (MM, 2016) Sun Yat-sen University, Li et al.

Li等[4-1,4-2]将评论生成任务迁移至视频领域。首先使用CNN获取视频特征表示,通过ANN搜索出相似视频,然后对相关评论进行动态排序,选取出合适评论,如下图所示。
图5 Share and Chat 方法流程图

[5]- See and chat: automatically generating viewer-level comments on images (Multimedia Tools and Applications, 2019) Sun Yat-sen University, Chen et al.

Chen等[5]首先使用CNN获取图像表征信息,然后使用KNN,根据这些特征信息筛选出与测试图像相似的图像,然后使用Ranking典型相关分析(RCCA)对候选评论进行排序,如下图所示。使用 Flickr API构建数据集,并从图文相关性、评论感情强度和评论长度等方面对数据进行后处理。 数据集划分比例为:400K, 25K, 1K张图像。
图6 See and Chat 方法流程图


生成式图像自动评论(Generative Automatic Image Commenting)

[6]- Auto Image Comment via Deep Attention (ICIVC, 2017) Jiangxi Normal University , Shi et al.

Shi等在[6]中首次提出生成式图像评论模型,如下图,该模型使用Encoder-Decoder框架,CNN+LSTM组合模型,结合注意力机制,生成适合的评论短语。
图7 生成式图像评论生成

[7]- Neural Visual Social Comment on Image-Text Content (IETE Technical Review, 2020) Shanghai University, Yin et al.

Yin等[7]将输入的图像及其文字结合,融合多模态信息生成评论,采用新浪微博爬取的帖子作为数据集,每条样本包括帖子的文本和零至多张图片,以及对应的评论信息。使用主题分类模型用于生成评论与真实评论,构建感知损失,将其与MLE损失进行比较。该工作的创新之处在于,使用主题分类模型,使得生成的评论主题与原始评论相同但又不失多样性。
图8 基于主题分类模型的生成式评论
[8]- Explainable Outfit Recommendation with Joint Outfit Matching and Comment Generation (TKDE, 2020) Shandong University, Lin et al.

Lin等[8]通过使用CNN提取图像特征,然后采用GRU和跨模态注意力机制为服装生成自然的评论,如下图所示。

图9 服装评论生成(a)图像特征提取(b)互注意力机制(c)解码器生成评论

[9]- An Image Comment Method Based on Emotion Capture Module (ICFTIC, 2021) Beihang University, Li et al.

Li等[9]首先使用 GAN 生成图像描述,然后使用文本风格迁移与文本改写间接生成评论。首先借鉴现有图像描述数据集,使用文本编辑方法打造图像评论数据集 。然后将目标域设置成评论数据库,学习评论的语言风格,通过对描述进行改写生成评论,如下图所示。
图10 基于文本改写的图像评论生成


视频弹幕自动生成(Automatic Live Video Commenting)

随着短视频社交软件的普及,一些研究者陆续开展视频弹幕生成相关研究工作。下面对几个代表性工作进行介绍。

[10]- LiveBot: Generating Live Video Comments Based on Visual and Textual Contexts (AAAI, 2019) Beijing University, Ma et al.

本文出自北大孙栩老师课题组,是第一篇提出视频弹幕生成这一任务的文章。Ma等提出两个处理此任务的baseline模型,分别是:层级结构的Fusional RNN 和线性结构的 Unified Transformer,如下图所示。

开源代码:https://github.com/lancopku/livebot

图11 两种 baseline 模型

[11]- VideoIC: A Video Interactive Comments Dataset and Multimodal Multitask Learning for Comments Generation (MM, 2020) Renmin University of China, Wang et al.

本文出自中国人民大学进琴老师团队,采用多任务学习方法,使用 Transformer 和 LSTM 分别提取图像的局部和全局特征;使用 Bi-LSTM 提取文本特征;送入基于 Transformer 的编码器中进行多模态特征整合,然后分别计算生成损失与上下文判别损失,整体框架图如下。

开源代码:https://github.com/AIM3-RUC/VideoIC

在这里插入图片描述

[12]- PLVCG: A Pretraining Based Model for Live Video Comment Generation (PAKDD, 2021) Chinese Academiy of Sciences, Zeng et al.
[13]- Knowing Where and What to Write in Automated Live Video Comments: A Unified Multi-Task Approach (ICMI, 2021) University College Dublin, Wu et al.
[14]- Sending or not? A multimodal framework for Danmaku comment prediction (IPM, 2021) Chinese Academiy of Sciences, Xi et al.


未来研究方向

综上所述,多媒体自动生成式评论仍有很大的研究空间。个人感觉,以下几个研究方向有待探索。(1)为确保评论对象符合图像内容,考虑加入目标检测模块,实现针对图像局部的细粒度评论。(2)添加情感模块,确保生成的评论与原始评论情感步调一致。

参考文献

  • [1] Y.Y. Chen, et al.Predicting Viewer Affective Comments Based on Image Content in Social Media, ICMR, 2014.
  • [2] Y.Y.Chen, et al. Assistive Image Comment Robot—A Novel Mid-Level Concept-Based Representation, IEEE TRANSACTIONS ON AFFECTIVE COMPUTING (CCF-B), 2015.
  • [3] T. Chen, et al. Object-Based Visual Sentiment Concept Analysis and Application, ACM Multimedia, 2014.
  • [4] Li et al. Share-and-Chat: Achieving Human-Level Video Commenting by Search and Multi-View Embedding. ACMMM, 2016.
  • [5] J.W. Chen, et al. See and chat: automatically generating viewer-level comments on images. Multimedia Tools and Applications, 2019.
  • [6] J.H. Shi, et al. Auto Image Comment via Deep Attention. IEEE 4th International Conference on Image, Vision and Computing (ICIVC), 2017.
  • [7] Y. Yin, et al. Neural Visual Social Comment on Image-Text Content, IETE Technical Review, 2020.
  • [8] Y.J. Lin, et al. Explainable Outfit Recommendation with Joint Outfit Matching and Comment Generation. TKDE, 2020.
  • [9] Q. Li, J. Yin and Y. Wang, An Image Comment Method Based on Emotion Capture Module, 2021 IEEE 3rd International Conference on Frontiers Technology of Information and Computer (ICFTIC), 2021, pp. 334-339.
  • [10] Ma et al. LiveBot: Generating Live Video Comments Based on Visual and Textual Contexts, AAAI, 2019.
  • [11] Wang et al. VideoIC: A Video Interactive Comments Dataset and Multimodal Multitask Learning for Comments Generation, MM, 2020.
  • [12] Zeng et al. PLVCG: A Pretraining Based Model for Live Video Comment Generation, PAKDD, 2021.
  • [13] Wu et al. Knowing Where and What to Write in Automated Live Video Comments: A Unified Multi-Task Approach, ICMI, 2021.
  • [14] Xi et al. Sending or not? A multimodal framework for Danmaku comment prediction, IPM, 2021.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/74995.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

python-MySQL数据库建表语句(需要连接数据库)转存为Excel文档-工作小记

将create table XXXXXX 转为指定Excel文档。该脚本适用于数据库表结构本地文档记录 呈现效果 代码 # -*- coding:utf-8 -*- # Time : 2023/8/2 15:14 # Author: 水兵没月 # File : MySQL建表_2_excel.py import reimport mysql.connector import pandas as pd db 库名 mydb …

Linux的基本指令(2)

指令1:man 作用:可以查询linux指令语法内容。 格式: man 指令 安装man指令: yum install -y man-pages 例如: 查询 指令 ls 的语法内容。 man ls 查询 fork 指令的语法内容。 man fork 在man中存在9个手册&…

【腾讯云Cloud Studio实战训练营】使用Cloud Studio迅捷开发一个3D家具个性化定制应用

目录 前言: 一、腾讯云 Cloud Studio介绍: 1、接近本地 IDE 的开发体验 2、多环境可选,或连接到云主机 3、随时分享预览效果 4、兼容 VSCode 插件 5、 AI代码助手 二、腾讯云Cloud Studio项目实践(3D家具个性化定制应用&…

Day51 算法记录| 动态规划 18(单调栈)

单调栈 739. 每日温度496.下一个更大元素 I503. 下一个更大元素 II42. 接雨水84. 柱状图中最大的矩形 单调栈:找最近的比他大的值 最近大的值:需要一个单调递减的栈(大于栈顶元素就弹出) 最近最小值:单调递减栈 方向&a…

idea-常用插件汇总

idea-常用插件汇总 码云插件 这个插件是码云提供的ps-码云是国内的一款类似github的代码托管工具。 Lombok Lombok是一个通用Java类库,能自动插入编辑器并构建工具,简化Java开发。通过添加注解的方式,不需要为类编写getter或setter等方法…

记一次 .NET 某物流API系统 CPU爆高分析

一:背景 1. 讲故事 前段时间有位朋友找到我,说他程序CPU直接被打满了,让我帮忙看下怎么回事,截图如下: 看了下是两个相同的程序,既然被打满了那就抓一个 dump 看看到底咋回事。 二:为什么会打…

【雕爷学编程】Arduino动手做(181)---Maixduino AI开发板11

37款传感器与执行器的提法,在网络上广泛流传,其实Arduino能够兼容的传感器模块肯定是不止这37种的。鉴于本人手头积累了一些传感器和执行器模块,依照实践出真知(一定要动手做)的理念,以学习和交流为目的&am…

中断管理

其实,关于中断的概念和定义在之前已经反复学习和实践了,这节主要讲和FreeRTOS相关的中断知识。 中断优先级 任何中断的优先级都大于任务! 在我们的操作系统,中断同样是具有优先级的,并且我们也可以设置它的优先级&a…

汽车EBSE测试流程分析(四):反思证据及当前问题解决

EBSE专题连载共分为“五个”篇章。此文为该连载系列的“第四”篇章,在之前的“篇章(三)”中已经结合具体研究实践阐述了“步骤二,通过系统调研确定改进方案”等内容。那么,在本篇章(四)中&#…

elementUI全屏loading的使用(白屏的解决方案)

官网中有使用方法&#xff0c;但是我实际上手之后会出现白屏&#xff0c;解决办法如下&#xff1a; <el-button type"text" size"small" click"delRow(scope)"> 删除</el-button>loading: false, // loading 动画loadingInstance…

windows图标白了,刷新图标

1.进入C盘&#xff0c;user(用户文件夹)&#xff0c;进入当前用户文件夹&#xff0c;再进入隐藏文件夹(AppDada)&#xff0c;最后进入Local 2.删除Local文件夹里的IconCache.db文件 3.重启资源管理器 -------------------------------------------- 或者创建bat文件&#xf…

爬虫008_流程控制语句_if_if else_elif_for---python工作笔记026

然后我们再来看一下这里的,判断,可以看到 再看一个判断,这里的布尔类型 第二行有4个空格,python的格式 注意这里,输入的age是字符串,需要转一下才行 int可以写到int(intput("阿斯顿法师打发地方")) 这样也可以

无涯教程-Perl - Subroutines(子例程)

定义子程序 Perl编程语言中 Subroutine子程序定义的一般形式如下: sub subroutine_name {body of the subroutine } 调用该Perl Subroutine的典型方式如下- subroutine_name( list of arguments ); 在Perl 5.0之前的版本中&#xff0c;调用 Subroutine的语法略有不同&…

认识Webpack插件Plugin;CleanWebpackPlugin插件;HtmlWebpackPlugin;DefinePlugin;Mode模式

目录 1_认识插件Plugin2_CleanWebpackPlugin3_HtmlWebpackPlugin4_DefinePlugin4.1_介绍4.2_DefinePlugin的使用 5_Mode模式 1_认识插件Plugin Webpack的另一个核心是Plugin&#xff0c;官方有这样一段对Plugin的描述&#xff1a; While loaders are used to transform certai…

运算放大器(二):恒流源

一、实现原理 恒流源的输出电流能够在一定范围内保持稳定&#xff0c;不会随负载的变化而变化。 通过运放&#xff0c;将输入的电压信号转换成满足一定关系的电流信号&#xff0c;转换后的电流相当一个输出可调的简易恒流源。 二、电路结构 常用的恒流源电路如…

HCIP期中实验

考试需求 1 、该拓扑为公司网络&#xff0c;其中包括公司总部、公司分部以及公司骨干网&#xff0c;不包含运营商公网部分。 2 、设备名称均使用拓扑上名称改名&#xff0c;并且区分大小写。 3 、整张拓扑均使用私网地址进行配置。 4 、整张网络中&#xff0c;运行 OSPF 协议…

Jenkins工具系列 —— 插件 钉钉发送消息

文章目录 安装插件 Ding TalkJenkins 配置钉钉机器人钉钉APP配置项目中启动钉钉通知功能 安装插件 Ding Talk 点击 左侧的 Manage Jenkins —> Plugins ——> 左侧的 Available plugins Jenkins 配置钉钉机器人 点击 左侧的 Manage Jenkins &#xff0c;拉到最后 钉…

数字化时代,如何做好用户体验与应用性能管理

引言 随着数字化时代的到来&#xff0c;各个行业的应用系统从传统私有化部署逐渐转向公有云、行业云、微服务&#xff0c;这种变迁给运维部门和应用部门均带来了较大的挑战。基于当前企业 IT 运维均为多部门负责&#xff0c;且使用多种运维工具&#xff0c;因此&#xff0c;当…

使用socket实现UDP版的回显服务器

文章目录 1. Socket简介2. DatagramSocket3. DatagramPacket4. InetSocketAddress5. 实现UDP版的回显服务器 1. Socket简介 Socket&#xff08;Java套接字&#xff09;是Java编程语言提供的一组类和接口&#xff0c;用于实现网络通信。它基于Socket编程接口&#xff0c;提供了…

无人机管控平台,推动电力巡检管理水平提升

各地区无人机作业水平和管理水平存在参差不齐&#xff0c;电力巡检管理要求与业务发展水平不匹配的问题。同时&#xff0c;巡检数据的存储和管理分散&#xff0c;缺乏有效的整合与共享手段&#xff0c;使得内外业脱节&#xff0c;没有形成统一应用和闭环管理。这就导致巡检数据…