【论文阅读】Hierarchical Multi-modal Contextual Attention Network for Fake News Detection --- 虚假新闻检测,多模态

本博客系本人阅读该论文后根据自己理解所写,非逐句翻译,欲深入了解该论文,请参阅原文。

论文标题:Hierarchical Multi-modal Contextual Attention Network for Fake News Detection;

关键词:社交媒体,虚假新闻检测,多模态学习;

作者:Shengsheng Qian,Jinguang Wang,Jun Hu,Quan Fang,Changsheng Xu;

中国科学院大学,中国科学院模式识别国家重点实验室;合肥工业大学;

发表会议或期刊:SIGIR 2021;

代码地址:GitHub - wangjinguang502/HMCAN

摘要:

最近,因为广泛传播的虚假新闻会误导读者并带来不好的影响,在社交媒体平台上检测虚假新闻成为了一个最关键的问题。目前为止,从人工定义的特征提取方法到深度学习方法,许多致力于解决检测虚假新闻的模型被提出。但是这些模型仍然有不足:(1)没有利用多模态的上下文信息(multi-modal context information),没有提取到高阶的补充信息( high-order complementary information );(2)在学习新闻表示时忽视了文本内容的完整层次化的语义(full hierarchical semantics of textual content )。为了解决上述问题,本文提出了一个层次化的多模态的基于上下文的注意力网络(hierarchical multi-modal contextual attention network, HMCAN)用来做谣言检测。该模型将多模态上下文信息(multi-modal context information)和文本的层次化的语义信息(hierarchical semantics of text )联合建模为一个统一的深度模型。具体而言,本文使用BERT和ResNet来学习文本和图像表示。然后将所得文本和图像表示送入一个多模态的上下文注意力网络以融合模态内(intra-modality)和模态间(inter-modality)的关系。最后,本文设计了一个层次化的编码网络来捕获虚假新闻检测中丰富的语义信息。在三个公开数据集上的实验证实了本文所提出的模型达到了目前最好的结果。

现存方法的问题:

  1. 早期的谣言检测主要是通过人力完成的,比如依靠领域专家或者机构识别,但是该方式费时费力;
  2. 后来出现了自动检测谣言的模型,大致分为两类,其一是传统的学习方法。这些方法根据新闻的多媒体内容和用户的社交上下文信息,手动定义一系列谣言的特征。但是谣言也是不断发展的,其特征也在不断变化更加复杂,仅仅使用手动定义的特征很难完全捕获到所有谣言的特征;
  3. 自动检测的模型第二类是深度学习的方法,使用神经网络来捕获谣言的特征。但是现有的这类方法大多只关注于文本内容而忽视了新闻的多模态特征,也就是图像等信息;
  4. 现有的多模态谣言检测方法也有缺陷,比如对多模态上下文信息的利用不充分,不能提取新闻中高阶信息增强检测的性能(fully utilize the multi-modal context information and extract high-order complementary information);以及没有提取文本内容的层次化语义特征( explore and capture the hierarchical semantics of text information,具体来说,其他方法用Bert获得文本特征表示时,都是用Bert的最后一层输出作为文本表示,但Bert的中间隐藏层实际上也包含很多有用的信息,这些层一起就是层次化的语义特征)。

本文主要贡献:

  1. 针对谣言检测问题,提出了层次化的多模态上下文注意力网络(HMCAN)来联合学习多模态上下文信息和文本的层次化语义信息;
  2. 设计了多模态上下文注意力网络来建模新闻的多模态特征,来自不同模态的信息可以对另一模态做补充。设计了层次化语义编码模块来提取文本的丰富语义特征;
  3. 在三个公开数据集上经过实验显示出本文模型比其他SOTA方法具有更强的鲁棒性以及在检测谣言方面更高效。

本文方法及模型:

虚假新闻检测问题可以定义为一个二分类问题,给定一个多模态的新闻P包含文本内容和对应的若干图像,模型的目的是输出一个标签Y来判断该新闻是假新闻(Y=1)还是真新闻(Y=0)。

本文模型整体框架如下图2所示,包含以下几个模块:

  • 文本和图像编码网络:用Bert获取文本的表示向量,用预训练的ResNet50模型来提取图像的特征(预训练表示ResNet50的参数在本文模型训练时固定不变)。给定一个新闻P={W, R}其中W代表新闻的文本内容,R代表视觉内容。首先将W表示为一个包含m个单词的序列,然后经过预训练的Bert得到单词的表示S=\{s_1, s_2, ..., s_m\}。图像类似,R输入预训练的ResNet50得到n个区域特征O=\{o_1, o_2, ..., o_n\}
  • 多模态上下文注意力网络:如上图2第二行左边两个图所示,一个多模态上下文注意力网络以文本和图像的表示为输入,经过两个contextual transformer模块(他们俩不共享权重),得到两个向量(图2第二行最左边图片中的C_{TI}, C_{IT}),令C = \alpha C_{TI} + \beta C_{IT}, {\alpha} + \beta = 1,最终得到一个多模态的表示(图2第一行图片中C^0, C^1, C^2)。具体而言,一个contextual transformer由两个transformer组成(如图2第二行中间一张图片),其中左边的transformer是标准的transformer结构,其QKV均来自输入input1,公式如下。因此该transformer就是学习了input1数据的intra-modality的特征。

    右边的transformer修改了标准transformer结构的输入,其他结构没有改变。其输入的Q来自input2,而KV值则来自input1,是左边transformer的输出结果(公式(5)的结果),公式如下。因此该transformer就是学习了input1和input2两者inter-modality的特征。

    两个transformer的输出分别经过一个pooling之后再拼接在一起,作为contextual transformer的输出结果,也就是左边图片中的C_{TI}, C_{IT}。注意到,一个多模态上下文注意力网络中的一个contextual transformer1的input1和input2分别是text和image内容,而contextual transformer2的input1和input2分别是image和text。
  • 层次化编码网络:Bert模型中间层有11个,加上最后一层共有12层表示,为了降低计算量,本文将相邻的4个层的表示求和(4个层为一组),得到3组层次化的文本语义表示。公式如下:其中i代表文本W中的第i个单词,j代表Bert的第j层,s代表每组的向量表示。

    将他们分别与图像特征做多模态注意力,然后拼接所得表示C^0, C^1, C^2,就得到了本文模型最终的多模态新闻表示。

  • 虚假新闻检测器: 对新闻的真假进行判断。检测器的输入是新闻的多模态表示C,包含一层全连接层和对应的激活函数,输出该新闻的预测标签,如公式(11):

    因此,本文模型的loss是:

实验:

任务:虚假新闻检测;

数据集:微博 WEIBO [12], 推特 TWITTER [12, 13](这里推特数据集的初始来源是论文[1]), 和 PHEME [42],各数据集的具体统计信息如下表1所示:

评价指标:使用二分类的准确率Accuracy作为主要评价指标。考虑到数据集不平衡的问题,同时使用二分类中精确率Precision,召回率Recall和F1值作为补充评价指标。

实验设置:Bert和ResNet50使用预训练的模型,也就是不fine-tune。注意:本文对于没有图像的纯文本新闻,会生成对应的虚假图像(dummy images)。其他参数的设置详见论文原文。

对比方法Baselines:包含单模态模型(方法1-4)和多模态模型(方法5-10):

  1. SVM-TS:使用启发式规则和线性SVM分类器检测虚假新闻;
  2. CNN:使用学习虚假新闻的特征表示,并且做早期的虚假新闻发现;
  3. GRU:基于RNNs学习隐藏层表示,同时可以用多层GRU学习一系列新闻组成的变长的时间序列的特征;
  4. TextGCN:用GCN学习单词和文档的表示,然后将他们一起建模为一个异构图;
  5. EANN:用一个事件判别器捕获新闻所属事件信息,提取事件无关的新闻特征;
  6. att-RNN:用注意力机制学习文本、图像、社交信息之间的关系;
  7. MVAE:用变分自编码器加一个二分类器做检测;
  8. SpotFake:用预训练的Bert提取文本特征,VGG-19提取图像特征;
  9. SpotFake+:8的增强版,使用预训练的XLNet提取文本特征;
  10. SAFE:用相似性关系捕获多模态特征;

实验结果和分析:

所有方法的虚假新闻检测结果值在论文中表2展示,表格较大,这里只展示微博数据集上的实验结果,其他两个数据集的实验结果见原文。

 本文从实验结果中得出以下结论:

  1. 在所有方法中,SVM-TS结果最差,说明人工定义的特征对识别虚假新闻是不够的;
  2. 基于深度学习的单模态方法(CNN,GRU)结果比SVM-TS好,说明它们提取特征的性能比传统方法好。但是在推特数据集上,CNN只比SVM-TS好,可能是因为CNN对于单词间长距离的语义信息没有捕获到。另外,TextGCN比CNN,GRU结果好,说明图结构对于捕获单词和文档的关系还是有效的;
  3. 多模态方法att-RNN和MVAE比单模态方法GRU等好,说明除了文本内容之外,额外的图像信息确实对检测虚假新闻是有用的;
  4. SAFE比CNN好,因为它也用了多个模态的信息。而SpotFake和SpotFake+在推特和微博数据集上比其他baselines方法都好,说明预训练的Bert和XLNet模型确实在提取文本特征方面更好;
  5. 本文模型HMCAN在推特和PHEME数据集上比其他方法都好。在微博数据集上不如SpotFake论文中的结果,但是在判断真实新闻上,本文的F1结果比它好。而在本文复现的SpotFake模型上的实验结果显示,本文模型的检测结果是比它好的。

HMCAN各部分的分析:如下表3所示,其中HMCAN-V代表去掉了视觉信息只使用文本内容的HMCAN变体;HMCAN-C代表去掉了多模态上下文注意力网络的变体;HMCAN-H代表去掉了层次化语义模块的变体,也就是只使用Bert的最后一层输出表示做后续任务。

 从上表3可以看出,去掉任何一个部分都会带来检测结果的降低,说明本文的视觉信息,两种模块都是有用的。(论文原文中对这里分析的很少,个人觉得还有可以挖掘的点,比如可以看出去掉视觉信息之后性能下降很大,去掉多模态部分下降是第二的,说明在这个过程中,图像也就是多模态的信息是非常重要的;而H部分相当于是对文本进行增强,说明文本信息提取已经很多了,所以增加并不多

多模态上下文注意力模块中alpha值的影响:

将两个contextual transformer的结果合在一起的方法中的alpha,不同值会对虚假新闻检测的结果有什么影响呢?本文进行了实验,如下图3所示,在Accuracy方面(左图),alpha=0.7时推特和PHEME数据集上结果最好,微博数据集上比0.1时差一点;在F1方面(右图), 微博上0.1最好,推特上0.3最好,PHEME上0.7最好。综上,本文实验中设置alpha=0.7,能在三个数据集上得到较好的结果。

层次化模块中分组数据g不同值的影响:

如下图4所示,当g的值从1升到3时,性能增加,从3之后性能开始下降。到12时会小幅度上升但是仍然低于g=3时,而且当g=12时意味着Bert的输出有12层,计算量太大,因此本文选择了设置g=3.

结论:

未来本文期望探索更有效的提取视觉特征的方式,或者利用额外的知识(knowledge)来辅助识别虚假新闻。

个人理解及问题:

  • 本文的虚假新闻检测器只使用了一层全连接层,它的输入特征维度是多少?直接降到2维会不会丢失太多特征?实验设置中只说文本和图像的维度是768,文本的分词数目是多少呢?后面contextual transformer最后的pooling是如何做的(均值还是求和还是拼接?),输出的C_{TI},C_{IT}的维度是多少呢?
  • 本文对视觉图像提取了region特征,没有使用图像的整体特征,如果加上一个会不会更有效呢?有些虚假新闻的特征能从图像的整体特征上反映出来?
  • 本文为什么要特地把SpotFake的论文结果拿出来对比呢?直接使用作者复现的SpotFake结果不就好了吗?而其他的方法又没有展示原始论文结果。

参考文献:

[1] C. Boididou, S. Papadopoulos, D. Dang-Nguyen, G. Boato, and Y. Kompatsiaris. 2016. Verifying multimedia use at mediaeval 2016. In MediaEval 2016 Workshop.

[12] Zhiwei Jin, Juan Cao, Han Guo, Yongdong Zhang, and Jiebo Luo. 2017. Multimodal fusion with recurrent neural networks for rumor detection on microblogs. In Proceedings of the 25th ACM international conference on Multimedia. ACM, 795–816.

[13] Dhruv Khattar, Jaipal Singh Goud, Manish Gupta, and Vasudeva Varma. 2019. MVAE: Multimodal variational autoencoder for fake news detection. In The World Wide Web Conference. 2915–2921.

[42] Arkaitz Zubiaga, Maria Liakata, and Rob Procter. 2017. Exploiting context for rumour detection in social media. In International Conference on Social Informatics. Springer, 109–123.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/15164.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

混合专家系统(MoE)

混合专家系统(Mixture of Experts) 原理: 混合专家系统(MoE)是一种神经网络,也属于一种combine的模型。适用于数据集中的数据产生方式不同。不同于一般的神经网络的是它根据数据进行分离训练多个模型&…

重磅来袭:复旦团队发布国内首个类 ChatGPT 模型 MOSS,邀公众参与内测!

前言 ChatGPT发布以来,基于指令学习技术的类ChatGPT模型在我国能否开发成功,成为业界关注的一个焦点。今天,从复旦大学自然语言处理实验室获悉,国内第一个对话式大型语言模型MOSS已由邱锡鹏教授团队发布至公开平台(htt…

聚观早报 | 科大讯飞称10月整体赶超ChatGPT;苹果遭欧盟警告

今日要闻:科大讯飞称10月整体赶超ChatGPT;苹果遭欧盟警告;科研人员研发纳米粒子治疗癌症;中小学教材不得夹带商业广告;Z-Library又被美国FBI查封了 科大讯飞称10月整体赶超ChatGPT 5 月 6 日,科大讯飞董事…

不得不说,关于分子对接,MOE有点牛!

来源公众号:计算机辅助药物设计 CADD MOE软件的虚拟仿真实验 多奈哌齐与乙酰胆碱酯酶的分子对接 本文基于MOE软件设计了多奈哌齐与乙酰胆碱酯酶的分子对接虚拟仿真实验。 通过分子结构预处理、分子对接以及数据分析等内容&#…

打脸质疑者!Mobileye市值冲高,公司CEO说出心声

三个多月前, Mobileye以21美元发行价第二次在美股IPO上市。截止上周五,该公司股价升至32.98美元,市值达到264.47亿美元。相比于美股其他自动驾驶公司股价跌跌不休,显然,资本市场更看重企业的盈利能力和可预见的营收规模…

科技公司 CEO 合谋“诈骗”自家公司超 900 万美元,现已被捕

整理 | 郑丽媛 出品 | CSDN(ID:CSDNnews) 虽然一直都知道许多 CEO 实际上并不能随意设定自己的薪酬,但还真没见过 CEO 为了赚钱“诈骗”自家公司的! 本周三,美国纽约南区地方法院和联邦调查局宣布已逮捕并起…

【论文阅读】Multimodal Fusion with Co-Attention Networks for Fake News Detection --- 虚假新闻检测,多模态融合

本博客系本人理解该论文之后所写,非逐句翻译,预知该论文详情,请参阅论文原文。 论文标题:Multimodal Fusion with Co-Attention Networks for Fake News Detection; 作者:Yang Wu, Pengwei Zhan, Yunjian…

多维考察ChatGPT

2022年11月30日,OpenAI正式发布了一款聊天机器人ChatGPT,它不仅会聊天,还会编写代码、撰写文案、代写论文、即时翻译……一时让人分不清这是“作业神器”,还是“竞业凶器”。不管你爱它还是恨它,都不能无视它。在商业上…

「国际科技信息中心SCITIC论坛」从ChatGPT、流浪地球、虚拟数字人、AIGC探索数字化创意,展望人类与AI的共创...

点击蓝字 关注我们 AI TIME欢迎每一位AI爱好者的加入! 2023年2月24日,由国际科技信息中心主办,AI TIME承办的SCITIC论坛——数字化创意探索,从流浪地球说起完美收官。SCITIC论坛由国际科技信息中心倾力打造,围绕深圳“…

ChatGPT 生成Mysql学生表,课程表与成绩表并插入测试数据

想学习SQL语句,又不想自己创建表,也不想造数据,这个时候ChatGPT可以一键帮我们做好。 我们可以将SQL 语句复制出来。 -- 创建学生表 CREATE TABLE students (id INT(11) NOT NULL AUTO_INCREMENT,name VARCHAR(50) NOT NULL,gender ENUM(男, 女) NOT NULL,age INT(3) NOT N…

【ChatGpt变形计】| 让使用变得更加便利 | 随笔

🦁 狮子有话说 ChatGpt是一款基于人工智能技术的聊天机器人,可以通过自然语言的方式与用户进行交互。它不仅可以回答用户的问题,还可以进行智能对话,甚至可以进行情感分析,让用户感受到更真实的人性化交互。无论你是想…

动动嘴就能喝上咖啡,ChatGPT做到了

当ChatGPT接管咖啡吧后,会发生什么呢?让我们来看看吧! 众所周知,打工人不能失去咖啡。然而,不论是点外卖还是自己做,都需要耗费不少的时间。如果,只要我说一句: “我要喝咖啡&#x…

[ChatGPT]Open AI开放ChatGPT模型API,允许第三方开发人员将其集成到自己的应用和服务中

ChatGPT大事件 3月2日,Open AI在官方博客宣布,开放了ChatGPT和Whisper的模型API,用户可将其集成在应用程序等产品中。 注意, Open AI开放的是ChatGPT模型的API。也就是说,企业、个人开发者都能使用目前最强大的模型之…

用ChatGPT创建一个REST API

ChatGPT是OpenAI公司开发的大型语言模型。在本文中,主要探讨如何使用ChatGPT在C#中创建REST API。 一、简介 ChatGPT是由人工智能研究中心OpenAI创建的尖端自然语言处理模型,OpenAI公司是由埃隆马斯克、萨姆奥特曼和格雷格布罗克曼共同创办的。该模型于…

Meta没做成的事OpenAI要干?ChatGPT之父推出加密项目Worldcoin

大模型焦虑还未停歇,鬼才创始人瞄准了加密领域。 继ChatPT之后,OpenAI的首席执行官Sam Altman推出的加密货币项目Worldcoin近日被透露融资近一亿美金,彻底搅翻了科技界与Web3的平静。 据官网描述,Worldcoin由Sam和Max Novendstern…

ChatGPT助力校招----面试问题分享(六)

1 ChatGPT每日一题:对比串口、IIC、SPI通信协议 问题:对比串口、IIC、SPI通信协议 ChatGPT:串口、I2C和SPI都是数字系统中常用的通信协议。它们各自有着不同的优缺点,下面是它们的比较: 串口通信 串口通信是一种最…

ChatGPT助力码上行动:零基础学会Python编程

摘要: Python编程作为一种简洁、易学且功能强大的编程语言,正逐渐成为初学者进入编程领域的首选。然而,对于零基础的学习者来说,学习编程仍然存在一定的挑战。本文将介绍如何利用ChatGPT的强大语言生成能力,助力零基础…

ChatGPT助力DevOps的优势与局限

一、前言 DevOps 是一种方法论,旨在提高软件开发和 IT 运营团队的协作和效率。DevOps 涉及各种任务和流程的自动化,例如规划、编码、测试、部署、监控和故障排除。然而,其中一些任务和流程仍然有大量任务需要人工手动处理,而这会…

ChatGPT助力校招----面试问题分享(三)

1 ChatGPT每日一题:MOS管与三极管的区别 问题:MOS管和三极管的区别有哪些 ChatGPT:MOS管(金属氧化物半导体场效应管)和三极管(双极性晶体管)是两种不同的半导体器件,它们在工作原理、结构和性能方面存在一些重要的区别。以下是它…

ChatGPT助力校招----面试问题分享(四)

1 ChatGPT每日一题:电阻如何选型 问题:电阻如何选型 ChatGPT:电阻的选型通常需要考虑以下几个方面: 额定功率:电阻的额定功率是指电阻能够承受的最大功率。在选型时,需要根据电路中所需要的功率确定所选…