虚假新闻检测概述

几个概念

社交网络的新闻往往包括新闻内容社交上下文内容,以及外部知识。其中新闻内容指的是文章中所包含的文本信息以及图片视频等多模态信息。社交上下文信息指的是新闻的发布者,新闻的传播网络,以及其他用户对新闻的评论和转发。外部知识指客观事实知识,通常由知识图谱表示外部知识。
虚假新闻检测的定义是给定新闻文章的新闻内容,社交上下文内容,以及外部知识,去判断新闻文章的真假。

分类(方法一)

根据Jointly embedding the local and global relations of heterogeneous graph for rumor detection论文来概述

相关工作

谣言检测的目标是根据社交媒体平台上发布的微博文本的相关信息(如文本内容、评论、传播方式、传播方式等)判断其是否为谣言。 相关作品可分为以下几类:

(1) 基于特征的分类方法

一些早期的研究侧重于基于手工制作的特征来检测谣言。 这些特征主要是从文本内容和用户的个人资料信息中提取的。Castillo等人在“Information credibility on twitter”利用各种类型的特征,即基于文本、基于用户、基于主题和基于传播的特征来研究 Twitter 上新闻的可信度,Yang等人在“Detect Rumors Using Time Series of Social Context Information on Microblogging Websites”中基于谣言生命周期的时间序列探索这些特征的时间特征,以融合各种社会背景信息
缺点:然而,社交媒体数据的规模和复杂性带来了许多技术挑战。 首先,社交媒体中使用的语言是高度非正式的、不合语法的和动态的,因此不能直接应用传统的自然语言处理技术。 其次,总是有一种或几种类型的手工制作的功能不可用、不充分或被操纵。

(2) 深度学习方法

近年来研究人员应用深度学习模型来自动学习用于谣言检测的有效特征
16年由香港中文大学的马晶博士发表的“Detecting rumors from microblogs with recurrent neural networks“首次将深度学习技术应用到虚假新闻检测中。该方法将新闻的每个句子输入到循环神经网络RNN,LSTM或者GRU中,利用循环神经网络的隐层向量表示新闻信息,将隐藏层信息输入到分类器中,得到分类结果。
Yu等人在“A Convolutional Approach for Misinformation Identification”提出了一种基于卷积神经网络(CNN)的错误信息识别卷积方法,该方法可以捕获重要特征之间的高级交互。
缺点:然而,这些方法要么忽略传播模式,要么将传播路径建模为序列结构,不能充分利用微博的传播信息。 此外,这些方法很少关注谣言的早期发现。

(3) 传播树相关方法

与以往注重利用微博文本信息的方法不同,树相关方法的传播侧重于真假信息传播特性的差异。 Fang Jin等人在“Epidemiological modeling of news and rumors on Twitter”利用流行病学模型来描述 Twitter 上由真实新闻和虚假新闻产生的信息级联。 吴等人在“False rumors detection on sina weibo by propagation structures”提出了一个随机游走图内核来对消息的传播树进行建模,以改进谣言检测。Sampson等人在“Leveraging the Implicit Structure within Social Media for Emergent Rumor Detection” 中在有关新闻故事的对话片段之间应用隐式联系来预测其真实性。 马等人在“Detect rumors in microblog posts using propagation structure via kernel learning”中 提出了一种基于内核的方法,通过传播树来捕获微博帖子传播的高阶模式,这为微博如何随时间传播和发展提供了有价值的线索。
缺点:然而,社交媒体上的消息传播本质上是以异构图的形式传播的。 在图表中,用户传递或转发消息以使其传播速度更快、范围更广。 这些基于传播树的方法只是探索了信息传输结构的差异,没有考虑不同传播树之间的关系。

分类(方法二):

根据这篇文章(点我)概述

一、基于文章信息的虚假新闻检测

(1) 基于文本的虚假新闻检测

基于文本的有监督虚假新闻检测方法将新闻的文本信息作为输入,对虚假新闻进行检测。
从19-20年共六篇突出性工作给虚假新闻检测带来了巨大影响。
在这里插入图片描述

①IJCAI16年由香港中文大学的马晶博士发表的“Detecting rumors from microblogs with recurrent neural networks“首次将深度学习技术应用到虚假新闻检测中。

该方法将新闻的每个句子输入到循环神经网络RNN,LSTM或者GRU中,利用循环神经网络的隐层向量表示新闻信息,将隐藏层信息输入到分类器中,得到分类结果。
在这里插入图片描述

②IJCAI17年的文章“A Convolutional Approach for Misinformation Identification“首次利用卷积神经网络建模新闻文章。

该工作将新闻事件的各个post映射到向量空间,之后将各个post向量拼接形成一个矩阵,之后利用卷积神经网络提取文本特征,将得到的嵌入向量输入到分类器中,得到最后的分类结果。
在这里插入图片描述

③WWW18年香港中文大学马晶博士的文章“Detect rumor and stance jointly by neural multi-task learning “第一次将multi-task的思想应用到虚假新闻检测中。

该文章将虚假新闻检测任务和立场分类任务组合成一个多任务模型,利用RNN作为backbone,训练两个任务,取得了不错的结果。
在这里插入图片描述

④WWW19年香港中文大学马晶博士的文章“.Detect rumors on twitter by promoting information campaigns with generative adversarial learning”第一次将对抗训练的思想应用到虚假新闻检测中。

该文章利用生成器将谣言转化为非谣言,将谣言转化为非谣言,扩展了训练数据。之后将生成器生成的新闻和原始新闻输入到判别器中进行虚假新闻检测。利用对抗学习,对抗训练生成器和判别器,提升模型的鲁棒性和分类准确率。
在这里插入图片描述

⑤发表在EMNLP19的文章“Do Sentence Interactions Matter? Leveraging Sentence Level Representations for Fake News Classification”将新闻文章建模为一张以句子为节点,以句子间相似度为边的图。

将虚假新闻检测问题转化为图分类问题。利用GCN融合图中节点之间的信息,获得节点嵌入向量,将节点向量池化得到图嵌入,输入分类器中进行分类,取得了不错的效果。
在这里插入图片描述

⑥发表在WWW20的文章“Vroc: Variational autoencoder-aided multi-task rumor classifier based on text”使用变分自动编码器VAE自编码文本信息的方式得到新闻文本的嵌入表示,并且将得到的新闻向量进行多任务学习,提升了模型的效果。

在这里插入图片描述

(2) 基于视觉信息的有监督虚假新闻检测

新闻中不仅包含文本信息,还包含图片,视频等视觉信息。

随着深度学习的兴起,大量的工作使用卷积神经网络VGG或者ResNet对图片进行特征抽取,利用抽取到的特征进行虚假新闻检测。但现有的图片造假技术可以更改图像的语义信息,传统基于CNN的模型只可以提取图片像素级信息,无法识别图片是否经过伪造

计算机视觉方面的研究表明,经过修图软件伪造得到的图片与原始图片在频域的特征会有很大的不同。基于此,中科院曹娟老师团队提出虚假图片判别器MVNN,该工作发表在ICDM19上。MVNN提取图片的空域特征和频域特征,利用频领特征判别图片是否经过修图软件进行伪造,利用空域特征识别图片的语义信息,将得到的空域embedding和频域embedding拼接到一起,输入到分类器重,得到分类结果。
在这里插入图片描述

(3) 基于多模态信息的有监督虚假新闻检测

以上研究表明文本信息和图片信息在虚假新闻检测任务是有效的。很直觉的想法是将文本信息和视觉信息结合起来进行虚假新闻检测。
现有的基于多模态信息进行虚假新闻检测方法大致可以分为三类:

①将多模态信息进行拼接融合:

随着深度神经网络和预训练模型的兴起,出现很多功能强大的特征提取器,比如文本特征提取器Bert,transformer等,视觉特征提取器VGG,Resnet等。很多学者利用视觉特征提取器提取视觉信息,利用文本特征提取器提取文本特征,之后将视觉信息和文本信息进行拼接融合,进行虚假新闻检测。
2019年发表在BIG MM的文章“Spotfake: A multi-modal framework for fake news detection “利用VGG19提取视觉信息,利用BERT提取文本信息,将视觉信息和文本信息拼接,输入到分类器中,对虚假新闻进行分类。
在这里插入图片描述
2020年发表在AAAI的“Spotfake+: A multimodal framework for fake news detection via transfer learning “利用VGG提取视觉特征,利用XLNET提取文本特征,将两者进行拼接输入到分类器中,对虚假新闻进行分类。
在这里插入图片描述
计算机研究与发展的文章“. MSRD: Multi-Modal Web Rumor Detection Method“考虑了新闻图片中包含的文本信息。使用LSTM建模文本信息以及图片中的文本信息,使用VGG建模视觉信息,最后将视觉信息,图片中的文本信息,新闻本身的文本信息拼接,得到最终的新闻表示,送入到分类器中,得到最终的分类结果。

但是直接将视觉信息和文本信息拼接的方法过于简单,无法充分利用多模态信息,很多学者设计一些辅助任务帮助模型更好的理解多模态信息。
在这里插入图片描述
发表在KDD18的“Eann: Event adversarial neural networks for multi-modal fake news detection “利用VGG提取视觉特征,利用Text-CNN提取视觉特征,将视觉信息和文本信息拼接得到新闻的表示。为了让模型更好的利用多模态信息,EANN设计了一个辅助任务,事件鉴别。事件鉴别器将拼接的多模态新闻信息作为输入,输出事件的类别。通过辅助任务更好的理解多模态信息,从而帮助虚假新闻检测。
在这里插入图片描述
发表在WWW18的文章“Mvae: Multimodal variational autoencoder for fake news detection“利用VGG提取图像特征,利用双向的LSTM提取文本特征,将视觉特征和文本特征拼接得到新闻的表示。为了让模型更好的利用多模态信息,MVAE设计了一个辅助任务,新闻重构任务。通过encoder编码新闻的视觉信息和文本信息,通过decoder将视觉信息和文本信息进行重构,通过重构任务,更好的融合新闻的多模态信息。最后,将编码器得到的新闻embedding输入到分类器中,得到新闻的分类。

②利用模态之间的对比识别虚假新闻

大量学者认为如果新闻图片内容与文本内容不符,则说明新闻是虚假新闻。基于该假设,学者将新闻的图片信息与文本信息编码后,计算两者的相似度,如果相似度较高,则说明新闻的文本信息和视觉信息匹配,为真实新闻;如果相似度较低,则说明新闻的文本信息和视觉信息彼此不匹配,为虚假新闻。
KDD20年发表的文章“Similarity-Aware Multi-modal Fake News Detection[J]. Advances in Knowledge Discovery and Data Mining“是检测新闻图文相符性的代表工作。该工作利用image2text模型将视觉信息转化为文本信息,并通过全连接层将文本信息和视觉信息映射到同一向量空间中,之后对比视觉信息和文本信息之间的相似度。如果相似度较高,则图文相符,为真实新闻;如果相似度较低,则图文不符,为虚假新闻。
在这里插入图片描述

IPM21发表的文章“Detecting fake news by exploring the consistency of multimodal data“利用BERT建模文本信息,利用ResNet建模视觉信息,计算两者之间的相似度,判别图文是否相符。

③多模态信息增强

新闻往往即包含文字信息,又包含视觉信息,两种模态信息可以相互增强,视觉信息可以帮助模型更好的理解文本信息,文本信息也可以帮助模型更好的理解视觉信息。基于此,很多学者提出多模态之间的信息增强可以帮助模型更好的理解新闻内容,从而更好的分析新闻的真假。

中科院曹娟老师发表在ACM MM17的文章“Multimodal fusion with recurrent neural networks for rumor detection on microblogs“首次提出利用模态之间的注意力对模态之间的信息进行增强。该工作使用LSTM提取文本信息,使用VGG提取视觉信息,之后利用模态之间的注意力机制增强模态之间的信息理解,更好的对多模态信息进行理解,将融合的多模态信息输入到分类器中进行分类,取得不错的效果。
在这里插入图片描述

ACM MM19的文章“Multi-modal knowledge-aware event memory network for social media rumor detection“利用VGG提取视觉信息,利用双向GRU提取文本信息,利用注意力机制获得文本信息增强的视觉表示,更好的理解了多模态信息。
在这里插入图片描述
ACL21的文章“Multimodal Fusion with Co-Attention Networks for Fake News Detection “借鉴了人们阅读新闻时的习惯”人们通常是阅读一下文本,再看看图片,再阅读文本,再看看图片“,设计了双层的图片文本信息co-attention,从而更好的融合图片信息和文本信息。该工作认为图像的频域和空域信息对虚假新闻检测都是有必要的,因此作者使用VGG建模图片的空域信息,利用CNN建模图片的频域信息,使用co-attention将频域信息和空域信息进行融合,得到更好的图片表示。
在这里插入图片描述

SIGIR21年的文章使用BERT建模文本信息,使用ResNet建模视觉信息,使用co-attention的方法利用文本信息对视觉信息进行增强,利用视觉信息对文本信息进行增强。该工作还注意到了分层的语义信息,认为每一层的语义信息都对虚假新闻的检测有所帮助,因此该工作将BERT每四层的信息输出与图片信息进行融合,很好的利用了分层的语义信息。
在这里插入图片描述
CIKM21的工作利用预训练的BERT建模文本信息,利用ResNet建模视觉信息,利用多头transformer对文本信息和视觉信息进行融合,从而获得更好的新闻表示。除此之外,该工作还利用有监督的对比学习方法学习真实新闻和虚假新闻的高阶特征,从而更好的区分真实新闻和虚假新闻。该工作选择话题相似,且真实性相同的新闻作为正样本,选择话题相似,且真实性不同的新闻作为负样本,利用有监督的对比学习拉近正例之间的距离,拉远正例与负例之间的距离,从而学习到真实新闻和虚假新闻的高阶特征,更好的区分真实新闻和虚假新闻。
在这里插入图片描述

中科院曹娟老师团队发表在ACM MM21年的文章“Improving Fake News Detection by Using an Entity-enhanced Framework to Fuse Diverse Multimodal Clues”综合关注了多模态之间的互补信息,多模态的信息增强,以及多模态信息之间的对比。

该工作考虑了图片中的嵌入文字,图片实体,以及图片整体信息。

将图片中的嵌入文字作为文本信息的补充,利用BERT建模文本信息和图片中的嵌入文字。该工作利用VGG提取整张图片信息,利用目标识别算法提取图像实体。该工作将文本信息与图像整体信息利用co-attention进行融合从而实现多模态信息增强。该工作计算文本实体与视觉实体之间的相似度,从而计算文本信息与视觉信息的相关程度。
在这里插入图片描述

二,基于社交上下文的虚假新闻检测

三:结合外部知识的虚假新闻检测方法

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/29703.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

认识ChatGPT

ai是由dutuai训练的一种大型自然语言处理模型,能够进行自然语言对话。它基于预训练的语言模型gpt(generative pre-trained transformer),具有强大的自然语言理解和生成能力。ai可以通过了解上下文并推断回应来与用户进行交互。它被…

ChatGPT之后何去何从?LeCun新作:全面综述下一代「增强语言模型」

来自:新智元 【导读】语言模型该怎么增强? ChatGPT算是点燃了语言模型的一把火,NLP的从业者都在反思与总结未来的研究方向。 最近图灵奖得主Yann LeCun参与撰写了一篇关于「增强语言模型」的综述,回顾了语言模型与推理技能和使用工…

数据库mysql

目录 数据库的实用性 操作网上商城数据库系统 维护数据库的完整性(过) 维护数据库的完整性是确保数据库数据的正确性和一致性的关键。以下是一些常见的方法来维护数据库的完整性: 添加修改和删除数据 查询网上商城系统数据 选择列 排…

reggie

分页 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta http-equiv"X-UA-Compatible" content"IEedge"><meta name"viewport" content"widthdevice-width, initia…

Chat GPT是什么?初学怎么使用Chat GPT?

1.Chat GPT介绍 ChatGPT的全称是"Chat Generative Pre-training Transformer"&#xff0c;中文意思是“对话生成预训练变形器”。它是一种基于预训练的自然语言处理模型&#xff0c;旨在实现智能对话生成和理解。通过在大量文本数据上进行预训练&#xff0c;ChatGPT可…

AIGC for code(AIGC/AI生成代码/生成式AI之代码生成/AI编程工具/自动编程/自动生成代码/智能编程工具/智能编程系统)

AIGC&#xff0c;Artificial Intelligence Generated Content&#xff0c;人工智能生成内容 AIGC for code&#xff0c;AI生成代码 1 Github Copilot 1.1 简介 Copilot是由微软的子公司Github与openAI共同开发的人工智能&#xff08;AI&#xff09;驱动的编程助手。它能够直…

Windows下搭建局域网内简易git服务器

这里写自定义目录标题 概述配置步骤1.任意位置创建git 仓库2.启动Git Daemon3.其他电脑克隆工程4.开机自动启动5.其他配置注意事项 概述 由于和朋友小规模制作项目&#xff0c;又使用了UE5这样的庞然大物&#xff0c;准备整一个本地轻量化一些git版本管理。 查阅资料是发现git…

在Oracle Linux上部署Yunzai Bot v3保姆式教程/甲骨文云/云崽Bot/原神

去我的博客查看本文&#xff1a;在Oracle Linux上部署Yunzai Bot v3保姆式教程 – 肚 (iocky.com) 本文也在Github与gitee可用。 初始配置 直接注册最低配置的就ok了&#xff0c;这里不再赘述如何注册Oracle Cloud以及开设Compute Instance。 先点进目标实例&#xff0c;然后点…

保姆级教程:Linux和Windows下本地化部署Vicuna模型

目录 文章摘要一、Vicuna简介1. Vicuna模型定义2. Vicuna模型的应用场景3. Vicuna模型的训练数据4. Vicuna模型的版本5. 性能评估 二、linux 操作系统下部署1. 环境介绍2. 安装Python3.10.72.1 下载Python3.10.7安装包2.2 安装gcc编译器2.3 安装依赖包2.4 升级openssl版本2.4.1…

LLMs 诸神之战:LangChain ,以【奥德赛】之名

LLMs 一出&#xff0c;谁与争锋&#xff1f; 毫无疑问&#xff0c;大语言模型&#xff08;LLM&#xff09;掀起了新一轮的技术浪潮&#xff0c;成为全球各科技公司争相布局的领域。诚然&#xff0c;技术浪潮源起于 ChatGPT&#xff0c;不过要提及 LLMs 的技术发展的高潮&#x…

chatgpt赋能python:Python游戏辅助教程:让你的游戏更加容易

Python游戏辅助教程&#xff1a;让你的游戏更加容易 介绍 Python是一种非常受欢迎的编程语言&#xff0c;具有灵活性和易用性。Python可用于编写各种类型的程序&#xff0c;包括游戏辅助工具。Python的易用性和维护性&#xff0c;使得它成为游戏玩家、开发人员和测试人员的首…

Oracle账户被锁定解决方法

当用PLSQL登录Oracle时提示ORA-28000: the account is locked&#xff1b; 这个提示就是当前用户被锁定&#xff1b; 为什么会被锁定呢&#xff1f; 用户登录十次没有成功的&#xff0c;当前用户会被锁定&#xff1b;安装时没有解锁的&#xff1b; 下面我们用两种比较常用的方…

chattr、lsattr目录锁定解锁与查看

创建一个目录&#xff0c;并在目录中创建一个文件夹和文件 [rootk8s-m-01 ~]# mkdir /aaa/ [rootk8s-m-01 ~]# cd /aaa/ [rootk8s-m-01 aaa]# mkdir bbb [rootk8s-m-01 aaa]# touch ccc [rootk8s-m-01 aaa]# ls bbb ccc 使用chattr对/aaa/目录下所有文件进行锁定可以发现锁定…

python编程获取《续蜀山剑侠传》目录信息:目录名称和网址

一直很欣赏武侠小说宗师还珠楼主李寿民的扛鼎之作《蜀山剑侠传》&#xff0c;可惜由于种种原因&#xff0c;《蜀山剑侠传》并未写完。这着实令还珠迷们扼腕&#xff0c;也有不少人继写了《蜀山剑侠传》&#xff0c;但是良莠夹杂&#xff0c;其中有一位退休公务员写的《续蜀山剑…

chatgpt赋能Python-python_nah

Python Nah&#xff1a;一场涵盖搜索引擎的革命 一、Python Nah的简介 Python Nah是一种基于Python编程语言的搜索引擎技术&#xff0c;旨在改进搜索引擎的性能和搜索结果的准确性。与其他搜索引擎技术不同&#xff0c;Python Nah利用了Python的机器学习优势&#xff0c;并且…

可汗学院统计学1-16课笔记

[第1课] 均值 中位数 众数 均值(平均值) 数据之和 / 数据个数中位数 数据排序后&#xff0c;处在中间的数&#xff08;如果两位数取平均值&#xff09;众数 出现次数最多的数,一组数据可以有多个众数 import numpy as np import pandas as pd#定义数据 datanp.array([1,2,…

余承东回应高通对华为恢复 5G 芯片供应;ChatGPT 发布重要更新;微软推出免费 AI 入门课|极客头条...

「极客头条」—— 技术人员的新闻圈&#xff01; CSDN 的读者朋友们早上好哇&#xff0c;「极客头条」来啦&#xff0c;快来看今天都有哪些值得我们技术人关注的重要新闻吧。 整理 | 梦依丹 出品 | CSDN&#xff08;ID&#xff1a;CSDNnews&#xff09; 一分钟速览新闻点&#…

23.4.25 Go学习日记

1. Go的命名规范&#xff08;生成自ChatGPT&#xff09; 1.1 包名 包名应该小写并尽可能用单个简短的词组&#xff0c;不要使用下划线或混合大小写。 1.2 文件名 Go 语言的文件名通常为小写字母&#xff0c;可以包含下划线 (_) 或点 (.)&#xff0c;但不建议&#xff0c;并确…

微软亚研院:Language Is Not All You Need

源 | 量子位 还记得这张把谷歌AI搞得团团转的经典梗图吗&#xff1f; 现在&#xff0c;微软亚研院的新AI可算是把它研究明白了。 拿着这张图问它图里有啥&#xff0c;它会回答&#xff1a;我看着像鸭子。 但如果你试图跟它battle&#xff0c;它就会改口&#xff1a;看上去更像兔…

2023需要重点关注的四大AI方向

2023需要重点关注的四大AI方向 过去10年&#xff0c;人工智能从实验室走向各行各业&#xff0c;成为一种普遍技术应用于众多领域。根据IDC的数据&#xff0c;2022年全球AI市场规模达到4328亿美元&#xff0c;增长近20%。而Precedence Research预计&#xff0c;到2030年&#xf…