ACL22--基于CLIP的非代表性新闻图像的多模态检测

摘要

这项研究调查了假新闻如何使用新闻文章的缩略图,重点关注新闻文章的缩略图是否正确代表了新闻内容。在社交媒体环境中,如果一篇新闻文章与一个不相关的缩略图一起分享,可能会误导读者对问题产生错误的印象,尤其是用户不太可能点击链接并消费整个内容的情况下。我们提议使用预训练的CLIP(Contrastive Language-Image Pretraining)表示来捕捉多模态关系中语义不一致的程度。从源级分析中,*我们发现假新闻比一般新闻更倾向于使用与主要内容不一致的图像。*进一步,我们尝试检测图文不一致的新闻文章。评估实验表明,基于CLIP的方法可以成功检测出缩略图在语义上与新闻文本无关的新闻文章。这项研究通过提供一种新视角来应对网络假新闻和错误信息,为研究做出了贡献。代码和数据集可在 https://github.com/ssu-humane/fake-news-thumbnail上获取。

3.1 Problem and hypothesis

我们将新闻标题和缩略图(设置为新闻HTML中的meta_img)作为分析的目标,原因如下:新闻学研究表明,新闻标题应提供新闻文章的简洁摘要(Smith和Fowler Jr,1982),因此我们把标题视为新闻文章的代表。在图像中,我们使用meta_img,因为它在社交媒体上分享时会自动用作预览。也就是说,当一篇新闻文章被分享时,缩略图和新闻标题成为首先展示给用户的内容。因此,如果缩略图不能正确代表新闻文章的主要内容,它可能会误导读者对目标问题产生错误的印象,因为社交媒体用户倾向于在不点击链接的情况下消费新闻片段(Gabielkov等人,2016)。

3.2 Method

在这里插入图片描述

3.3 Data Collection

目标媒体选择:为了评估主要研究假设,我们选择了在Twitter上运营认证媒体账户的九家新闻机构作为分析对象。具体来说,我们关注了五家普通新闻媒体(FoxNews、New York Post、Reuters、The Guardian、Slate)和四家假新闻媒体(Activist Post、Judicial Watch、End Time Headlines、WorldNetDaily)。假新闻的目标列表是从先前研究(Grinberg等人,2019)中被标记为红色新闻的媒体来源中选出的,这些媒体被定义为“传播明显反映了有缺陷的编辑过程的虚假信息”。我们从同一项先前工作中被标记为绿色的媒体中选出了五家普通新闻。我们确认了本研究考虑的普通新闻来源在政治偏见评级3上是平衡的。

推文收集:我们使用Twint库4从2021年1月到数据收集时(2021年9月)收集了推文。我们排除了不包含其新闻文章URL的推文。

新闻文章收集:对于每个新闻URL,我们使用newspaper3K库5获取了新闻标题、正文文本和缩略图URL。我们将新闻数据以JSON格式存储,并通过wget命令下载了图像。当新闻数据没有提供缩略图的URL,或者我们无法从缩略图URL下载任何图像时,我们没有将其包含在我们的数据收集中。

为了观察研究结果的稳健性,我们在原始数据集(Whole)之外,还构建了两个过滤版本的数据集进行分析。首先,我们将新闻话题的范围限定在COVID-19上,通过选择包含至少一个与COVID-19相关的关键词的新闻文章:coronavirus、corona、covid-19、corona virus、covid、covid19、sars-cov-2、pandemic、chinese virus、chinesevirus和corona。COVID-19问题在CLIP训练期间得到了广泛报道,因此我们假设CLIP嵌入能够比随机事件更好地理解COVID-19的语境。我们称这个经过COVID-19过滤的数据集为COVID。接下来,为了最大限度地减少假阴性的数量(即,模型认为相关的配对不相关),我们进一步过滤了COVID数据集中缩略图中包含人脸的新闻文章(COVID-wo-faces)。在初步分析中,我们发现CLIP在匹配文本中的人名和他们在图像中的外观方面并不擅长,特别是当他们不是名人时(例如,图3和图A1左下角的例子)。我们通过Google Cloud Vision的人脸检测模型检测包含人脸的图像。

3.4 Results

在这里插入图片描述

图3展示了具有CLIPScore值的标题-图像对。顶部的三个例子展示了具有高CLIPScore的配对,这些是从CLIPScore排名前500的新闻文章中抽取的。底部的三个例子是从CLIPScore排名后500的例子中随机选取的。高分例子展示了CLIP在理解书面文本和视觉对象外观方面的能力。另一方面,底部的三个例子展示了低CLIPScore可能代表的两种情况。首先,整个数据集中的《纽约邮报》的例子表明,CLIP编码器在识别图像中的一个人的外观、文本中的名字或两者方面存在困难。其次,COVID和COVID-wo-faces数据集中的低分例子代表了缩略图不代表新闻文本的情况,这表明CLIPScore在捕捉具有非代表性缩略图的新闻文章方面的潜力。因此,我们使用CLIPScore来理解假新闻和可信媒体在新闻标题和缩略图之间语义相关性方面的差异,涵盖三个数据集。过滤后的数据集的观察结果可以作为稳健性检查。
在这里插入图片描述

图4展示了假新闻和普通新闻在新闻标题和缩略图的语义相关性方面的差异,由CLIPScore测量。我们进行了t检验以评估差异的统计显著性,并计算了Cohen’s d来衡量其效应大小。x轴展示了CLIPScore阈值,y轴展示了从分布中CLIPScore小于或等于阈值的概率。结果表明,假新闻往往比普通新闻具有更低的CLIPScore,这一趋势在三个数据集中都具有统计显著性。相应的效应大小分别为整个数据集、COVID数据集和COVID-wo-faces数据集的0.596、0.545和0.594。这些值被认为是中等效应大小,表明假新闻倾向于使用与新闻标题语义上相似度较低的缩略图,因此支持了第3.1节中的主要假设。

4 Detection of News Articles with the Incongruous Imag

在这里插入图片描述
CLIP分类器:图6展示了所提出模型的神经架构。CLIP分类器接收来自CLIP文本和视觉编码器的文本嵌入c和视觉嵌入v作为输入,并将这对图文分类为“一致”(匹配良好)或“不一致”(匹配不佳)。该模型被训练以最小化二元交叉熵损失,使用AdamW优化器(学习率为0.001)进行训练,批量大小为128。在训练期间我们没有更新CLIP主干网络。我们使用了阈值为1.0的梯度裁剪和早停法。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/417546.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

027、架构_资源_GTM

系统级GTM:默认的GTM,当创建分片集群时,如果不创建实例级GTM,则会用系统级GTM 本章节主要介绍GTM 集群的新增、删除、配置、绑定等管理操作。 新增GTM集群 摘要新增GTM集群,与租户相绑定,可查看绑定租户与配置集群参数设置,租户可重绑定其他正常可用的GTM集群。 步骤1.…

62、Python之函数高级:装饰器导致函数元数据丢失?三种方法搞定

引言 前面我们通过几篇文章介绍了关于高阶函数中装饰器的内容,我们已经能够实现对函数的动态增强,在遵从开闭原则的基础上,动态提高代码的可复用性。如果对装饰器的基础不太了解,可以回看前面几篇文章。 装饰器的引入带了极大的…

打包macos应用到dmg文件

打包macos应用到dmg文件 由于macos自带的看图软件太麻烦了,还受到沙箱的限制,访问本地文件各种询问,最主要的是不能打开一个图片之后不能直接查看同文件夹下的其他图片,感觉还是挺麻烦的。想看其他图片的时候还要全选才行。 而且…

某云彩SRM2.0任意文件下载漏洞

文章目录 免责申明搜索语法漏洞描述漏洞复现修复建议 免责申明 本文章仅供学习与交流,请勿用于非法用途,均由使用者本人负责,文章作者不为此承担任何责任 搜索语法 fofa icon_hash"1665918155"漏洞描述 某云采 SRM2.0是一款先…

mysql的整理

插入数据: INSERT INTO 表名 (字段名1, 字段名2, ...) VALUES (值1, 值2, ...); insert into employee(id,workno,name,gender,age,idcard,entrydate) values(1,1,Itcast,男,-1,123456789012345678,2000-01-01); insert into employee values(3,3,韦一笑,男,38,1…

11 Java 方法引用、异常处理、Java接口之函数式编程(接口知识补充Function<T,R>、BiFunction<T, U, R>和自定义泛型接口)

文章目录 前言一、Java接口之函数式编程 --- 接口知识补充1 Function<T,R>泛型接口2 BiFunction<T, U, R>泛型接口3 自定义泛型函数式编程接口4 使用lambda表达式、方法引用进行函数式编程二、方法引用1 方法引用初体验(以Array.sort()方法为例)(1)什么是方法引…

打造温馨家居,全屋智能家居解决方案

智能家居全屋解决方案覆盖全屋照明、温度、娱乐影音等各种常见的日常生活需求、可通过一键设置联动场景来控制自己的家、也可通过语音对话来操控家中的照明、电器及各种场景模式任意切换&#xff0c;一键升级自己的智能家。 1.入户解决方案 通过智能指纹锁穿过玄关、进入大厅、…

Android Studio 加载多个FLutter项目

按顺序操作即可 选择工程 选择Modules, 导入 module 选中创建module 选择要导入的目录&#xff0c;只选择主目录&#xff0c;下面的文件不要选 添加完成&#xff0c;点击ok后&#xff0c;会进行导入 最终导入成功

Java数据结构之ArrayList(如果想知道Java中有关ArrayList的知识点,那么只看这一篇就足够了!)

前言&#xff1a;ArrayList是Java中最常用的动态数组实现之一&#xff0c;它提供了便捷的操作接口和灵活的扩展能力&#xff0c;使得在处理动态数据集合时非常方便。本文将深入探讨Java中ArrayList的实现原理、常用操作以及一些使用场景。 ✨✨✨这里是秋刀鱼不做梦的BLOG ✨✨…

专题一_双指针_算法专题详细总结

目录 双指针 对撞指针&#xff1a;⼀般⽤于顺序结构中&#xff0c;也称左右指针。 快慢指针&#xff1a;⼜称为⻳兔赛跑算法&#xff0c;其基本思想就是使⽤两个移动速度不同的指针在数组或链表等序列 结构上移动。 1. 移动零&#xff08;easy&#xff09; 「数组分两块」…

中间件解析漏洞

一、iis 1、IIS6.X 1.在iis的⽹站根⽬录新建⼀个名为x.asp的⽂件 2.在x.asp中新建⼀个jpg⽂件。内容为 asp代码 3.在外部浏览器中访问windows2003的iis⽹站中的2.jpg 发现asp代码被执⾏ 4.将2.jpg⽂件放到⽹站根⽬录下访问&#xff0c;发现其中的asp代码没有被解析。 由此可…

1.ASRPRO天问--开发板介绍及第一次使用--开发板挖掘系列

1. 前言 时光不问赶路人&#xff0c;一切尽在不言中&#xff0c;大家好&#xff0c;我是繁花&#xff0c;oh&#xff0c;不对&#xff0c;是繁华的地方不一定留下你的脚印。开学季的到来&#xff0c;也让我这个老人是思绪万千&#xff0c;不要问为啥是老人&#xff0c;因为中人…

linux如何查看内存条是ddr几代

在 Linux 系统中&#xff0c;可以通过以下几种方法查看内存条的类型和代数&#xff08;如 DDR3、DDR4 等&#xff09;&#xff1a; 1. 使用 dmidecode 命令 dmidecode 是一个工具&#xff0c;它可以从系统的 DMI 表&#xff08;也称为 SMBIOS 表&#xff09;中提取硬件信息&a…

【Python】搭配 Python 环境(超详细教程)

要想能够进行 Python 开发&#xff0c;就需要搭建好 Python 的环境。 需要安装的环境主要是两个部分&#xff1a; 运行环境&#xff1a;Python 开发环境&#xff1a;PyCharm 一、安装 Python 1、找到官方网站 Welcome to Python.org 在搜索引擎中搜索 python 关键字&…

9-6对java的认识

java的特性和优势 java的三大版本 JDK,JRE,JVM

sealos快速搭建k8s集群

一&#xff0c;环境准备 1&#xff0c;三台&#xff08;搭建一主两从集群&#xff09;或五台&#xff08;三主两从集群&#xff09;虚拟机&#xff0c; 安装alimaLinux系统 &#xff0c;相同的root密码&#xff0c;不要安装docker。 如果是alimaLinux-mini版本操作系统&#xf…

Web安全:SQL注入实战测试.(扫描 + 测试)

Web安全&#xff1a;SQL注入实战测试. SQL注入就是 有些恶意用户在提交查询请求的过程中 将SQL语句插入到请求内容中&#xff0c;同时程序的本身对用户输入的内容过于相信&#xff0c;没有对用户插入的SQL语句进行任何的过滤&#xff0c;从而直接被SQL语句直接被服务端执行&am…

【Godot4自学手册】第四十六节实现闪电攻击、闪电链

本节内容&#xff0c;主要学习闪电攻击魔法。闪电攻击又名为闪电链&#xff0c;就是在几个敌人之间产生不断跳动的闪电攻击效果。本节主要实现的是单击鼠标右键&#xff0c;会在敌人之间产生随机的闪电链条&#xff0c;效果如下&#xff1a; 一、基本闪电的建立 新建2D场景&…

MIT线性代数

本文链接的原创作者为 浊酒南街https://blog.csdn.net/weixin_43597208 第1讲 MIT_线性代数笔记&#xff1a;第 01 讲 行图像和列图像-CSDN博客 第2讲 MIT_线性代数笔记&#xff1a;第 02 讲 矩阵消元_矩阵first pivot-CSDN博客 第3讲 MIT_线性代数笔记&#xff1a;第 03…

C++ 继承(二)

目录 1. 实现一个不能被继承的类 2. 友元与继承 3.继承与静态成员 4.多继承及其菱形继承问题 (1). 继承模型 (2). 虚继承 (2.1)虚继承解决数据冗余和二义性的原理 (3). 多继承中指针偏移问题 (4). IO库中的菱形虚拟继承 5. 继承和组合 1. 实现一个不能被继承的类 方法1…