基于图的在线社区假新闻检测建模

论文原文:Graph-based Modeling of Online Communities for Fake News Detection

论文代码:GitHub - shaanchandra/SAFER: Repository containing the official code for the paper Graph-based Modeling of Online Communities for Fake News Detection.

1. 作者构建了一个由两种节点和边组成的异构图,并在半监督图学习设置中将它们建模在一起。2. 作者没有进行用户分析,而是计算社区范围的社交上下文特征,这在之前没有相关工作调查过在线社区在假新闻检测中的作用。3. 为了获得社区的作用,作者仅使用了有关用户网络的信息,而不使用用户个人资料中的个人信息。4. 由于没有使用用户个人资料信息,如地址,种族,性别。因此它们不会学习将特定人群与特定的在线行为联系起来。

方法:

构建community graph

        对于每一个数据集,都创建了一个异构community graph,其中包括两种节点:用户节点N_u和文章节点N_a。文章节点a \in N_a由二进制词袋(BOW)向量表示即a=[w_1,w_2,...,w_{|v|}],其中|v|是词汇的数量,w_i \in \{0,1\}。用户节点u \in N_u由二进制 BOW 向量表示,该向量是在他们共享的所有文章上构造的:u = [a_1|a_2|...|a_M],其中|表示逐位与操作,M表示用户分享的文章总数。接下来,我们添加两种类型的无向边:1. 如果用户在推文/转发了文章,则在用户和文章节点之间添加边(因此文章节点可以连接到多个用户节点)2. 如果两个用户节点之间在Twitter上互相关注,则在两个用户节点之间添加无向边。

        作者在“最活跃的N个用户”(HealthStory 的 N=20K,GossipCop 的 N=30K)上进行了操作。为了避免频繁使用的用户使模型产生偏见,我们排除了在任一类中分享超过 30 百分比文章的用户。在GossipCop数据集上,最终的图有29962个用户节点,16766个文章节点和超过1.2M条边。

SAFER:虚假新闻检测架构

        提出的框架(详见下文,如图 1 所示)在其中采用了两个组件,即基于图形和文本的编码器,其工作可以分为两个阶段:训练和测试。

图1: SAFER 框架的可视化表示。图形和文本编码器是独立训练的,然后是逻辑回归 (LR) 分类器的训练。在推理过程中,文章的文本以及有关其用户社交网络的信息分别由经过训练的文本和图形编码器进行编码。最后,使用经过训练的LR分类器将文章的社会背景和文本特征连接起来进行分类。

         训练阶段:首先在数据集上分别训练图编码器和文本编码器。文本编码器的输入是文章的内容,并且其被训练成一个文章分类器用于区分文章是否是虚假信息。训练后的文本编码器生成基于文章内容的文本特征S_t \in R^{d_t}其中d_t是文本编码器的隐藏维度。图编码器是一个图神经网络,把community graph作为输入。GNN 使用来自文章节点的监督损失进行训练,该损失反向传播到网络的其余部分。经过训练的 GNN 能够生成一组用户嵌入,U_g = \{u_1, u_2,...,u_m\}其中u_i \in R^{d_g}d_g是图编码器的隐藏维度,且m是与文章交互的用户数量。然后,通过归一化和将这些用户表示聚合成一个固定大小的向量,s_g = (\sum _{i=1} ^m u_i)/m,s_g \in R^{d_g}其中s_g表示表章的社会上下文特征。文章的最终社会上下文感知表示计算为 S_{safer} = s_g \oplus s_t\oplus是串联运算符。这种聚合形式有助于 SAFER 保留每个表示形式编码的有关共享内容不同方面的信息。最终,s_{safer}被用于训练逻辑回归分类器。直观地说,经过训练的文本编码器从内容中捕获对任务至关重要的语言线索。同样,经过训练的图形编码器会根据用户的内容分享模式和社交关系,学习将用户分配到隐式在线社区。

        测试阶段:为了将未知的内容分类为虚假或真实,SAFER将文章的文本以及与之交互的用户网络作为输入。然后,它遵循与上面详述的相同的过程来生成待验证测试文章的社会上下文感知表示,s_{safer}并使用经过训练的 LR 分类器对其进行分类。

文本编码器

作者在SAFER中尝试了两种不同的架构作为文本编码器:

卷积神经网络(CNN):作者在文档上采用了句子级编码器Kim(2014)。该模型使用多个不同大小的一维卷积滤波器,这些滤波器通过在文章的长度上滑动来聚合信息。最终的固定长度文章表示是通过对特征图进行最大随时间变化的池化获得的。

BoBERTa:作为我们主要的文本编码器,我们微调了transformer编码器结构RoBERTa Liu et al. ( 2019b),并将其用于文章类别分析。RoBERTa 是一种使用动态掩码进行预训练的语言模型。具体来说,我们用它来编码每篇文章的前 512 个token,并使用 [cls] 标记作为文章嵌入进行分类。

图编码器

我们尝试了六种不同的 GNN 架构来生成用户嵌入,详情如下:

图卷积网络(GCN):GCNs Kipf and Welling (2016)把一个由其邻接矩阵A \in R^{n * n}n表示图中节点数,度矩阵D其中D_{ii} = \sum _j A_{ij},和特征矩阵F \in R^{n*m}(包含节点的 m -维特征向量的特征矩阵)定义的图 𝒢 作为输入,GCN 在第i个卷积层的递归传播步长由下式给出:O^i = \sigma (\widetilde{A}O^{i-1}W^i),其中σ表示激活函数,\widetilde{A} = D^{-\frac{1}{2}}A D^{-\frac{1}{2}}是度归一化的邻接矩阵,W^i \in R^{t_{i-1}*t_i}是第i层卷积层的权重矩阵,O^{i-1} \in R^{n*t_{i-1}}表示前面卷积层的输出, ti是第i层中隐藏单元的个数,其中t_0 = m

Graph Attention Networks (GAT):GAT

GraphSAGE:GraphSAGE

Relational GCN/GAT:https://doi.org/10.48550/arXiv.1703.06103

Hyperbolic GCN / GAT:HGCNHNN

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/284771.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

KIMI爆了!对比文心一言和通义千问它到底有多强?

原文:赵侠客 前言 最近国产大模型KIMI爆了大部分人应该都知道了,从我个人的感受来看这次KIMI爆了我不是从技术领域接触到的,而是从各种金融领域接触到的。目前国内大模型可以说是百模大战,前几年新能源大战,今年资本割完韭菜后留…

java面向对象编程基础

对象: java程序中的对象: 本质上是一种特殊的数据结构 对象是由类new出来的,有了类就可以创建对象 对象在计算机的执行原理: student s1new student();每次new student(),就是在堆内存中开辟一块内存区域代表一个学生对象s1变…

Matlab DDPG

文章目录 1 rlSimulinkEnv1.1 说明1.2 例子1.2.1 使用工作空间Agent创建Simulink环境1.2.2 为Simulink模型创建强化学习环境1.2.3 创建Simulink多Agents环境2 创建Simulink环境和训练Agent2.1 创建环境接口2.2 创建DDPG Agent2.3 训练Agent2.4 验证已训练的Agent3 创建Simulink…

创建linux虚拟机系统:(安装Ubuntu镜像文件,包含语言设置、中文输入法、时间设置)

我下载的是清华大写开源软件镜像站中的ubuntu-20.04.6-desktop-amd64.iso这个镜像文件, 这个文件我下载完成之后没有解压,直接在创建虚拟机的时候选择的压缩包。 地址为:Index of /ubuntu-releases/20.04/ | 清华大学开源软件镜像站 | Tsin…

Git——IDEA中的使用详解

目录 Git1、IDEA中配置Git2、将本地项目推送到远程仓库2.1、创建项目远程仓库2.2、初始化本地仓库2.3、连接远程仓库2.4、提交到本地仓库2.5、推送到远程仓库 3、克隆远程仓库到本地4、基本操作4.1、代码提交到暂存区4.2、暂存区代码提交到本地库4.3、推送到远程仓库4.4、撤销本…

网络: 网络层

IP地址: 分为网络号和主机号. 用来标识主机 IP协议 IP协议报文 4位版本号(version): 指定IP协议的版本, 对于IPv4来说, 就是4.4位头部长度(header length): IP头部的长度是多少个32bit, 也就是 length * 4 的字节数. 4bit表示最大的数字是15, 因此IP头部最大长度是60字节. 8…

HarmonyOS NEXT应用开发案例集

概述 随着应用代码的复杂度提升,为了使应用有更好的可维护性和可扩展性,良好的应用架构设计变得尤为重要。本篇文章将介绍一个应用通用架构的设计思路,以减少模块间的耦合、提升团队开发效率,为开发者呈现一个清晰且结构化的开发…

YOLOv8:Roboflow公开数据集训练模型

Roboflow公开数据集 Roboflow是一个提供计算机视觉数据集管理和处理工具的平台。虽然Roboflow本身并不创建或策划公开数据集,但它提供了一系列功能,帮助用户组织、预处理、增强和导出计算机视觉数据集。 官方网站:https://universe.roboflow…

FOCUS-AND-DETECT: A SMALL OBJECTDETECTION FRAMEWORK FOR AERIAL IMAGES

摘要 为了解决小对象检测问题,提出了一个叫做 Focus-and Detect 的检测框架,它是一个两阶段的框架。 第 一阶段包括由高斯混合模型监督的对象检测器网络,生成构成聚焦区域的对象簇 。 第二阶段 也是一个物体探测器网络,预测聚焦…

Web框架开发-Ajax

一、 Ajax准备知识:json 1、json(Javascript Obiect Notation,JS对象标记)是一种轻量级的数据交换格式 1 2 它基于 ECMAScript (w3c制定的js规范)的一个子集,采用完全独立于编程语言的文本格式来存储和表示数据。 简洁和清晰的层次结构使得 JSON 成为理想的数据交换语言。…

谧林涓露门禁

原神武器升级材料谧林涓露和门禁好像聂。 difference(){union(){cylinder(2, 10,10, $fn365);hull(){translate([15,0,0])cylinder(1,2,2,$fn365);cylinder(1,10,10,$fn365);}}translate([15,0,-1])cylinder(4,1,1,$fn365); }

swagger3快速使用

目录 &#x1f37f;1.导入依赖 &#x1f32d;2.添加配置文件 &#x1f9c2;3.添加注解 &#x1f96f;4.访问客户端 1.导入依赖 引入swagger3的依赖包 <dependency><groupId>io.springfox</groupId><artifactId>springfox-boot-starter</artif…

智能驾驶域控制器行业介绍

汽车智能驾驶功能持续高速渗透&#xff0c;带来智能驾驶域控制器市场空间快速增 长。智驾域控制器是智能驾驶决策环节的重要零部件&#xff0c;主要功能为处理感知 信息、进行规划决策等。其核心部件主要为计算芯片&#xff0c;英伟达、地平线等芯 片厂商市场地位突出。随着消费…

【c语言】详解操作符(上)

1. 操作符的分类 2. 原码、反码、补码 整数的2进制表示方法有三种&#xff0c;即原码、反码、补码 有符号整数的三种表示方法均有符号位和数值位两部分&#xff0c;2进制序列中&#xff0c;最高位的1位是被当做符号位其余都是数值位。 符号位都是用0表示“正”&#xff0c;用…

二分算法(查找)

问题&#xff1a;在数组中查找某一个数字x4的下标 例&#xff1a;arr:1 3 4 6 10 20 21 22 显然&#xff0c;数字4的下标为3。 1、线性查找&#xff0c;一个个地去遍历&#xff0c;时间复杂度为O(n) 2、二分查找&#xff0…

国务院办公厅发布:政府类网站网页设计规范(试行)

国务院办公厅于2019年12月发布了《政府类网站网页设计规范&#xff08;试行&#xff09;》。该规范的发布旨在统一政府类网站的设计风格和标准&#xff0c;提升政府网站的用户体验和可访问性&#xff0c;推动政府信息公开和服务的提升。 该规范涵盖了政府类网站的各个方面&…

【Esp32-Cam模型训练相关问题解决方案】

Esp32-Cam模型训练相关问题解决方案 一、AttributeError: module everywhereml.data.ImageDataset has no attribute from_nested_folders现象解决方案 二、Connection to 192.168.x.xxx timed out(connect timeoutNone)三、卡在0%| |0/100 [00:00<?, ?it/s] 抛砖引玉&…

Linux之基础IO

1.C语言中的文件操作函数 文件的打开 path为文件路径&#xff0c;mode为打开方式&#xff0c;它们都是字符串。 代码演示&#xff1a; 此时&#xff0c;当前目录中并没有log.txt文件&#xff0c;但是没关系&#xff0c;fopen会在当前路径下创建log.txt文件。 简单来说&#xf…

数据分析-Pandas序列时间移动窗口化操作

数据分析-Pandas序列时间移动窗口化操作 数据分析和处理中&#xff0c;难免会遇到各种数据&#xff0c;那么数据呈现怎样的规律呢&#xff1f;不管金融数据&#xff0c;风控数据&#xff0c;营销数据等等&#xff0c;莫不如此。如何通过图示展示数据的规律&#xff1f; 数据表…

Python3 字典

字典是另一种可变容器模型&#xff0c;且可存储任意类型对象。 字典的每个键值 key>value 对用冒号 : 分割&#xff0c;每个对之间用逗号(,)分割&#xff0c;整个字典包括在花括号 {} 中 ,格式如下所示&#xff1a; d {key1 : value1, key2 : value2, key3 : value3 } 键必…