(WWW2023)论文阅读-Detecting Social Media Manipulation in Low-ResourceLanguages

论文链接:https://arxiv.org/pdf/2011.05367.pdf

摘要

        社交媒体被故意用于恶意目的,包括政治操纵和虚假信息。大多数研究都集中在高资源语言上。然而,恶意行为者会跨国家/地区和语言共享内容,包括资源匮乏的语言。

        在这里,我们调查是否以及在何种程度上可以在低资源语言设置中检测到恶意行为者。我们发现,2016 年美国总统大选后,Twitter 打击干扰行动的一部分是,大量用他加禄语发布的账户被暂停。

        通过结合文本嵌入和迁移学习,我们的框架可以准确地检测到用他加禄语发布的恶意用户,而无需事先了解该语言的恶意内容或对其进行训练

        我们首先独立学习每种语言的嵌入模型,即高资源语言(英语)和低资源语言(他加禄语)。

        然后,我们学习两个潜在空间之间的映射来传输检测模型

        我们证明,所提出的方法显着优于包括 BERT 在内的最先进模型,并且在训练数据非常有限的环境中产生显着优势——这是处理在线平台中检测恶意活动时的常态。

引言

        虚假信息和政治操纵由来已久:例如,早在社交媒体时代到来之前的 1984 年,一个声称艾滋病毒是美国政府作为生物武器制造的故事在全世界疯传。如今,社交媒体以前所未有的速度放大和加速信息传播。 Twitter 和 Facebook 等在线社交网络 (OSN) 一直面临恶意内容的大量增长,这破坏了在线话语的真实性和真实性 [1, 21, 24, 32, 74, 77]。

        各种研究表明,OSN 已被用于恶意目的,损害了我们社会的多个组成部分 [42, 75],从地缘政治事件 [22, 27, 44, 58, 63] 到公共卫生 [14, 25, 28、52、78]。机器人和巨魔是社交媒体操纵和虚假信息活动的主要参与者 [3, 11, 26, 45, 62],通常以协调一致的方式 [29, 51, 53, 64, 67, 76]。

        人们特别关注政治背景下大规模舆论操纵的风险,最好的例子就是2016年美国总统讨论选举中的网络干扰[4, 6]。从那时起,OSN 一直在努力打击滥用行为,并在其平台上保持信任和健康的对话。尽管付出了努力,巨魔和机器人的活动似乎仍然存在[36,43,72]。例如,Twitter 识别并暂停了来自不同国家(包括俄罗斯、伊朗、孟加拉国和委内瑞拉)的恶意帐户[71],这表明存在协调一致的努力来操纵跨国家和跨语言的在线言论。最近,皮埃里等人[58] 在乌克兰和俄罗斯之间持续冲突的背景下记录了平台滥用和随后的 Twitter 干预的证据 [57]。虽然其他人已经探索了高资源语言中恶意用户的各种策略[41,43,69,70]以实现他们的检测[12,13,33,49],但在这里我们提出了一种使用迁移学习来检测恶意用户的新方法能够自动识别低资源语言中的行为不当帐户。

这项工作的贡献

        我们的目的是调查文本内容是否可以以及在多大程度上可以用作代理来检测社交媒体上的恶意活动,特别关注以低资源语言共享消息的帐户。总的来说,我们的目标是回答两个主要研究问题:

        RQ1:我们可以仅根据帐户共享的内容将其归类为恶意帐户吗?我们探索从推文中学习单词表示以识别暂停帐户的有效性。

        RQ2:我们可以从高资源语言(英语)学习模型并将知识转移到低资源语言(他加禄语)来检测暂停帐户吗?我们研究学习两个独立训练的词嵌入之间的映射是否有利于识别行为不当的帐户。

数据:美国2016年总统选举

        在本研究中,我们使用 Twitter 作为测试平台来检测关注 2016 年美国总统大选的恶意账户的活动。该数据集由近 600 万不同用户发布了约 4200 万条推文,由 [6] 首次发布。通过 Twitter Streaming API 使用 23 个选举关键词收集推文(唐纳德·特朗普 5 个、希拉里·克林顿 4 个、第三方候选人 3 个,大选任期11)。该收集是在 2016 年 9 月 16 日至 2016 年 10 月 21 日期间进行的。从收集的推文集中,删除了重复的推文,这些重复的推文可能是通过对 Twitter API 的意外冗余查询捕获的。表 1 列出了最流行的关键词和相关推文数量。虽然所有关键词都是英文,但也收集了其他语言的推文。

        我们确定了 60 多种不同的语言,其中用欧洲语言编写的推文数量最多。其中,近 500 万用户发布了超过 3760 万条英文推文。我们发现大量他加禄语的推文,他加禄语是一种南岛语,是菲律宾四分之一人口的第一语言,也是菲律宾一半以上人口的第二语言。按使用人数计算,他加禄语是美国第四大常用语言 [73],仅次于英语、西班牙语和中文,按推文数量计算,他加禄语是我们数据中排名第一的低资源语言。美国也是菲律宾境外菲律宾移民人口最多的国家之一。此外,对其维基百科规模的分析进一步证实了他加禄语的资源匮乏状况——维基百科是估计一种语言的数字资源量的常用指标。他加禄语的维基百科目前按文章数量排名第 101 位,与其在我们数据集中的流行程度形成鲜明对比。因此,我们将注意力集中在他加禄语作为这项工作的目标语言。

4 方法论

4.1 词表示

        为了学习词嵌入和训练分类模型,我们使用 FastText 框架。 FastText 没有将单词视为文本的原子单元,而是将单词表示为一袋字符 n-gram [8],其中每个 n-gram 都有自己的向量表示,并且单词表示为其组成字符 n-gram 的总和。这使得模型能够适应形态丰富、词汇量大的语言,并能更好地从较小的训练语料库中进行泛化。

        尽管基于神经网络的模型在文本分类任务中取得了相当大的成功,但它们的训练和部署成本仍然相当昂贵。 FastText 利用分层 softmax 来服务作为 softmax 分类器的快速近似,用于计算给定类别的概率分布 [38]。使用特征修剪、量化、散列和再训练来显着减小模型大小而不牺牲准确性或速度,这种方法允许在大型文本语料库上训练模型比基于神经网络的方法快得多[37]。

4.2 迁移学习

        用于自然语言处理的传统机器学习方法侧重于为特定任务训练专用模型。然而,这需要大量数据,而对于资源匮乏的语言来说,这是很难获取的。历史上,这引发了对高资源语言(主要是欧洲语言)的更多研究,从而为这些语言创建了更多资源,从而促进了这一循环。迁移学习最近兴起,作为一种利用从源语言(或源任务)学到的知识并利用它来提高目标语言(或目标任务)性能的方法。

        为了解决本工作中分析的目标语言数据稀缺的问题,我们使用 MUSE,这是一个框架,用于在同一空间中对齐来自不同语言的单语词嵌入,并允许它们之间的知识转移。 MUSE 使用 Procrustes 对齐来学习从源空间到目标空间的映射,以最小化两种语言中相似单词之间的距离 [40]。它接受两组预训练的单语言单词嵌入(例如 FastText 学习的单词嵌入)作为输入,每种语言一组,并且可以以监督或无监督的方式学习它们之间的映射。监督方法需要使用双语词典,通过识别在共享空间中应该靠近的相似单词对来帮助将两个嵌入对齐在一起。在没有这样的字典的情况下,无监督替代方案利用逆向训练来初始化源空间和目标空间之间的线性映射并生成合成并行字典。 [15]表明,这种方法可以用于执行无监督单词翻译,而无需使用任何并行数据,其结果在某些情况下甚至优于先前的监督方法。

4.3 学习任务

        单语文本分类。在第一种方法中,我们使用每种语言各自的数据集从头开始训练独立的文本分类模型。出于分类目的,我们使用 FastText 框架,它将文本表示为词袋(BoW),并将它们的单独表示平均化为组合文本表示。然后,将该文本表示形式用作具有 softmax 函数的线性分类器的输入,该函数计算标签类的概率分布以进行预测。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/91079.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

云上社群学习系统部分接口设计详解

目录 一、项目简介 二、技术选型 三、数据库设计 四、接口设计及思考 回复帖子部分 4.1 回复帖子 4.1.1.1 实现逻辑 4.1.1.2创建Service接⼝ 4.1.1.3 实现Service接⼝ 4.1.1.4 实现Controller 4.1.1.5 测试接口 4.1.1.6 实现前端页面 4.2 点赞帖子 4.2.1.1 参数要求…

【数据结构】堆的实现,堆排序以及TOP-K问题

目录 1.堆的概念及结构 2.堆的实现 2.1初始化堆 2.2销毁堆 2.3取堆顶元素 2.4返回堆的大小 2.5判断是否为空 2.6打印堆 2.7插入元素 2.8堆的向上调整 2.9弹出元素 2.10堆的向下调整 3. 建堆时间复杂度 4. 堆的应用 4.1 堆排序 4.2 TOP-K问题 1.堆的概念及结构 …

【Spring】统一事件的处理(拦截器、统一异常处理、统一数据格式返回)

文章目录 前言一、Spring 拦截器1.1 用户登录权限校验案例1.1.1 最初的用户登录验证1.1.2 使用 Spring AOP 实现登录验证的问题 1.2 Spring 拦截器的使用1.2.1 Spring 拦截器概念与使用步骤1.2.2 使用拦截器实现对用户登录权限的校验 1.3 拦截器实现原理1.4 Spring 拦截器和 Sp…

响应式设计是什么?怎么学习? - 易智编译EaseEditing

响应式设计是一种用于创建能够适应不同设备和屏幕尺寸的网站和应用程序的设计方法。它的目标是确保网站在各种设备上都能提供良好的用户体验,无论是在大屏幕的桌面电脑上还是在小屏幕的移动设备上。 在响应式设计中,页面的布局、字体、图像和其他元素会…

读《芯片浪潮》,学习台积电张忠谋的管理之道

大家知道,台积电一个公司就占据了全球晶圆代工市场一半的份额。 5纳米及以下最先进工艺的芯片,台积电可占到惊人的90%以上的市场。全球最新最强的智能手机、笔记本电脑的核心计算芯片都必须仰仗台积电一个企业的供应。 换一个说法,如果没有…

每天一道leetcode:剑指 Offer 12. 矩阵中的路径(中等DFS深度优先遍历)

今日份题目: 给定一个 m x n 二维字符网格 board 和一个字符串单词 word 。如果 word 存在于网格中,返回 true ;否则,返回 false 。 单词必须按照字母顺序,通过相邻的单元格内的字母构成,其中“相邻”单元…

62、华为昇腾开发板Atlas 200I DK A2配置mmpose的hrnet模型推理python/c++

基本思想:适配mmpose模型,记录一下流水帐,环境配置和模型来自,请查看参考链接。 链接: https://pan.baidu.com/s/1IkiwuZf1anyKX1sZkYmD1g?pwdi51s 提取码: i51s 一、转模型 (base) rootdavinci-mini:~/sxj731533730# atc --mo…

docker pull 设置代理 centos

On CentOS the configuration file for Docker is at: /etc/sysconfig/docker 用 root 权限打开 text editor sudo gedit 注意 加引号 Adding the below line helped me to get the Docker daemon working behind a proxy server: HTTP_PROXY“http://<proxy_host>:&…

C++ 动态规划经典案例解析之最长公共子序列(LCS)_窥探递归和动态规划的一致性

1. 前言 动态规划处理字符相关案例中&#xff0c;求最长公共子序列以及求最短编辑距离&#xff0c;算是经典中的经典案例。 讲解此类问题的算法在网上一抓应用一大把&#xff0c;即便如此&#xff0c;还是忍不住有写此文的想法。毕竟理解、看懂都不算是真正掌握&#xff0c;唯…

浅谈统一权限管理服务的设计与开发

作者 | 天地练心 导读 本文详细探讨了统一权限管理服务&#xff08;MPS&#xff09;的设计与开发&#xff0c;针对企业内部多平台权限管理混乱的问题&#xff0c;提出了一套综合RBAC、ACL、DAC权限模型的解决方案。文章从需求分析、技术选型、功能设计等方面全面介绍了MPS的构建…

阿里云ACP知识点

前言&#xff1a;记录ACP错题 1、在创建阿里云ECS时&#xff0c;每台服务器必须要包含_______用来存储操作系统和核心配置。 系统盘&#xff08;不是实例&#xff0c;实例是一个虚拟的计算环境&#xff0c;由CPU、内存、系统盘和运行的操作系统组成&#xff1b;ESC实例作为云…

2023国赛数学建模E题思路分析

文章目录 0 赛题思路1 竞赛信息2 竞赛时间3 建模常见问题类型3.1 分类问题3.2 优化问题3.3 预测问题3.4 评价问题 4 建模资料 0 赛题思路 &#xff08;赛题出来以后第一时间在CSDN分享&#xff09; https://blog.csdn.net/dc_sinor?typeblog 1 竞赛信息 全国大学生数学建模…

纯js点击按钮切换首页部分页面

像我这种大数据的&#xff0c;不会前端的&#xff0c;懒得学框架&#xff0c;现在有gpt了&#xff0c;前端对于我来说&#xff0c;用原生的更加友好&#xff0c;毕竟算法gpt都能优化。 首页我有个页面&#xff0c;然后我现在想点击gm替换上面的统计&#xff0c;点击用户替换回…

Flask Web开发实战(狼书)| 笔记第1、2章

前言 2023-8-11 以前对网站开发萌生了想法&#xff0c;又有些急于求成&#xff0c;在B站照着视频敲了一个基于flask的博客系统。但对于程序的代码难免有些囫囵吞枣&#xff0c;存在许多模糊或不太理解的地方&#xff0c;只会照葫芦画瓢。 而当自己想开发一个什么网站的时&…

SpringCloud微服务之间如何进行用户信息传递(涉及:Gateway、OpenFeign组件)

目录 1、想达到的效果2、用户信息在微服务之间传递的两种途径3、用RuoYi-Cloud为例进行演示说明&#xff08;1&#xff09;网关将用户信息写在请求头中&#xff08;2&#xff09;业务微服务之间通过OpenFeign进行调用&#xff0c;并且将用户信息写在OpenFeign准备的请求头中&am…

Qt+C++自定义控件仪表盘动画仿真

程序示例精选 QtC自定义控件仪表盘动画仿真 如需安装运行环境或远程调试&#xff0c;见文章底部个人QQ名片&#xff0c;由专业技术人员远程协助&#xff01; 前言 这篇博客针对<<QtC自定义控件仪表盘动画仿真>>编写代码&#xff0c;代码整洁&#xff0c;规则&…

浅谈SMT行业MES系统生产管理的特点

一、SMT生产车间在电子制造中起重要作用的部分&#xff0c;主要具备以下生产特点&#xff1a; 1.高密度和高速度&#xff1a; SMT生产车间中的电子元器件一般来说较为精小&#xff0c;且被紧密地排列在PCB上。这就要求SMT生产车间的机械设备具备高精度和高速度&#xff0c;确保…

怎么对视频进行压缩?

怎么对视频进行压缩&#xff1f;视频压缩&#xff0c;我们都知道是将视频文件进行压缩变小的过程&#xff0c;是我们日常办公中较为常用的手段。现如今&#xff0c;在视频技术不断发展与创新的基础上&#xff0c;视频分辨率也在不断提高&#xff0c;进而导致文件占有量也非常大…

前后端分离------后端创建笔记(05)用户列表查询接口(下)

本文章转载于【SpringBootVue】全网最简单但实用的前后端分离项目实战笔记 - 前端_大菜007的博客-CSDN博客 仅用于学习和讨论&#xff0c;如有侵权请联系 源码&#xff1a;https://gitee.com/green_vegetables/x-admin-project.git 素材&#xff1a;https://pan.baidu.com/s/…

设计HTML5图像和多媒体

在网页中的文本信息直观、明了&#xff0c;而多媒体信息更富内涵和视觉冲击力。恰当使用不同类型的多媒体可以展示个性&#xff0c;突出重点&#xff0c;吸引用户。在HTML5之前&#xff0c;需要借助插件为网页添加多媒体&#xff0c;如Adobe Flash Player、苹果的QuickTime等。…