论文阅读-BotPercent: Estimating Twitter Bot Populations from Groups to Crowds

目录

摘要

引言

方法

数据集

BotPercent架构

实验结果

活跃用户中的Bot数量

Bot Population among Comment Sections

 Bot Participation in Content Moderation Votes

 Bot Population in Different Countries’ Politics


论文链接:https://arxiv.org/pdf/2302.00381.pdf

摘要

        Twitter机器人检测在打击错误信息、识别恶意在线活动和保护社交媒体话语完整性方面变得越来越重要。虽然现有的机器人检测文献主要集中在识别单个机器人上,但如何估计特定社区和社交网络中机器人的比例仍未得到充分探讨,这对内容版主和日常用户都有很大的影响。

        在这项工作中,我们提出了社区级机器人检测,这是一种通过估计机器人账户的百分比来估计在线社区恶意干扰数量的新方法。具体来说,我们引入了BotPercent,这是Twitter机器人检测数据集和基于特征、文本和图形的模型的融合,克服了现有个人级模型中的泛化问题,从而实现了更准确的社区级机器人估计。

        实验表明,BotPercent在TwiBot-22基准测试上实现了最先进的社区级机器人检测性能,同时对特定用户特征的篡改表现出很强的鲁棒性。

        借助BotPercent,我们以不同的方式分析在Twitter群组和社区的机器人率,例如所有活跃的Twitter用户,与党派新闻媒体互动的用户,参与Elon Musk内容审核投票的用户,以及不同国家和地区的政治社区。

        我们的实验结果表明,Twitter机器人的存在并不是同质的,而是一种时空分布,其异质性应在内容审核、社交媒体政策制定等方面加以考虑。

引言

        现有的Twitter机器人检测模型通常可以分为基于特征、基于文本和基于图形的方法;

        尽管这些前沿的机器人检测方法取得了令人印象深刻的成果(Yang et al. 2020;Echeverrıa et al. 2018;Feng等2022a),他们只专注于个人层面的机器人检测,一次识别一个Twitter账户,而不考虑社区背景。

        在这项工作中,我们提出了一个重要但尚未充分开发的社区级机器人检测设置,旨在估计社交网络社区内的机器人数量和百分比。

        对于平台审核,社区级bot检测可以让决策者快速了解特定社区中bot的比例,并据此分配审核资源,同时告知社区成员不真实内容的风险。反过来,社交媒体用户可以对舆论操纵的企图更加警惕。

        可以通过呈现集体统计数据而不是探查或跟踪单个用户来减轻隐私问题。这些以及其他商业和法律方面的考虑,使人们对了解总百分比的兴趣增加Twitter机器人(Varol 2022),这是我们工作的重点。

Botprecent:

        训练数据和模型架构:对于训练数据,现有的个人级方法通常只利用一个数据集。由于公共可用数据集的领域和收集时间有限,单个方法只能捕获某些类型的Twitter机器人,并且难以泛化;因此,BotPercent合并了所有可用的Twitter机器人检测数据集,以增强泛化。

        对于模型架构,个体级方法通常基于特征、文本或图形,并且只专注于检测传统机器人、社交机器人和高级机器人集群;由于不同类型的模型擅长处理不同的模态和检测不同类型的机器人,我们建议结合基于特征、文本和图形的方法来合并它们的归纳偏差,并增强BotPercent处理移动用户域的能力。BotPercent还对单个模型进行模型校准,并通过加权求和将它们的预测结合起来,从而得出从群组到人群的Twitter机器人数量的可靠估计。

实验:

        我们首先在TwiBot-22机器人检测基准上评估BotPercent (Feng et al. 2022b)。大量的实验表明,BotPercent实现了社区级机器人检测的最先进性能,同时提高了对特定用户特征扰动的鲁棒性。

方法

        BotPercent采用多数据集多模型机器人检测管道,同时利用置信度校准和可学习权重来准确估计Twitter社区中的机器人数量。

数据集

        现有的个人级方法通常只利用一个数据集。这些数据集主要集中在一个特定的领域,并在一个特定的时间段内收集,这使得个人层面的模型泛化能力有限;相反,社区级机器人检测处理多样化的Twitter机器人社区,应该在任何给定的时间段内工作。

        具体来说,我们收集了所有公开可用的Twitter机器人检测数据集。

        Cresci -15 (Cresci et al. 2015)数据集主要由从志愿者基地和活跃的意大利Twitter用户收集的帐户组成;

        GILANI-17中的用户(Gilani et al. 2017)数据集是用Twitter流API收集的,并根据关注者的数量分为四类。

        CRESCI-17具有三种类型的机器人:传统垃圾机器人,社交垃圾机器人和假追随者。

        midterm -18 (Yang et al. 2020)数据集是根据2018年美国中期选举期间收集的政治推文和活跃用户进行过滤的;

        对于CRESCI-STOCK-18(Cresci et al. 2018, 2019)数据集,通过在2017年的五个月内找到包含选定标签的推文中具有相似时间轴的帐户来识别bot用户。

        CRESCI-RTBUST-19 (Mazza et al. 2019)数据集是从2018年6月17日至30日之间的意大利转发中抓取的。

        Botometer - feedback -19 (Yang et al. 2019)数据集是通过手工标记Botometer用户反馈注释的帐户来构建的。

        TWIBOT-20 (Feng et al. 2021b)由来自四个兴趣域的用户组成2020年7月至9月。

        TWIBOT-22 (Feng et al. 2022b)使用多样性感知的BFS通过扩展关注关系来收集用户;

        共同利用所有现有资源Twitter机器人检测数据集,BotPercent提出了一个机器人检测系统,旨在更好地进行领域泛化。

BotPercent架构

        考虑到不同类型的模型在面对多样化的机器人时各有优缺点(Sayyadiharikandeh等人,2020),我们提出了一个统一的框架来结合这些模型的归纳偏差,提高BotPercent的性能和泛化性。

        具体来说,我们首先在三类中选择一些有代表性的模型,并在组合数据集上对它们进行训练。BotPercent然后将个人水平方法的输出结合成一个可靠的预测。

        基于特征的模型提取用户特征并采用传统分类器(Varol et al. 2017)。为了构建一个全面的基于特征的模型作为BotPercent的一部分,我们总结了现有基于特征的模型中引入的特征,并获得了一个更全面的特征集。继前人研究(Yang et al. 2020;Knauth 2019), BotPercent利用随机森林(Ho 1995)和AdaBoost (Freund and Schapire 1997)作为一个有效的基于特征的模块,并获得二元预测逻辑。

        基于文本的机器人检测模型利用用户的推文和描述来识别Twitter机器人和恶意内容(Feng et al. 2022b)。BotPercent利用预训练RoBERTa (Liu et al. 2019a)和T5 (rafael et al. 2020)在使用线性层进行分类的同时提取用户推文和描述的嵌入:

        基于图的机器人检测模型利用Twitter网络结构和图神经网络来分析用户交互(Ali Alhosseini et al. 2019;Feng et al. 2022a)。对于基于图的模型,我们在BotPercent中选择了四种最先进的方法:SimpleHGN (Lv等人,2021)、HGT (Hu等人,2020)、BotRGCN (Feng等人,2021c)和RGT (Feng等人,2022a),因为这些模型考虑了社交网络中固有的异质性,并且在Twibot22基准上显示出了很好的机器人检测性能(Feng等人,2022b)。这些模型的消息传递范式可以概括为:

         更具体地说,SimpleHGN采用了以边缘类型为读出函数γ的注意机制,HGT也采用了以边缘类型为不同投影矩阵的注意机制。BotRGCN以平均池化作为聚合函数,用不同的聚合矩阵对边缘类型进行处理,RGT利用关注机制在不同关系类型下传播消息,并通过不同关系类型的聚合表示进行传播。利用交叉熵损失对基于图的模型进行优化。

        此外,由于数据依赖,BotPercent在分析大量Twitter社区时面临可扩展性问题:当BotPercent分析特定用户时,它会收集有关其多跳邻居的信息作为gnn的输入,这会导致指数级的数据收集成本。在Zhang等人(2021)的激励下,我们使用知识蒸馏(Hinton等人,2015)将基于图的检测器的知识转移到mlp。具体来说,蒸馏训练损失可表示为:

         尽管二进制机器人探测器提供的分数表明每个帐户是机器人的可能性,但人们普遍认为,二进制分类器通常产生的置信度分数不能准确反映真实概率,模型经常被错误校准。由于社区级机器人检测依赖于对机器人概率的准确估计,原始模型得分需要进一步处理。BotPercent对所有子模型执行置信度校准,以确保估计概率和真实概率之间的一致性。具体来说,我们利用了温度缩放(Guo et al. 2017),这是一种后处理方法,通过在保留集上调整单个缩放参数来重新缩放置信度预测。

        BotPercent在获得所有子模型的校准结果后,通过加权求和将预测结果进行组合:

实验结果

         图3给出了BotPercent的估计和现有的方法。它表明BotPercent始终优于所有基线模型,包括最先进的个人机器人检测方法,如RGT。此外,基于特征和文本的方法通常低估了机器人的数量,而基于图形的方法通常高估了机器人的百分比。这些结果证明了BotPercent等多数据集多模型机器人检测框架对于提高泛化和估计精度的重要性。

        除了在社区级机器人检测上实现最先进的性能外,我们还评估个人层面的百分比。我们利用TwiBot-22基准测试中的1000个专家注释账户,并将其降采样到一个包含150人的平衡测试集
150机器人。如表2所示,BotPercent以最先进的精度实现了同等水平的性能,甚至在f1得分方面优于所有基线。

         埃隆·马斯克于2022年接管推特后,推特的验证政策发生了重大变化:现有的验证用户可能会失去其验证状态,而之前未验证的用户可以通过订阅Twitter blue获得蓝色复选标记。

        这对Twitter机器人检测有很大的影响,因为验证是多种类型的机器人探测器广泛采用的基本功能。因此,一个理想的机器人检测系统应该是鲁棒的,并且在这种特征扰动下保持稳定的预测
(Ng, Robertson, and Carley 2022),特别是对于已验证的二进制特征。

        A)所有用户为已验证用户,b)所有用户为未验证用户,c)用户验证状态随机分配。这是为了模拟用户验证不再可靠的场景,以及机器人探测器在这种情况下的表现。我们将结果列于表中
3,这表明禁用验证功能将严重削弱几个现有的机器人检测系统的性能。

        相反,由于其多模式和多模型管道,BotPercent在不同设置下保持稳定的性能,从而减少了对特定验证功能的过度依赖。

活跃用户中的Bot数量

        我们首先用BotPercent来回答一个重要而又广受争议的问题:活跃Twitter用户中Twitter机器人的总体百分比。具体来说,我们使用Twitter API中的StreamClient函数对1%的实时tweet和相应的用户进行7天的采样1并采用对收集的105,614个用户进行分析。然后我们使用自举方法(Efron和Tibshirani)(1994)估计bot存在的抽样分布,并以95%的置信区间证明结果。

        活跃用户中bot账户的百分比为8.46%,95%置信区间为(8.28%,8.64%)

         值得注意的是,BotPercent的结论是8.46%大于Twitter(< 5%),显著小于Elon Musk (> 20%) (Porter 2022)。

Bot Population among Comment Sections

        著名用户推文下的评论区是舆论的主战场(Weber 2014)。因此,我们调查了这些评论区的机器人百分比,并了解了以名人为中心和新闻分享组受到Twitter机器人攻击的程度。

        我们收集了2022年12月23日至31日期间对这些用户发表评论的所有账号。

        我们采用BotPercent对bot种群进行分析,结果如图所示4. 研究表明,加密货币名人评论区的bot百分比明显高于其他领域,技术领域的bot百分比也普遍高于平均水平,表明社交网络中bot的空间分布不均匀。

         虽然之前的作品主要集中在政治领域的Twitter机器人(Woolley 2016;Forelle et al. 2015),我们的研究结果表明,Twitter机器人在多个领域都很活跃,尤其是加密货币和技术,而且机器人在政治之外的影响也值得研究,它对金融欺诈、市场操纵等方面的影响。

         总的来说,Twitter和社交媒体已经成为政治话语的重要媒介,而Twitter机器人则被恶意行为者操纵,以干扰政治讨论(Caldarelli et al. 2020)。

        为了更好地理解Twitter机器人的政治干预模式,我们调查了11个政治话题,并使用Flores-Saviaga、Feng和Savage(2022)中提出的政治关键词来搜索不同时间段发布的推文,并分析相应的Twitter用户。对于每个政治话题,我们每季度收集1000个用户在过去十年中的推文2012年1月至2022年12月。如图6所示,bot账户的比例随着现实世界中的重大社会政治事件而变化。

 Bot Participation in Content Moderation Votes

         自2022年埃隆·马斯克(Elon Musk)收购Twitter以来,他对自己的个人账户进行了多次投票,其中两次投票产生了相应的内容审核结果:一次决定是否恢复唐纳德·特朗普在推特上的职位,另一次决定马斯克是否应该辞去推特首席执行官一职。
        虽然内容审核的直接民主政策看起来直截了当,但它有许多问题,其中之一是恶意行为者通过Twitter机器人进行干预。为此,我们利用BotPercent用于调查转发、评论或喜欢这两次的用户中的bot数量,而具体的投票数据无法通过Twitter API获得

        图9显示,在与两种内容审核投票进行交互的用户中,约有8%到14%是机器人。考虑到两党支持率接近(51.8%对48.2%),(57.5% vs . 42.5%),以至于机器人可能改变了结果,我们的分析对结果的有效性提出了质疑“大众之声,上帝之声”的社交媒体节制原则。

 Bot Population in Different Countries’ Politics

        现有的关于推特机器人人口的研究主要集中在美国政治中的机器人(Bessi和Ferrara 2016;Yang et al. 2020),而忽视了可能存在类似问题的其他国家的政治格局。

        我们通过调查不同国家政治社区的bot人口来补充稀缺的文献。具体来说,我们以总统或总理的Twitter账户为起点,抽样他们的追随者,作为不同国家政治参与社区的代理。图8显示,美国政治中机器人的比例最高,而其他英语国家也见证了更高水平的机器人干预。此外,阿根廷、法国和尼日利亚的政治社区中机器人的比例最低,这表明他们的政治话语更真实、更真实。这些结果再次证实,推特机器人在整个推特网络中具有空间模式,而恶意推特机器人在美国以外的国家的影响值得进一步研究。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/74440.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于SpringCloud+Vue的分布式架构网上商城系统设计与实现(源码+LW+部署文档等)

博主介绍&#xff1a; 大家好&#xff0c;我是一名在Java圈混迹十余年的程序员&#xff0c;精通Java编程语言&#xff0c;同时也熟练掌握微信小程序、Python和Android等技术&#xff0c;能够为大家提供全方位的技术支持和交流。 我擅长在JavaWeb、SSH、SSM、SpringBoot等框架…

Qt、C/C++环境中内嵌LUA脚本、实现LUA函数的调用执行

Qt、C/C环境中内嵌LUA脚本、实现LUA函数的调用执行 Chapter1. Qt、C/C环境中内嵌LUA脚本、实现LUA函数的调用执行1、LUA简介2、LUA脚本的解释器和编译器3、C环境中内嵌LUA执行LUA函数调用4、Qt内嵌LUA执行LUA函数调用5、运行结果6、内嵌LUA脚本在实际项目中的案例应用 Chapter1…

迁移学习(新人必看)

先说一下深度学习常见的问题&#xff1a; 1.数据集不够&#xff0c;通常用数据增强解决。 2.参数难以确定&#xff0c;训练时间长&#xff0c;这就需要用迁移学习来解决 什么叫迁移学习呢&#xff1a;比方说有一个对100w的自行车数据集&#xff0c;并用VGG模型训练好的网络&…

MySQL 极速安装使用与卸载

目录 mysql-5.6.51 极速安装使用与卸载 sqlyog工具 mysql简化 mysql-8.1.0下载配置 再完善 mysql-5.6.51 极速安装使用与卸载 mysql-8.1.0下载安装在后 mysql中国官网 MySQLhttps://www.mysql.com/cn/ 点击MySQL社区服务器 点击历史档案 下载完 解压 用管理员运行cmd&a…

第一百二十一天学习记录:线性代数:矩阵乘法运算(宋浩板书)

在编程和学习数据结构的过程中&#xff0c;发现有些算法会用到矩阵和矩阵的乘法运算&#xff0c;因此先将这一个知识点学习一下。 矩阵和行列式的区别 各种矩阵的概念 矩阵运算 乘法☆ 总结三条不满足

【前端|Javascript第1篇】一文搞懂Javascript的基本语法

欢迎来到JavaScript的奇妙世界&#xff01;作为前端开发的基石&#xff0c;JavaScript为网页增色不少&#xff0c;赋予了静态页面活力与交互性。如果你是一名前端小白&#xff0c;对编程一无所知&#xff0c;或者只是听说过JavaScript却从未涉足过&#xff0c;那么你来对了地方…

【二等奖方案】Web攻击检测与分类识别赛题「爆汁大橘少糖」团队解题思路

2022 CCF BDCI 数字安全公开赛 赛题「Web攻击检测与分类识别」 地址&#xff1a;http://go.datafountain.cn/4Zj 爆汁大橘少糖战队获奖方案 团队简介 团队成员来自海康威视研究院&#xff0c;目前从事大数据算法相关的工作&#xff0c;具有丰富的数据挖掘实践经验。曾获得过…

【2023 华数杯全国大学生数学建模竞赛】 C题 母亲身心健康对婴儿成长的影响 Python代码实现

【2023 华数杯全国大学生数学建模竞赛】 C题 母亲身心健康对婴儿成长的影响 1 题目 母亲是婴儿生命中最重要的人之一&#xff0c;她不仅为婴儿提供营养物质和身体保护&#xff0c; 还为婴儿提供情感支持和安全感。母亲心理健康状态的不良状况&#xff0c;如抑郁、焦虑、压力等…

MySQL操作命令详解:增删改查

文章目录 一、CRUD1.1 数据库操作1.2 表操作1.2.1 五大约束1.2.2 创建表1.2.3 修改表1.2.3 删除表1.2.4 表数据的增删改查1.2.5 去重方式 二、高级查询2.1 基础查询2.2 条件查询2.3 范围查询2.4 判空查询2.5 模糊查询2.6 分页查询2.7 查询后排序2.8 聚合查询2.9 分组查询2.10 联…

C高级DAY2

1.思维导图 2. 递归实现&#xff0c;输入一个数&#xff0c;输出这个数的每一位 递归实现&#xff0c;输入一个数&#xff0c;输出这个数的二进制c 写一个脚本&#xff0c;包含以下内容&#xff1a; 显示/etc/group文件中第五行的内容创建目录/home/ubuntu/copy切换工作路径到…

MySQL(一)基本架构、SQL语句操作、试图

MySQL系列文章 MySQL&#xff08;一&#xff09;基本架构、SQL语句操作、试图 MySQL&#xff08;二&#xff09;索引原理以及优化 MySQL&#xff08;三&#xff09;SQL优化、Buffer pool、Change buffer MySQL&#xff08;四&#xff09;事务原理及分析 MySQL&#xff08;五&a…

性能优化-react路由懒加载和组件懒加载

背景 随着项目越来越大&#xff0c;打包后的包体积也越来越大&#xff0c;严重影响了首屏加载速度&#xff0c;需要对路由和组件做懒加载处理 主要用到了react中的lazy和Suspense。 废话不多说&#xff0c;直接上干货 路由懒加载 核心代码 import React, { lazy, Suspens…

MySQL数据库——多表操作

文章目录 前言多表关系一对一关系一对多/多对一关系多对多关系 外键约束创建外键约束插入数据删除带有外键约束的表的数据删除外键约束 多表联合查询数据准备交叉连接查询内连接查询外连接查询左外连接查询右外连接查询满外连接查询 子查询子查询关键字ALL 关键字ANY 和 SOME 关…

MySQL 远程操作mysql

可以让别人在他们的电脑上操作我电脑上的数据库 create user admin identified with mysql_native_password by admin; //设置账号密码都为admingrant all on *.* to admin; //给admin账号授权 授权完成

RabbitMQ-API

这里写目录标题 Hello word 模式添加依赖生产者消费者获取信道工具类 Work Queues模式消费者代码 C1开启多线程运行启动 消费者代码 C2生产者代码 消息应答自动应答消息应答的方法Multiple 的解释消息自动重新入队消息手动应答代码消费者API 队列持久化消息持久化不公平分发消息…

MyBatis-基础操作-CRDU

前端页面展示提供对于数据的删除操作&#xff0c;后端为其实现 根据id删除数据&#xff08;D&#xff09; 具体的SQL语句 delete from emp where id 17; 接口方法 Delete("delete from emp where id #{id} ")public int DeleteByID(Integer id); 测试方法 Testpub…

【项目设计】MySQL 连接池的设计

目录 &#x1f449;关键技术点&#x1f448;&#x1f449;项目背景&#x1f448;&#x1f449;连接池功能点介绍&#x1f448;&#x1f449;MySQL Server 参数介绍&#x1f448;&#x1f449;功能实现设计&#x1f448;&#x1f449;开发平台选型&#x1f448;&#x1f449;MyS…

【力扣】 12. 整数转罗马数字 模拟

力扣 12. 整数转罗马数字 解题思路 当某个位数的某个数不为4或9时&#xff0c;高位对应的字符总是在低位对应的字符前面。只有当该数为4或9时&#xff0c;低位对应的字符在高位前面。 根据这一特性&#xff0c;我们进行分类讨论。 1.当数为4时&#xff0c;则对应的罗马数为 10 …

怎么把图片变成表格?几个步骤轻松转换

如果您需要将一张图片中的数据转换成表格&#xff0c;这里有几个简单的步骤&#xff0c;可以帮助您完成这个转换过程。以下是需要注意的事项。 首先&#xff0c;我们先了解OCR&#xff08;Optical Character Recognition&#xff0c;光学字符识别&#xff09;技术。然后合理运用…

【练】要求定义一个全局变量 char buf[] = “1234567“,创建两个线程,不考虑退出条件,打印buf

要求定义一个全局变量 char buf[] "1234567"&#xff0c;创建两个线程&#xff0c;不考虑退出条件&#xff0c;另&#xff1a; A线程循环打印buf字符串&#xff0c;B线程循环倒置buf字符串&#xff0c;即buf中本来存储1234567&#xff0c;倒置后buf中存储7654321. 不…