【论文阅读】社交网络传播最大化问题-02

Leader-Based Community Detection Algorithmin Attributed Networks

  • 以往leader-aware算法
  • 创新点
  • 问题定义
    • 定义基础概念
    • 定义创新概念
  • 模型构造
    • 第一步:确定每个节点的leader
    • 第二步:合并小分支以得到最终结果
  • 实验
    • 数据集
      • 人工合成网络
      • 现实世界的网络
    • 基线方法和评估指标
      • 对比算法
      • 评价指标
    • 实验结果
      • 人工合成网络
      • 真实网络

以往leader-aware算法

核心思想: 随机选择网络中的leader节点,然后分配剩余节点。

如何随机选择:

  1. LICOD - “中心性指标”(节点的重要性)确定领导者,根据度将剩余节点分配到不同社团

  2. HDA - 找“领导对”,基于领导构建依赖树

    缺点: 社区检测仅基于网络的拓扑信息

  3. aLBDC - 拓扑信息缺失时,使用属性信息分配领导者

    缺点: 属性信息仅作为拓扑信息的补充,在算法开始时并没有将两者完全结合

创新点

  1. TALB是第一个在数据预处理阶段结合网络拓扑信息属性信息进行社区检测的基于领导的算法
  2. 提出了一种新的节点关系矩阵C,该矩阵依据矩阵元素正负寻找节点

问题定义

定义基础概念

  1. 邻接矩阵A∈R n×n来表示网络的拓扑信息 当且仅当节点i和j之间存在边时,Aij = 1,否则Aij = 0

  2. 属性信息矩阵W∈R n×m,其中n为节点个数,m为特征个数 在这个矩阵中,Wij是节点i的第j个特征 如果节点i具有属性j,则Wij =
    1,否则Wij = 0

  3. 无向无权图中,定义节点u的拓扑邻居
    在这里插入图片描述

  4. 用拓扑邻居定义Jaccard相似系数J(i, J)(Jaccard相似系数的值越高,节点之间的相似度越高
    在这里插入图片描述

  5. 由网络的邻接矩阵A得到节点关系矩阵R∈R n×n,其中Rij取J(i, J)的值

  6. 根据节点属性,获得Pearson相关系数(Pearson相关系数的绝对值越大,节点之间的相关性越强
    在这里插入图片描述

  7. 由节点间的Pearson相关系数,得到节点间的属性关系矩阵S∈R n×n,其中Sij取P(i, j)的值

总结:获得了 节点关系矩阵R & 属性关系矩阵S,两个矩阵以不同的方式表达了网络中节点之间的关系,这种关系也可以看作是节点之间的边权。

定义创新概念

  1. 信息矩阵I,它是两个矩阵的组合。
    在这里插入图片描述
    (α是控制属性信息权重的参数)

  2. 每个节点V∈V的领导权等于该节点与其所有相邻节点的相关度总和
    在这里插入图片描述

模型构造

在这里插入图片描述

  • TALB算法的流程图。
    算法主要包括两个步骤:
  1. 寻找leader形成本地社区(绿框中,每个节点寻找自己的本地leader(节点1和节点2));
  2. 合并分支,得到最终的聚类结果(橙色框中处理孤立点,形成最终的群落结构)。

第一步:确定每个节点的leader

  1. 遍历网络中的每个节点,计算每个节点的领导能力L(u),并与L(v)进行比较,其中v是u的拓扑邻居(定义3.)。本文认为所有满足条件L(v) > L(u)的节点都是节点u的候选领导集合

  2. 对于一个节点u,可能有多个相邻节点同时具有领导L(·)> L(u)
    为了从leader候选集合中选择合适的leader,根据两个节点是否属于同一个社区,作为判别的附加条件。
    如果是一个社区,则可以互为leader
    考虑到当两个变量之间的关系为负时,皮尔逊相关系数为负,本文利用信息矩阵I(信息矩阵,创新定义1.)进一步细化领导者候选人集
    如果Iij < 0,则认为两个节点不属于同一个社区,这就主动说明了节点i、j不能互为leader

  3. 除此之外,我们还应用了Attractive force来进一步优化leader
    若v是u的拓扑邻居(定义3.),V对节点u的引力公式为:
    在这里插入图片描述(deg(u)为节点u的度数,d(u, v) = 1 / I (u, v) )
    ( I (u, v):信息矩阵,创新定义1.)

  4. 给定无向无权图G = (V, E),节点V∈V的局部前导为:
    在这里插入图片描述在这里插入图片描述

注意,在执行上述计算之后,局部前导Lloc(v) 可能是一个空集。
出现这种情况的具体原因是,导联L(u) 是一个局部极值。

  1. 经过上述条件的计算,我们可以确定每个节点的唯一本地leader

在以上计算结束时,我们可以得到一个初始的本地leader集合,我们不需要提前知道网络的真实社区数量。

第二步:合并小分支以得到最终结果

  1. 完成上述步骤后,我们得到了由每个节点的局部信息形成的初步聚类结果。
    然而,由于我们只使用了当地的信息,可能会有一些细微的分支由于原始数据的模糊性而分类错误,例如孤立的点
    因此,为了得到更准确的结果,我们必须合并最初围绕当地领导人形成的小社区(因为在合并过程中我们只考虑每个领导人之间的关系)。

  2. 首先,如果存在一个离群值,我们将其视为邻近节点中领导能力最强的节点的追随者。
    如果有多个邻居的领导能力最强,则选择程度最高的邻居作为其当地领导人。

  3. 然后利用信息矩阵I(包含属性和拓扑信息)中的元素判断两个前导是否需要合并,本文设置I(u, v) > 1为合并(阈值视实际情况而定)。

实验

数据集

人工合成网络

  1. 标准Lancichinetti-Fortunato-Radicchi (LFR)基准网络模型通常用于评估社区检测算法,因为它提供了对真实网络的良好近似。
    我们用来生成网络的参数如表(1)所示。
    网络结构的复杂性随着混合参数µ的增大而增大。

    每个节点构造了m维0-1属性信息向量,其中m为属性个数
    在本文中,我们将为每个社区提供50个相应的属性。
    显然,属于同一个通信社区的节点应该具有高概率的相同属性。
    进一步,假设网络中有h个社区,那么每个节点对应的属性就有50 × h个。

    更详细地说,我们使用概率ρin的二项分布来生成属于团体的节点的0-1属性,使用概率ρout的二项分布来生成剩余的属性。
    在随后的实验中,我们分别为ρin和ρout选择了三个不同的值,其中ρin ={0.8, 0.7, 0.6}和ρout ={0.2, 0.3, 0.4}。
    显然,更大的ρin (ρout)使网络结构更清晰(更模糊)。

现实世界的网络

  1. Zachary空手道网: 理念上的分歧导致了俱乐部主任和空手道教练之间的争执,成员们围绕他们支持的领导人组建了两个新的内部组织。
    我们会看到网络中的节点代表每个成员,当两个成员成为朋友(例如,一起看电影,去参加聚会),我们可以在相应的节点之间建立链接。

  2. 橄榄球网: 橄榄球网是根据2000年NCAA的美国大学橄榄球联盟建立的网络。
    联盟将115支参加比赛的球队分成12个区(12个社区)进行比赛。
    网络中的节点代表橄榄球队(共115个节点),我们在任何两支球队之间构建一个链接(即一条边),只要他们进行了一场比赛。
    网络中有616个边,这意味着整个联赛总共进行了616场比赛。

  3. 海豚网络: 一个社交网络,由62个节点代表62只宽鼻子海豚。
    作为除人类之外拥有复杂社会网络的物种之一,栖息在新西兰海湾的海豚网络的复杂性不亚于人类的网状工作。
    海豚由两位领队带领,分为两个科(群落数量为2个)。
    当两只海豚中的一只互相交流,超过了定义的亲密值,我们就在相应的节点之间建立联系

  4. Polbooks网络: 这个网络的节点是由亚马逊美国网站上所有与政治相关的书籍组成的,根据页面底部的“买了这本书的人也买了…”
    V. Krebs根据在亚马逊上的分类将这些书分为三类(“自由主义”、“保守主义”和“中间派”)。

  5. WebKB network: 数据集是四所大学(康奈尔大学、德克萨斯大学、华盛顿大学和威斯康辛大学)的信息网络的集合。
    每所大学的网络工作分为五个类,包括课程类、学生类、教员类、项目类和教员类。
    每个出版物都有1703个属性,这些属性由二进制向量表示,表示单词的存在或不存在。

基线方法和评估指标

对比算法

Topleaders,HDA 和 autoLeader

评价指标

  1. 归一化互信息(NMI)
    在这里插入图片描述

(其中N为节点数,k为社区数,Cij为社区i中分配给社区j和Ci的节点数。Ci.为矩阵C的第i行之和,log为自然对数。)
(NMI的值在[0,1]之间。)

  1. Kappa:Kappa考虑了随机效应的影响,其计算公式如下:
    在这里插入图片描述在这里插入图片描述
  2. Purity:正确分配的节点数除以v中节点总数。纯度范围从0(完全不一致)到1(完全一致)。
    在这里插入图片描述
    (M和Q是相同数据的两个不同分区,V是所有节点的集合。)

实验结果

人工合成网络

这些网络由不同的混合参数µ来研究不同的参数α(信息矩阵,顶概念定义1.)对TALB结果的影响。可以观察到:

  1. 随着网络变得越来越复杂(即ρin减小,ρout增大),群落检测变得越来越困难,从而降低了TALB的准确性。
  2. 即使在高噪声网络(ρin = 0.6, ρout = 0.4)中,本文提出的TALB共同体检测结果也是可以接受的。
    当网络的属性信息(ρin = 0.8, ρout = 0.2)明确时,算法的准确率可达0.95。
  3. 实验结果表明,参数α的不同值对不同数据集的结果影响不大,这意味着在未来的实际计算中不需要对α进行特殊的手动调整,可以设置为1。

接下来,我们进行实验,将TALB模型与目前使用较为广泛的其他基于领导的模型进行准确性比较,如表(4)所示。注意表中的TALB82、73、64表示所使用的不同属性信息。
例如,TALB82表示为每个节点生成一个属性向量,参数ρin = 0.8,ρout = 0.2。

  1. 从表中可以看出,当属性信息清晰时,提出的TALB算法的性能几乎是最佳的,当属性信息模糊时,结果仍然比不结合属性信息进行团体检测的Top leaders更准确。
  2. TALB的稳定性和普适性也很明显,这也说明仅使用网络的拓扑信息进行社区检测是不够的。

真实网络

我们首先实验了不同参数α值对TALB结果的影响,如图(3)所示。
从图中可以看出:

  1. 每个数据对于自己取的最大值对应一个特定的α值,但α的值对整个算法的结果没有显著的影响。
    因此,在实际计算中,当不存在其他特殊情况时,我们设α = 1。
  2. 属性信息更加清晰,增强了社群检测结果,验证了关键作用
  3. 当属性信息异常嘈杂时,属性信息中包含的团体结构模糊,但TALB的精度在0.4以上,说明TALB能够很好地结合网络拓扑信息和节点属性信息。

然后,将TALB与几种不同的算法在真实网络中进行比较,具体结果如表(5)和表(6)所示。结果显示:

  1. 当属性信息为表(5)和表(6)时,算法TALB具有较高的团体检测结果,这表明该信息不仅是对网络拓扑信息的补充,而且在正交上为检测提供了有用的信息。
  2. 我们提出的TALB方法在极其模糊的属性信息中也表现良好,从侧面反映了TALB方法的鲁棒性,即我们的算法的功能并不完全依赖于节点属性中明确而清晰的信息。
  3. TALB的准确率随着属性信息的模糊而降低,进一步说明高质量的节点属性信息在社区检测中起着至关重要的作用。
    此外,我们还比较了几种算法的计算时间。
    由图(4)可以看出,虽然Top leader的计算时间最短,但该算法的计算精度并不高。
    本文提出的TALB算法在保证精度的前提下,具有较短的计算时间。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/44583.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

https://zhuanlan.zhihu.com/p/20397902

首发于 前端外刊评论 关注专栏 登录 写文章 Webpack傻瓜指南&#xff08;二&#xff09;开发和部署技巧 张轩 9 个月前 注意啦&#xff1a;如果你还没有看第一篇 请先看下第一篇的基础知识&#xff1a;Webpack傻瓜式指南&#xff08;一&#xff09; - 前端外刊评论 - 知乎专栏…

继续!从顶会论文看对比学习的应用!

公众号作者上杉翔二 悠闲会 信息检索 整理 | NewBeeNLP 上周&#xff0c;我们分享了对比学习的一些应用&#xff0c;从顶会论文看对比学习的应用&#xff01; 本篇博文将继续整理一些对比学习的应用&#xff0c;主要是集中在MoCo和SimCLR等模型。 1、LCGNN MoCo架构…

知乎采集问答栏目以及文章教学

知乎文章质量怎么样 现在的年轻人越来越多的人喜欢知乎了&#xff0c;因为知乎平台的质量越来越高&#xff0c;我自己就比较喜欢使用知乎&#xff0c;很多问题我喜欢看知乎的答案&#xff0c;不喜欢看其它平台的&#xff0c;原因就是因为知乎的答案更权威&#xff0c;更靠谱一…

短视频自导自演,分镜脚本如何设计

前言&#xff1a; 在进入主题之前我先强调一下&#xff0c;这篇完全是番外&#xff0c;小编的主线还是以编码类为重的文章。至于原因有两点&#xff0c;一是距离上次更新到现在已经快一个月&#xff0c;所以先总结一下近期玩的东西补上。二是我确实正在再次尝试做短视频&#x…

制作钓鱼网站(克隆网站)

克隆网站主要指模仿相关网页的页面格式,自己制作页面颜色、标识均与原网站视觉效果相同,且域名差别不大,被用于谋取利益的非法网站。 利用social-enginner-toolkit(set)可制作多种钓鱼网站,下面是其中一种:获取用户凭证信息的网站。 准备:kali linux(IP192.168.xx…

Thonny编辑器介绍

相信很多在学习python的朋友都纠结&#xff0c;到底选哪个编辑器&#xff08;IDE&#xff09;好呢&#xff0c;下面给大家推荐一个编辑器————Thonny&#xff1a; Thonny编辑器是一个很简洁的编辑器&#xff0c;UI设计也很好看&#xff0c;虽然很简洁&#xff0c;但是它的功…

使用SniperPhish进行电子邮件钓鱼

关于SniperPhish SniperPhish是一款专为渗透测试人员以及安全研究专家设计的网络钓鱼研究工具&#xff0c;其主要目的是为了通过模拟真实场景中的网络钓鱼攻击来提升用户的安全保护意识。SniperPhish可以将研究人员创建的钓鱼网站和钓鱼邮件绑定在一起&#xff0c;以实现集中跟…

一款可以阻止网络钓鱼诈骗的解决方案?

“你继承了一笔财富。要转账&#xff0c;我需要你的银行账户凭证。” 你是否也遇见过此类的电话诈骗话术。 根据2022年数据泄露调查报告&#xff0c;25%的数据泄露涉及网络钓鱼。 这是怎么发生的&#xff1f;参与网络钓鱼的欺诈者一般都是心理方面的高手。他们知道如何营造紧…

甲方安全之仿真钓鱼演练(邮件+网站钓鱼)

文章目录 一、简介1.1 前言1.2 整体思路1.3 演练所需1.4 各邮件厂商日群发上限 二、钓鱼平台搭建及配置2.1 gophish平台搭建2.2 收件目标配置&#xff08;User & Groups&#xff09;2.3 发信邮箱配置&#xff08;Sending Profiles&#xff09;2.4 邮件模版配置&#xff08;…

如何识别钓鱼邮件

今天&#xff0c;带大家来防御钓鱼邮件。 钓鱼邮件&#xff0c;即一种伪造邮件&#xff0c;是指利用伪装的电子邮件&#xff0c;来欺骗收件人点击恶意URL&#xff0c;或诱导收件人下载带恶意程序的可执行文件。 对于恶意URL&#xff0c;通常会伪装成和真实网站一样&#xff0c;…

【自制】我造了一台 钢 铁 侠 的 机 械 臂 !【硬核】

有人说:一个人从1岁活到80岁很平凡,但如果从80岁倒着活,那么一半以上的人都可能不凡。 生活没有捷径,我们踩过的坑都成为了生活的经验,这些经验越早知道,你要走的弯路就会越少。

识别钓鱼邮件小技巧

先在收邮件时自动识别出外部邮件&#xff0c;然后再去甄别。 以Foxmail邮件客户端为例—— 1、点击右上角“设置”按钮——选择“工具”——选择“过滤器” 2、选择将过滤策略所希望应用于的邮件账户&#xff0c;点击“新建”。 &#xff08;1&#xff09;设置一个过滤器名…

C#小游戏—钢铁侠VS太空侵略者

身为漫威迷&#xff0c;最近又把《钢铁侠》和《复仇者联盟》系列又重温了一遍&#xff0c;真的是印证了那句话&#xff1a;“读书百遍&#xff0c;其意自现”。看电影一个道理&#xff0c;每看一遍&#xff0c;都有不懂的感受~ 不知道大伙是不是也有同样的感受&#xff0c;对于…

学习JavaEE过程中遇到的各种(奇葩)问题

学习JavaEE过程中遇到的各种&#xff08;奇葩&#xff09;问题 问题一&#xff1a; The superclass “javax.servlet.http.HttpServlet” was not found on the Java Build Path 遇到这个问题的时候我尝试在网上找答案按着答案一步步操作。 这是在按着网上答案来的正确流程&a…

奇葩算法系列——猴子排序

首先我们介绍无限猴子定理 无限猴子定理最早是由埃米尔博雷尔在1909年出版的一本谈概率的书籍中提到的&#xff0c;此书中介绍了“打字的猴子”的概念。无限猴子定理是概率论中的柯尔莫哥洛夫的零一律的其中一个命题的例子。大概意思是&#xff0c;如果让一只猴子在打字机上随…

Maven项目中遇到的奇葩问题

场景描述 开发项目搞环境是一个非常蛋疼的问题&#xff0c;总是会遇到各种奇葩的问题&#xff0c;今天就遇到了一个跟Maven有关的。新开发一个项目&#xff0c;从SVN下载下来项目之后&#xff0c;pom.xml中Spring相关的Jar包就一直报如下红叉 后来发现我的maven 中是已经有…

你所遇到过得奇葩的需求

在网上看到大家在谈论碰到过的奇葩需求&#xff0c;看着看着一天的劳累都被欢乐冲散了&#xff0c;特地搜集大家的留言&#xff0c;整理出来&#xff0c;给大家分享一下&#xff0c;希望也能给你的生活添加点乐子&#xff0c;哈哈哈。 0、部门老大&#xff1a;你&#xff0c;做…

PVE7更新AQC107网卡驱动,解决奇葩问题。

背景介绍 前段时间自己组装了一台生产力&#xff0c;期间在TB买了张AQC107的万兆电口网卡&#xff0c;回来后发现在PVE7环境下每次重启或启动后网卡总是没反应或者不会自动协商到10G&#xff0c;拔下来插到win主机上没问题&#xff0c;基本确定是驱动的问题&#xff0c;那么就着…

html文档中引入axios遇到的奇葩问题

html文档中引入axios遇到的奇葩问题 在body中引入代码&#xff1a; <script src"https://unpkg.com/axios/dist/axios.min.js"></script>然后插入一个按钮&#xff1a; <input type"button" value"get请求" class"get&qu…

奇葩问题☞ npm install 报错 gyp ERR

gyp ERR! node -v v16.13.1 gyp ERR! node-gyp -v v3.8.0 gyp ERR! not ok 直接看图吧&#xff0c;咱也是第一次遇见这种错误&#xff0c;怎么办&#xff01;&#xff01;&#xff01; 于是百度了好久&#xff0c;尝试了好几种方法&#xff0c;但都不行。 比如&#xff1a;第一…