图社区发现算法--Leiden算法

Leiden算法出自2019年的论文《From Louvain to Leiden: guaranteeing well-connected communities》,它是Louvain算法的改进社区发现算法,相比Louvain得到的社区质量更高,因为其移动策略速度也更快。Leiden算法也是以论文作者所在城市来命名的。

Louvain算法的缺陷

Louvain算法可能会造成生成的社区内部是未连通的,这种情况通常是社区的某一个部分是由经过社区外节点的路径与社区内的其他部分连接在一起的。回顾一下Louvain算法,它主要分为两个阶段:模块度优化和社区合并,这两个阶段不断进行迭代直到无法得到更优的结果。在模块度优化时在旧社区起桥接作用的节点可能会被加入到其他社区中使得原来的旧社区变成了内部不连通的社区。

考虑论文图2的例子,图中更粗的边表示更强的连接性,更细的边表示更弱的连接性。在Louvain算法的计算过程中,可能会得到如图2(a)所示社区结构,节点0-6属于同一个社区,同时节点0与社区外其他很多点也有连接。随着Louvain算法的继续迭代,如果有足够多的节点0的在网络剩余部分的邻居节点构成了社区时,将节点0划到另一个社区可能是更优的,于是会造成图2(b)所示的情形,在这种情况下原来的社区就变成不连通的了。

WeChatWorkScreenshot_77ae6a35-f966-43e8-8500-da187b47994b

上述例子是一个极端例子,除此之外,Louvain也有可能社区只是在非常弱的层面才是连通的。

Leiden原理

Leiden算法基于之前的几项工作来改进Louvain:smart local move algorithm, speeding up the local moving of nodes,moving nodes to random neighbours。它一共分为三个阶段:(1) 节点的局部移动(local moving of nodes),(2) 分区的细化(refinement of the partition),(3) 用第一步得到的未细化的分区创建聚合网络的初始分区,再基于细化分区得到最终的聚合网络。论文图3示意了Leiden算法,伪代码如论文A.2。这三个阶段不停地迭代得到最终的社区划分结果,与Louvain一样,得到的社区也是层次化社区。

WeChatWorkScreenshot_be6185ad-4301-4415-b878-e7e904b36b5f

第一阶段:节点的局部移动

在Louvain的第一阶段会不停地访问图中所有的节点直到没有节点可以移动到其他社区,而 Leiden算法使用快速局部移动流程(fast local move procedure),它只会访问那些其邻居改变了的节点,因此Leiden比Louvain更高效,其过程如下:

  1. 初始化一个包含网络中所有节点的队列,这些节点是被随机地添加到队列中的。
  2. 访问队列的第一个节点,如果将这个节点移动到其他社区中会使得质量函数得分增加,则将节点移动到新的社区,新社区为使得质量分增加最大的社区(伪代码17行)。
  3. 如果第二步的节点被移动到了新社区,遍历这个节点的邻居,将不属于节点的新社区且不在队列中的节点加入到队列的尾部。
  4. 重复2和3步直到队列为空。

WeChatWorkScreenshot_5946542e-194a-46e5-95db-3e8b9a85627f

第二阶段:分区的细化

在此阶段将第一步得到的分区 P \mathcal{P} P细化得到 P refined \mathcal{P}_{\text{refined}} Prefined,经过这一阶段后, P \mathcal{P} P中的一个社区有可能会被分成多个社区。其步骤如下:

  1. 细化分区 P refined \mathcal{P}_{\text{refined}} Prefined初始化时每一个节点表示一个社区。
  2. P refined \mathcal{P}_{\text{refined}} Prefined中自己单独是一个社区的节点与其他社区进行合并,这个合并的规则有:a. 只能与分区 P \mathcal{P} P中相同社区的其他节点合并,b. 合并时的两个社区都必须是连通的(伪代码中的34行和37行)。
  3. 第2步中与其他社区合并时,不需要像第一阶段那样选择使得质量分数最大的社区进行合并,而是在满足质量分数大于0的社区中随机选择一个来合并,随机选择的概率是根据质量分来得到的,如伪代码38行。随机程度由参数 θ > 0 \theta>0 θ>0来决定,随机选择社区可使得分区空间更好的被探索。

关于伪代码中第34行理解(第37行是类似的), R = v ∣ v ∈ S , E ( v , S − v ) ≥ γ ∣ ∣ v ∣ ∣ ⋅ ( ∣ ∣ S ∣ ∣ − ∣ ∣ v ∣ ∣ ) R = {v | v ∈ S, E(v, S - v) ≥ γ ||v|| · (||S|| - ||v||)} R=vvS,E(v,Sv)γ∣∣v∣∣(∣∣S∣∣∣∣v∣∣)表示集合 S S S中的与集合内其他节点很好的连通(well-connected)的节点集合。 E ( v , S − v ) E(v,S-v) E(v,Sv)表示节点v与S中其他节点之间的边的数目, γ \gamma γ是分辨率,控制连通的程度, ∣ ∣ v ∣ ∣ ||v|| ∣∣v∣∣是节点v的度, ∣ ∣ S ∣ ∣ ||S|| ∣∣S∣∣是S中所有节点度数之和。

第三阶段:聚合网络,将第二步得到的细化分区得到聚合网络,因为细化分区是基于第一步得到的分区得到的,所以直接合并细化分区就可以了。

论文分析和证明了Leiden的一些保证,如论文表1所示。
WeChatWorkScreenshot_131596ec-98dc-4212-bdc5-027785569fa8
下图是比较Louvain和Leiden生成的社区连通差的实验比较结果,可以看到随着迭代的进行,Leiden可有效改善Louvain社区质量差的问题。

WeChatWorkScreenshot_d76b093f-e423-4fc2-8239-919c6cceaffb

Leiden的实现

python库leidenalg是Leiden论文作者对Leiden的C++实现的python封装,算法本身是基于igraph和libleidenalg(用C++来实现)

import leidenalg
import igraph as ig##创建Zachary karate club图
G = ig.Graph.Famous('Zachary')
## 基于模块度的社区发现
part = leidenalg.find_partition(G, leidenalg.ModularityVertexPartition)

python包graspologic也实现Leiden算法。

from graspologic.partition import hierarchical_leiden
import networkx as nxseed = 123
max_cluster_size = 100
graph = nx.karate_club_graph()
## 参考自graphrag的代码
community_mapping = hierarchical_leiden(graph, max_cluster_size=max_cluster_size, random_seed=seed
)
results: dict[int, dict[str, int]] = {}
for partition in community_mapping:results[partition.level] = results.get(partition.level, {})results[partition.level][partition.node] = partition.cluster

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/487061.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于APO四步实现炫酷的NGINX请求分析看板

APO 充分利用 Vector ClickHouse 实现的日志方案,做到了开箱即用、高效、低成本。利用 APO 的日志功能,不仅可以检索日志内容本身,还可以实现很多有意思的功能。本次为大家介绍使用 APO 的日志功能实现炫酷的 NGINX 请求分析看板&#xff0c…

QT 中基于 TCP 的网络通信

基础 基于 TCP 的套接字通信需要用到两个类: 1)QTcpServer:服务器类,用于监听客户端连接以及和客户端建立连接。 2)QTcpSocket:通信的套接字类,客户端、服务器端都需要使用。 这两个套接字通信类…

X推出新AI图像生成器Aurora:更接近真实的创作效果

每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领…

后端工程搭建

后端工程通过maven聚合工程的形式来搭建 1.1创建spzx-parent工程(父工程) 存放公共依赖 锁定公共依赖版本 1.2创建spzx-common工程(公共模块) 存放一些工具类/公共服务 1.3创建spzx-model工程(数据模型) 存放实体类 1.4创建spzx-menager工程(后台管理系统) 后台管理系统服务模…

Co-Slam论文及复现记录

Overview 输入RGB-D流: { I t } t 1 N { D t } t 1 N \{I_t\}^{N}_{t1}\{D_t\}^{N}_{t1} {It​}t1N​{Dt​}t1N​,它们带有已知相机内参 K ∈ R 3 3 K\in \mathbb{R}^{3\times 3} K∈R33。通过联合优化相机姿态 { ξ t } t 1 N \{\xi_t\}^{N}_{t1} {…

无代码,无问题:面向手动测试人员的人工智能自动化

“质量比数量更重要。一个本垒打比两个二垒打好得多。” ——史蒂夫乔布斯 在软件测试领域,这句话再贴切不过了。如果你是一名手动测试人员,你就会知道交付高质量结果的压力,而且通常是在紧迫的期限和有限的资源内。 然而,在当今…

transformers生成式对话机器人

简介 生成式对话机器人是一种先进的人工智能系统,它能够通过学习大量的自然语言数据来模拟人类进行开放、连贯且创造性的对话。与基于规则或检索式的聊天机器人不同,生成式对话机器人并不局限于预定义的回答集,而是可以根据对话上下文动态地…

模版方法模式的理解和实践

在软件开发中,设计模式为我们提供了一套经过验证的解决方案,用于解决常见的设计问题。其中,模版方法模式(Template Method Pattern)是一种行为设计模式,它定义了一个算法的框架,并允许子类在不改…

YOLO系列正传(二)YOLOv3论文精解(上)——从FPN到darknet-53

系列文章 YOLO系列基础 YOLO系列基础合集——小白也看得懂的论文精解-CSDN博客 YOLO系列正传 YOLO系列正传系列(一)类别损失与MSE损失函数、交叉熵损失函数-CSDN博客 背景 随着YOLOv11版本的发布,YOLO算法在视觉检测领域独领风骚&#x…

批处理读取文本第n行并赋值给变量?--遍历所有行并赋值给变量数组

::TraceLines.bat goto :test1http://www.bathome.net/thread-27229-1-1.html#批处理如何获取txt文本中某行某列的内容/指定行指定列的内容 http://www.bathome.net/thread-47304-1-1.html#如何用批处理读取文本第二行并赋值给变量? https://github.com/npocmaka/ba…

Blender中使用BlenderGIS插件快速生成城市建筑模型

导入下载 BlenderGIS 插件 去github上下载其压缩包,地址如下: https://github.com/domlysz/BlenderGIS 在BlenderGIS中导入这个插件压缩包: 点击上方菜单栏的编辑,点击偏好设置 在插件>从磁盘安装中导入刚刚下载的压缩包 可…

5G Multicast/Broadcast Services(MBS) (八) MBS多播DRX

这里简单看下多播DRX的内容。 1 MBS multicast 对于MBS多播,RRC可配置 MAC entity使其具备per G-RNTI 或per G-CS-RNTI DRX 功能,从而控制 UE 对 MAC entity的G-RNTI和G-CS-RNTI 的 PDCCH 监听活动。当处于 RRC_CONNECTED 状态时,如果为 G-RNTI 或 G-CS-RNTI 配置了多播…

Mybatis中SQL的执行过程

文章目录 Mybatis 框架SQL执行过程数据库操作映射方式SQL的执行过程- SQL解析- SQL参数映射- SQL预编译- SQL执行- 结果映射- 事务处理- 缓存处理- 日志记录与监控 扩展#与$的区别- $ 符号- # 符号总结示例 Mybatis SQL分类- 动态 SQL- 静态 SQL静态SQL和动态SQL选择${}、#{}与…

2024年深圳杯数学建模C题编译器版本的识别问题解题全过程文档及程序

2024年深圳杯数学建模 C题 编译器版本的识别问题 原题再现: 作为一种重要的工具,电子计算机自诞生以来,经历了极为快速的发展。区区百年的时间内,无论从体积、能耗、计算速度,还是应用能力等方面,电子计算…

12.09 C++作业2

利用函数重载&#xff0c;实现对整形数组的冒泡排序&#xff0c;对浮点型数组的冒泡排序 #include <iostream>using namespace std;int maopao(int(&ra)[10]) {//求数组长度int len sizeof(ra)/sizeof(ra[0]);int i,j,t;for(int i0;i<len;i){cin >>ra[i];}…

阿里云轻量应用服务器开放端口,图文教程分享

阿里云轻量应用服务器如何开放端口&#xff1f;在轻量服务器管理控制台的防火墙中添加规则即可开通端口&#xff0c;开通80端口就填80&#xff0c;开通443就填443端口&#xff0c;开通3306端口就填3306。阿里云百科网aliyunbaike.com整理阿里云轻量应用服务器端口号开通图文教程…

MySQL--》如何在SQL中巧妙运用函数与约束,优化数据处理与验证?

目录 函数使用 字符串函数 数值函数 日期函数 流程函数 约束 函数使用 函数是指一段可以直接被另一段程序调用的程序或代码&#xff0c;在mysql当中有许多常见的内置函数&#xff0c;接下来开始对这些内置函数及其作用进行简单的讲解和使用&#xff1a; 字符串函数 my…

《三角洲行动》游戏安全组件运行时发生异常1-0-0,是什么原因?以及要如何解决?

《三角洲行动》游戏安全组件异常1-0-0深度探讨 今天你们安全撤离了吗&#xff1f;在《三角洲行动》这款经典射击游戏里&#xff0c;游戏安全组件运行时发生异常1-0-0的原因及解决方案&#xff0c;并借此机会分享一些有关文件丢失、文件损坏和系统报错等问题的通用解决策略。希…

TensorFlow深度学习实战(1)——神经网络与模型训练过程详解

TensorFlow深度学习实战&#xff08;1&#xff09;——神经网络与模型训练过程详解 0. 前言1. 神经网络基础1.1 神经网络简介1.2 神经网络的训练1.3 神经网络的应用 2. 从零开始构建前向传播2.1 计算隐藏层节点值2.2 应用激活函数2.3 计算输出层值2.4 计算损失值2.4.1 在连续变…

ThinkPHP框架审计--基础

基础入门 搭建好thinkphp 查看版本方法&#xff0c;全局搜version 根据开发手册可以大致了解该框架的路由 例如访问url http://127.0.0.1:8094/index.php/index/index/index 对应代码位置 例如在代码下面添加新方法 那么访问这个方法的url就是 http://127.0.0.1:8094/index.…