G-Set(增长集合,Grow-Only Set)

一、概念

G-Set(增长集合,Grow-Only Set)是一种冲突自由复制数据类型(Conflict-Free Replicated Data Type, CRDT),用于在分布式系统中同步和合并数据,而不需要中央协调器。G-Set 支持两种操作:添加(add)和查询(query)。一旦元素被添加到 G-Set 中,它就不能被删除,这就是为什么它被称为“增长集合”。

1.1 G-Set 的特点

  • 不可变性:一旦元素被添加到集合中,它就永远存在于集合中,不能被删除。
  • 幂等性:多次添加同一个元素的效果和添加一次该元素的效果相同。
  • 交换性:元素的添加顺序不影响最终的集合状态。
  • 冲突无关:在不同节点上并行添加元素不会导致冲突,所有的更改最终都会被合并到每个节点的副本中。

1.2 G-Set 的应用场景

G-Set 非常适合于需要合并来自不同节点的数据,而这些数据不需要删除操作的场景。例如:

  • 分布式计数器:计数器的每次增加可以视为向 G-Set 中添加一个元素。
  • 曾在线用户集合:记录哪些用户曾经在线,即使他们后来下线了。
  • 标签系统:在一个分布式系统中为对象添加标签,不需要删除标签的功能。

1.3 G-Set 的局限性

由于 G-Set 是一个只增不减的集合,它的主要局限性在于无法从集合中删除元素。这可能导致随着时间的推移,集合的大小不断增长,占用更多的存储空间。为了解决这个问题,CRDT 研究中引入了其他类型的集合,如 OR-Set(可观察移除集合),它允许元素被添加和删除,同时仍然保持冲突无关的特性。

1.4 实现示例

在 Java 中,一个简单的 G-Set 实现可以使用 HashSet 来完成:

import java.util.HashSet;
import java.util.Set;public class GSet<E> {private final Set<E> set = new HashSet<>();public void add(E element) {set.add(element);}public boolean contains(E element) {return set.contains(element);}public Set<E> getElements() {return new HashSet<>(set);}
}

这个实现提供了添加元素和查询元素是否存在的基本操作。由于使用了 HashSet,这个 G-Set 实现自然就具有了幂等性和交换性的特点。

二、示例

2.1 G-Set 的应用场景:分布式计数器

在分布式系统中,使用 G-Set 实现计数器的一个常见方法是将每次计数增加视为向集合中添加一个唯一标识符(例如,时间戳、UUID等)。这样,计数器的值就等于集合中元素的数量。下面是一个具体的示例:

2.1.1 场景描述

假设有一个在线文章阅读平台,需要统计一篇文章的阅读次数。由于平台是分布式的,文章可以同时被多个节点上的用户阅读。为了确保阅读次数的准确性,平台决定使用 G-Set 来实现分布式计数器。

2.1.2 实现步骤

  1. 初始化:对于每篇文章,初始化一个空的 G-Set。
  2. 阅读操作:当一个用户阅读文章时,系统生成一个唯一标识符(例如,用户ID+时间戳),并将其添加到文章对应的 G-Set 中。
  3. 计数查询:要获取文章的阅读次数,只需计算 G-Set 中元素的数量。

2.1.3 示例代码

import java.util.HashSet;
import java.util.Set;public class ArticleReadCounter {private final Set<String> readSet = new HashSet<>();// 用户阅读文章时调用此方法public void addRead(String userId) {String uniqueId = userId + "-" + System.currentTimeMillis();readSet.add(uniqueId);}// 获取文章的阅读次数public int getReadCount() {return readSet.size();}
}

2.1.4 示例使用

public class Main {public static void main(String[] args) {ArticleReadCounter counter = new ArticleReadCounter();// 模拟用户阅读文章counter.addRead("user1");counter.addRead("user2");counter.addRead("user3");// 获取并打印阅读次数System.out.println("Article read count: " + counter.getReadCount());}
}

2.1.5 分布式环境下的合并

在分布式环境下,每个节点都可以有自己的 G-Set 实例。当需要合并两个节点的计数器时,可以将两个 G-Set 的元素合并到一个新的 G-Set 中,这个新的 G-Set 包含了所有唯一的阅读事件。由于 G-Set 是冲突无关的,这种合并操作是安全的,不会丢失数据,也不会产生冲突。

跟踪一个在线文章阅读平台的文章阅读次数,其中每次阅读都由一个唯一的事件ID表示,该ID由用户ID和时间戳组合而成。

2.1.5.1 分布式环境设置

假设我们的分布式系统有三个节点展示网页信息:Node A、Node B 和 Node C。每个节点都维护着自己的 G-Set 实例来跟踪文章的阅读事件。

  • Node A 的 G-Set 包含:{"user1-1622547600", "user2-1622547605"}
  • Node B 的 G-Set 包含:{"user3-1622547610", "user4-1622547615"}
  • Node C 的 G-Set 包含:{"user2-1622547605", "user5-1622547620"}

这里,"user2-1622547605" 在 Node A 和 Node C 中都出现了,展示了在分布式系统中,同一个阅读事件可能被多个节点观察到的情况。

2.1.5.2 合并过程

为了得到全局的文章阅读次数,我们需要将这三个节点的 G-Set 合并。合并操作是将所有节点的 G-Set 中的元素合并到一个新的集合中,由于 G-Set 的特性,即使某些阅读事件在多个节点中被记录,它们在合并后的集合中只会出现一次。

合并后的 G-Set 将包含:{"user1-1622547600", "user2-1622547605", "user3-1622547610", "user4-1622547615", "user5-1622547620"}

2.1.5.3 计数结果

文章的总阅读次数等于合并后的 G-Set 中元素的数量,即 5 次。

2.1.5.4 示例代码
import java.util.HashSet;
import java.util.Set;public class DistributedCounter {// 模拟合并过程public static Set<String> mergeSets(Set<String>... sets) {Set<String> mergedSet = new HashSet<>();for (Set<String> set : sets) {mergedSet.addAll(set);}return mergedSet;}public static void main(String[] args) {// 初始化节点的 G-SetsSet<String> nodeASet = new HashSet<>(Set.of("user1-1622547600", "user2-1622547605"));Set<String> nodeBSet = new HashSet<>(Set.of("user3-1622547610", "user4-1622547615"));Set<String> nodeCSet = new HashSet<>(Set.of("user2-1622547605", "user5-1622547620"));// 合并 G-SetsSet<String> mergedSet = mergeSets(nodeASet, nodeBSet, nodeCSet);// 计算并打印总阅读次数System.out.println("Total article reads: " + mergedSet.size());}
}

2.1.6 注意

这种方法的缺点是随着阅读次数的增加,G-Set 的大小也会不断增长,可能会占用大量的存储空间。在实际应用中,需要根据具体情况考虑是否适合使用 G-Set 实现分布式计数器,或者寻找其他更高效的解决方案。

2.2 G-Set 的应用场景:曾在线用户集合

在分布式系统中,使用 G-Set 来跟踪在线用户集合是一个很好的应用场景。在这个场景中,每当用户上线,系统就会将该用户的唯一标识符(如用户ID)添加到 G-Set 中。由于 G-Set 是一个只增不减的集合,这意味着一旦用户ID被添加,它就会永久保留在集合中。这对于跟踪曾经在线的用户非常有用,但请注意,这不适用于实时跟踪当前在线用户,因为用户下线后,其ID仍然保留在集合中。

2.2.1 示例代码

import java.util.HashSet;
import java.util.Set;public class OnlineUserTracker {private final Set<String> onlineUsers = new HashSet<>();// 用户上线时调用此方法public void userOnline(String userId) {onlineUsers.add(userId);}// 检查用户是否曾经上线过public boolean hasUserEverBeenOnline(String userId) {return onlineUsers.contains(userId);}// 获取曾经上线过的用户总数public int getTotalUsersEverOnline() {return onlineUsers.size();}
}

2.2.2 示例使用

public class Main {public static void main(String[] args) {OnlineUserTracker tracker = new OnlineUserTracker();// 模拟用户上线tracker.userOnline("user1");tracker.userOnline("user2");tracker.userOnline("user3");// 检查特定用户是否曾经上线过System.out.println("Has user2 ever been online? " + tracker.hasUserEverBeenOnline("user2"));// 获取并打印曾经上线过的用户总数System.out.println("Total users ever online: " + tracker.getTotalUsersEverOnline());}
}

2.2.3 分布式环境下的合并

在分布式环境下,每个节点都可以维护自己的在线用户 G-Set。当需要同步或合并两个节点的在线用户集合时,可以简单地将两个 G-Set 的元素合并到一个新的 G-Set 中。这个新的 G-Set 包含了所有唯一的用户ID,从而确保了数据的一致性和完整性。

每当用户上线时,系统就会将该用户的唯一标识符(如用户ID)添加到 G-Set 中。由于 G-Set 是一个只增不减的集合,这意味着一旦用户ID被添加,它就会永久保留在集合中,适用于跟踪曾经上线的用户。

2.2.3.1 分布式环境设置

假设我们的分布式系统有三个节点:Node A、Node B 和 Node C。每个节点都维护着自己的 G-Set 实例来跟踪在线用户。

  • Node A 的 G-Set 包含在线用户:{"user1", "user2"}
  • Node B 的 G-Set 包含在线用户:{"user3", "user4"}
  • Node C 的 G-Set 包含在线用户:{"user2", "user5"}

这里,"user2" 在 Node A 和 Node C 中都出现了,展示了在分布式系统中,同一个用户可能在多个节点上线的情况。

2.2.3.2 合并过程

为了得到聊天室的全局在线用户集,我们需要将这三个节点的 G-Set 合并。合并操作是将所有节点的 G-Set 中的元素合并到一个新的集合中,由于 G-Set 的特性,即使某些用户ID在多个节点中被记录,它们在合并后的集合中只会出现一次。

合并后的 G-Set 将包含在线用户:{"user1", "user2", "user3", "user4", "user5"}

2.2.3.3 示例代码
import java.util.HashSet;
import java.util.Set;public class OnlineUserTracker {// 模拟合并过程public static Set<String> mergeOnlineUsers(Set<String>... userSets) {Set<String> mergedSet = new HashSet<>();for (Set<String> set : userSets) {mergedSet.addAll(set);}return mergedSet;}public static void main(String[] args) {// 初始化节点的 G-SetsSet<String> nodeAUsers = new HashSet<>(Set.of("user1", "user2"));Set<String> nodeBUsers = new HashSet<>(Set.of("user3", "user4"));Set<String> nodeCUsers = new HashSet<>(Set.of("user2", "user5"));// 合并 G-SetsSet<String> mergedUsers = mergeOnlineUsers(nodeAUsers, nodeBUsers, nodeCUsers);// 打印合并后的在线用户集System.out.println("Merged online users: " + mergedUsers);}
}

2.2.4 注意

  • G-Set 适用于跟踪用户的在线状态,但由于其只增不减的特性,它不适合用于实时监控当前在线用户。
  • 随着时间的推移,G-Set 的大小可能会不断增长,这可能会导致存储空间的问题。在实际应用中,需要考虑这一点,并根据具体需求选择合适的数据结构。

2.3 G-Set 的应用场景:标签系统

在分布式系统中,使用 G-Set 实现标签系统是一个很好的应用场景。在这个场景中,每当需要给一个对象(如文章、图片等)添加标签时,系统就会将该标签的唯一标识符(如标签名)添加到与该对象关联的 G-Set 中。由于 G-Set 是一个只增不减的集合,这意味着一旦标签被添加,它就会永久保留在集合中,适用于标签的累积和历史记录。

2.3.1 示例代码

import java.util.HashMap;
import java.util.HashSet;
import java.util.Map;
import java.util.Set;public class TagSystem {// 使用 Map 来存储每个对象及其关联的 G-Setprivate final Map<String, Set<String>> objectTags = new HashMap<>();// 给对象添加标签public void addTagToObject(String objectId, String tag) {// 获取或创建与对象关联的 G-SetSet<String> tags = objectTags.computeIfAbsent(objectId, k -> new HashSet<>());// 将标签添加到 G-Set 中tags.add(tag);}// 获取对象的所有标签public Set<String> getTagsForObject(String objectId) {return objectTags.getOrDefault(objectId, new HashSet<>());}
}

2.3.2 示例使用

public class Main {public static void main(String[] args) {TagSystem tagSystem = new TagSystem();// 给对象添加标签tagSystem.addTagToObject("article1", "Technology");tagSystem.addTagToObject("article1", "Innovation");tagSystem.addTagToObject("article2", "Travel");tagSystem.addTagToObject("article1", "2023");// 获取并打印对象的标签System.out.println("Tags for article1: " + tagSystem.getTagsForObject("article1"));System.out.println("Tags for article2: " + tagSystem.getTagsForObject("article2"));}
}

2.3.3 分布式环境下的合并

在分布式环境下,每个节点都可以维护自己的标签 G-Set。当需要同步或合并两个节点的标签集合时,可以简单地将两个 G-Set 的元素合并到一个新的 G-Set 中。这个新的 G-Set 包含了所有唯一的标签,从而确保了数据的一致性和完整性。

在这个场景中,每当需要给一个对象(如文章、图片等)添加标签时,系统就会将该标签的唯一标识符(如标签名)添加到与该对象关联的 G-Set 中。由于 G-Set 是一个只增不减的集合,这意味着一旦标签被添加,它就会永久保留在集合中。

2.3.3.1 分布式环境设置

假设我们的分布式系统有三个节点:Node A、Node B 和 Node C。每个节点都维护着自己的 G-Set 实例来跟踪对象的标签。

  • Node A 的 G-Set 包含对象 “Article1” 的标签:{"Tech", "Innovation"}
  • Node B 的 G-Set 包含对象 “Article1” 的标签:{"2023", "Tech"}
  • Node C 的 G-Set 包含对象 “Article1” 的标签:{"Innovation", "Environment"}

这里,标签 “Tech” 和 “Innovation” 在多个节点中出现了,展示了在分布式系统中,同一个标签可能被多个节点添加的情况。

2.3.3.2 合并过程

为了得到对象 “Article1” 的全局标签集,我们需要将这三个节点的 G-Set 合并。合并操作是将所有节点的 G-Set 中的元素合并到一个新的集合中,由于 G-Set 的特性,即使某些标签在多个节点中被记录,它们在合并后的集合中只会出现一次。

合并后的 G-Set 将包含对象 “Article1” 的标签:{"Tech", "Innovation", "2023", "Environment"}

2.3.3.3 示例代码
import java.util.HashSet;
import java.util.Set;public class TagSystem {// 模拟合并过程public static Set<String> mergeTags(Set<String>... tagSets) {Set<String> mergedSet = new HashSet<>();for (Set<String> set : tagSets) {mergedSet.addAll(set);}return mergedSet;}public static void main(String[] args) {// 初始化节点的 G-SetsSet<String> nodeATags = new HashSet<>(Set.of("Tech", "Innovation"));Set<String> nodeBTags = new HashSet<>(Set.of("2023", "Tech"));Set<String> nodeCTags = new HashSet<>(Set.of("Innovation", "Environment"));// 合并 G-SetsSet<String> mergedTags = mergeTags(nodeATags, nodeBTags, nodeCTags);// 打印合并后的标签集System.out.println("Merged tags for Article1: " + mergedTags);}
}

2.3.4 注意

  • G-Set 适用于累积对象的标签,但由于其只增不减的特性,它不适合用于需要频繁删除标签的场景。
  • 随着时间的推移,每个对象关联的 G-Set 的大小可能会不断增长,这可能会导致存储空间的问题。在实际应用中,需要考虑这一点,并根据具体需求选择合适的数据结构。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/453206.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于asp.NET的图书借阅系统

文章目录 前言项目介绍技术介绍功能介绍核心代码数据库参考 系统效果图 前言 文章底部名片&#xff0c;获取项目的完整演示视频&#xff0c;免费解答技术疑问 项目介绍 随着科学技术水平的逐年发展&#xff0c;构建一个高效、便捷的图书借阅系统。解决传统图书馆借阅过程中存…

全面了解CAN总线协议

提及总线&#xff0c;总是让人联想到那些交错在一起的计算机电线。那么这些电线如何发挥功效呢&#xff1f;这还得配合总线协议的管理来使用。那么今天我们介绍的就是CAN总线协议。看看这个协议的含义和应用吧。 CAN总线协议基本概念 1. 报文 总线上的信息以不同格式的报文发…

工业以太网之战:EtherCAT是如何杀出重围的?

前言 EtherCAT 是一种开放的实时工业以太网协议&#xff0c;由德国倍福公司开发并在 2003 年 4 月的汉诺威工业博览会上首次亮相&#xff0c;目前由 EtherCAT 技术协会&#xff08;ETG&#xff09;进行维护和推广。经过 21 年的不断发展&#xff0c;EtherCAT 显示出极强的生命…

移动 Web核心笔记(二)

空间转换 空间&#xff1a;是从坐标轴角度定义的 X 、Y 和 Z 三条坐标轴构成了一个立体空间&#xff0c;Z 轴位置与视线方向相同。 空间转换也叫 3D转换 属性&#xff1a;transform 平移 /*单独设置 z轴效果不明显*/ transform: translate3d(x, y, z); transform: translateX(…

PostgreSQL学习笔记:PostgreSQL vs MySQL

PostgreSQL 和 MySQL 都是广泛使用的关系型数据库管理系统&#xff0c;它们有以下一些对比&#xff1a; 一、功能特性 1. 数据类型支持 PostgreSQL&#xff1a;支持丰富的数据类型&#xff0c;包括数组、JSON、JSONB、范围类型、几何类型等。对于复杂数据结构的存储和处理非…

多线程——单例模式

目录 前言 一、设计模式 二、饿汉模式 三、懒汉模式 1.单线程版 2.多线程版 结尾 前言 前面的几篇文章中介绍了多线程编程的基础知识&#xff0c;在本篇文章开始&#xff0c;就会利用前面的多线程编程知识来编写一些代码案例&#xff0c;从而使大家可以更好的理解运用多…

Cypress安装用命令安装

安装node 试一下&#xff0c;安装yarn 用命令安装Cypress 下面找个截图说&#xff1a;会给用给几个用例引导你怎么写测试脚本

阿里云 EMR Serverless Spark 版正式开启商业化

阿里云 EMR Serverless Spark 版已于2024年9月14日正式商业化售卖&#xff0c;本文将简要介绍 EMR Serverless Spark 的产品优势、应用场景、支持地域&#xff0c;及计费模式等。 EMR Serverless Spark 是一款云原生&#xff0c;专为大规模数据处理和分析而设计的全托管 Server…

基于JSP实习管理系统【附源码】

基于SSM的学生管理系统&#xff08;源码L文说明文档&#xff09; 目录 4 系统设计 4.1 系统概述 4.2系统功能结构设计 4.3数据库设计 4.3.1数据库E-R图设计 4.3.2 数据库表结构设计 5 系统实现 5.1管理员功能介绍 5.1.1管理员登录 5.1.2…

数字身份管理建设是传统社会向数字社会演进的核心关键

当前&#xff0c;新一轮科技革命和产业变革突飞猛进。科学技术尤其是以互联网、大数据、云计算、人工智能和区块链等为代表的数字技术正与社会交往、社会服务、社区建设、社会治理等领域不断渗透融合&#xff0c;社会正在由人与环境构成的物理关系总和向“万物数字化”和万物互…

重磅!望繁信科技与德勤中国签署战略合作协议

2022年&#xff0c;望繁信科技与德勤中国签署流程挖掘战略合作协议&#xff01;双方强强联合&#xff0c;在拓展流程优化市场、推动企业数智融合等领域展开深度合作&#xff0c;持续共建具有全球影响力的流程挖掘新生态。 根据协议内容&#xff0c;双方计划在未来三年内&#x…

软考攻略/超详细/系统集成项目管理工程师/基础知识分享18

6.5数据分析及应用 6.5.1 数据集成&#xff08;掌握&#xff09; 数据集成就是将驻留在不同数据源中的数据进行整合&#xff0c;向用户提供统一的数据视图&#xff0c;使得用户能以透明的方式访问数据。 WebServices技术是一个面向访问的分布式计算模型&#xff0c;它的本质是…

RabbitMQ 入门(六)SpringAMQP五种消息类型(Direct Exchange)

一、发布订阅-DirectExchange&#xff08;路由模式&#xff09; 在Fanout模式中&#xff0c;一条消息&#xff0c;会被所有订阅的队列都消费。但是&#xff0c;在某些场景下&#xff0c;我们希望不同的消息被不同的队列消费。这时就要用到Direct类型的Exchange。 Direct Exchan…

关键链项目管理是什么?它如何优化传统项目管理?

在项目管理的世界里&#xff0c;方法论千千万万&#xff0c;但真正能够提升项目效率和成功率的却并不多见。关键链项目管理&#xff08;Critical Chain Project Management, CCPM&#xff09;作为一种独特且高效的管理方式&#xff0c;正在被越来越多的企业所采用。相较于传统的…

NAND 数据恢复:使用 VNR 闪存数据恢复软件提取闪存转储中的块

天津鸿萌科贸发展有限公司从事数据安全服务二十余年&#xff0c;致力于为各领域客户提供专业的数据恢复、数据备份解决方案与服务&#xff0c;并针对企业面临的数据安全风险&#xff0c;提供专业的相关数据安全培训。 天津鸿萌科贸发展有限公司是专业 NAND 闪存数据恢复工具 VN…

linux下离线安装jq工具

故障现象&#xff1a; 当前使用的是CentOS7&#xff0c; 使用sudo yum install jq这个命令后&#xff0c;总是报错 Loaded plugins: fastestmirror, langpacks Determining fastest mirrors ... Cannot find a valid baseurl for repo: extras/7/x86_64 使用uname -a查看我当…

Yolov10训练的餐盘菜品目标检测软件(包含源码及数据集)

本文摘要 摘要&#xff1a;本文主要使用YOLOV10深度学习框架自训练了一个“餐盘菜品目标检测模型”&#xff0c;基于此模型使用PYQT5实现了一款界面软件用于功能演示。让您可以更好的了解和学习&#xff0c;该软件支持图片、视频以及摄像头进行目标检测&#xff0c;本系统所涉…

gitlab项目转移群组

1、背景 项目pa不再使用&#xff0c;只需要备份代码就行。将项目pa从A群组转移到B群组。 2、转移 在群组A项目pa中&#xff0c;设置-通用-高级-转移项目

Linux 线程概念及线程控制

1.线程与进程的关系 执行流&#xff08;Execution Flow&#xff09;通常指的是程序执行过程中的控制路径&#xff0c;它描述了程序从开始到结束的指令执行顺序。例如我们要有两个执行流来分别进行加法和减法的运算&#xff0c;我们可以通过使用 fork 函数来创建子进程&#xf…

全面了解 NGINX 的负载均衡算法

NGINX 提供多种负载均衡方法&#xff0c;以应对不同的流量分发需求。常用的算法包括&#xff1a;最少连接、最短时间、通用哈希、随机算法和 IP 哈希。这些负载均衡算法都通过独立指令来定义&#xff0c;每种算法都有其独特的应用场景。 以下负载均衡方法&#xff08;IP 哈希除…