探索 GraphRAG:从存储到查询,深入解析 NebulaGraph 与传统 SQL 的对比

        近年来,图数据库逐渐成为大数据和人工智能领域的热议话题。特别是随着 GraphRAG 技术的火爆,如何高效存储和查询大规模图数据成为很多开发者关心的问题。出于好奇,我最近尝试了 GraphRAG 并研究其存储结构,因此决定进一步探索图数据库的基本原理与实际运用。在此过程中,我发现了一个颇为有趣的开源项目——NebulaGraph

https://github.com/vesoft-inc/nebula

NebulaGraph:颠覆传统的图数据库解决方案

项目简介

        NebulaGraph 是一款开源的图数据库,专注于处理拥有千亿个顶点和万亿条边的超大规模数据集。其独特之处在于提供毫秒级查询延时的性能,使其能够在社交媒体、实时推荐、网络安全、金融风控、知识图谱和人工智能等大规模生产场景中广泛应用。

NebulaGraph 的核心特点

  1. 全对称分布式架构:每个节点都是对等的,避免了传统主从结构中的瓶颈问题。

  2. 存储与计算分离:提供更强的灵活性和可扩展性。

  3. 水平可扩展性:通过增加节点可以轻松扩展数据存储和计算能力。

  4. RAFT 协议下的数据强一致性:数据在多个副本之间保持高度一致。

  5. 支持 openCypher:与广泛使用的查询语言兼容,降低学习成本。

  6. 用户鉴权:提供细粒度的权限控制。

  7. 支持多种类型的图计算算法:适应不同的业务场景和需求。

了解 NebulaGraph 的内核架构

        NebulaGraph 的设计强调高性能、高可用和高扩展性。其核心架构图如下:

图片

新手指南:如何使用 NebulaGraph

部署 NebulaGraph

  1. 克隆官方仓库:

git clone -b release-3.8 https://github.com/vesoft-inc/nebula-docker-compose.gitcd nebula-docker-compose/
  • 使用 Docker Compose 部署:

docker-compose up -d

使用 nGQL 进行数据操作

图空间和 Schema

在 NebulaGraph 中,一个实例可以包含多个图空间,每个图空间是物理隔离的。用户可以在不同的图空间中存储不同的数据集。

创建和选择图空间

图空间和 Schema

一个 NebulaGraph 实例由一个或多个图空间组成。每个图空间都是物理隔离的,用户可以在同一个实例中使用不同的图空间存储不同的数据集。

图片

  1. 创建图空间:

CREATE SPACE basketballplayer(partition_num=15, replica_factor=1, vid_type=fixed_string(30));
  • 列出已创建的图空间:

SHOW SPACES;
  • 选择图空间:

USE basketballplayer;

图片

创建 Tag 和 Edge type
  1. 创建 Tag:

CREATE TAG player(name string, age int);CREATE TAG team(name string);
  • 创建 Edge type:

CREATE EDGE follow(degree int);CREATE EDGE serve(start_year int, end_year int);
插入数据
  1. 插入点(Vertices):

INSERT VERTEX player(name, age) VALUES "player100":("Tim Duncan", 42);INSERT VERTEX player(name, age) VALUES "player101":("Tony Parker", 36);INSERT VERTEX player(name, age) VALUES "player102":("LaMarcus Aldridge", 33);INSERT VERTEX team(name) VALUES "team203":("Trail Blazers"), "team204":("Spurs");
  • 插入边(Edges):

INSERT EDGE follow(degree) VALUES "player101" -> "player100":(95);INSERT EDGE follow(degree) VALUES "player101" -> "player102":(90);INSERT EDGE follow(degree) VALUES "player102" -> "player100":(75);INSERT EDGE serve(start_year, end_year) VALUES "player101" -> "team204":(1999, 2018), "player102" -> "team203":(2006,  2015);

查询数据

使用 nGQL,我们可以轻松地对数据进行查询:

  1. 使用 GO 语句:

GO FROM "player101" OVER follow YIELD id($$);
  • 使用 FETCH 语句:

FETCH PROP ON player "player100" YIELD properties(vertex);
  • 使用 MATCH 语句:

MATCH (v:player{name:"Tony Parker"}) RETURN v;

其他操作

修改点和边

使用 UPDATE 或 UPSERT 语句修改数据:

  1. 修改点:

UPDATE VERTEX "player100" SET player.name = "Tim";
  • 修改边:

UPDATE EDGE ON follow "player101" -> "player100" SET degree = 96;

删除点和边
  1. 删除点:

DELETE VERTEX "player111", "team203";
  • 删除边:

DELETE EDGE follow "player101" -> "team204";

使用索引

为 Tag 和 Edge type 创建索引:

  1. 创建索引:

  2. CREATE TAG INDEX player_index_1 ON player(name(20));
  • 重建索引:

REBUILD TAG INDEX player_index_1;
  • 基于索引查询数据:

LOOKUP ON player WHERE player.name == "Tony Parker" YIELD properties(vertex).name AS name, properties(vertex).age AS age;MATCH (v:player{name:"Tony Parker"}) RETURN v;

        通过以上步骤,您可以顺利开始使用 NebulaGraph 存储和查询大规模图数据。无论是在社交媒体推荐系统还是金融风控领域,NebulaGraph 都能为您提供强大的数据支持。如果您对图数据库感兴趣,不妨一试 NebulaGraph,相信您会从中发现更多有趣的应用场景。

结语

        通过对 NebulaGraph 与 GraphRAG 技术的深入探索,我们可以看到图数据库在处理大规模数据集方面有明显的优势。无论是在高效的数据存储、快速的复杂查询,还是灵活的数据建模方面,NebulaGraph 都展示了其强大的能力。而 nGQL 的设计更是让开发者在处理复杂关联数据时更加得心应手。

        希望这篇文章能帮助你深入理解 GraphRAG 技术及其存储原理,同时通过对 NebulaGraph 的实战介绍,让你在实际项目中实现高效的数据管理。如果你对图数据库领域感兴趣,不妨尝试一下 NebulaGraph,我相信你一定会从中获得更多的启发和收获。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/439802.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

初识算法 · 双指针(2)

目录 前言: 盛最多水的容器 题目解析: 算法原理: 算法编写: 有效三角形的个数 题目解析: 算法原理: 算法编写: 前言: 本文介绍两个题目,盛最多水的容器和有效三…

C语言复习概要(三)

本文 使用Visual Studio进行调试的技巧与函数递归详解1. 引言2. Visual Studio 调试技巧2.1. 断点的使用2.1.1. 基本断点示例:设置基本断点 2.1.2. 条件断点示例:条件断点 2.2. 逐步执行代码示例:逐步执行代码 2.3. 监视变量使用监视窗口 2.4…

第十一章 缓存

目录 一、什么是缓存 二、缓存更新策略 2.1. 缓存主动更新策略 2.1.1. Cache Aside模式(主流)‌ 2.1.2. Read/Write Through模式‌ 2.1‌.3. Write Behind模式‌ 2.1.4. 总结 三、缓存穿透 四、缓存雪崩 五、缓存击穿 本文中的图片内容部分来源…

训练验证器解决数学应用题

人工智能咨询培训老师叶梓 转载标明出处 数学问题解决不仅要求模型能够理解问题的语言表述,还要求其能够准确地执行一系列数学运算,每一步的准确性都至关重要。遗憾的是,现有的语言模型在这一领域的性能远远未能达到人类的水平,它…

【Python|接口自动化测试】使用requests发送http请求时添加headers

文章目录 1.前言2.HTTP请求头的作用3.在不添加headers时4.反爬虫是什么?5.在请求时添加headers 1.前言 本篇文章主要讲解如何使用requests请求时添加headers,为什么要加headers呢?是因为有些接口不添加headers时,请求会失败。 2…

Windows上 minGW64 编译 libssh2库

下载libssh2库:https://libssh2.org/download/libssh2-1.11.0.zip 继续下载OpenSSL库: https://codeload.github.com/openssl/openssl/zip/refs/heads/OpenSSL_1_0_2-stable

java中创建不可变集合

一.应用场景 二.创建不可变集合的书写格式(List,Set,Map) List集合 package com.njau.d9_immutable;import java.util.Iterator; import java.util.List;/*** 创建不可变集合:List.of()方法* "张三","李四","王五…

SpringBoot中间件Docker

Docker(属于C/S架构软件) 简介与概述 1.Docker 是一个开源的应用容器引擎,基于 Go 语言 并遵从 Apache2.0 协议开源。 Docker 可以让开发者打包他们的应用以及依赖包到一个轻量级、可移植的容器中,然后发布到任何流行的 Linux …

登 Nature 子刊!论文一作详解蛋白质语言模型的小样本学习方法,解决湿实验数据匮乏难题

在「Meet AI4S」系列直播第三期中,我们有幸邀请到了上海交通大学自然科学研究院 & 上海国家应用数学中心博士后周子宜, 他所在的上海交通大学洪亮课题组研究方向主要为 AI 蛋白和药物设计、分子生物物理。该课题组研究成果颇丰,截止目前共…

【AI副业项目】揭密AI技术对于儿童古诗文项目的应用

大家都知道,古诗文作为中华文化的瑰宝,承载着丰富的历史情感和智慧。但是,在现代社会快节奏的生活中,如何让更多人尤其是少年儿童感受到古诗文的魅力,成为了一个极需解决的问题。 AI技术的兴起为这一难题提供了新的解…

【D3.js in Action 3 精译_025】3.4 让 D3 数据适应屏幕(中)—— 线性比例尺的用法

当前内容所在位置(可进入专栏查看其他译好的章节内容) 第一部分 D3.js 基础知识 第一章 D3.js 简介(已完结) 1.1 何为 D3.js?1.2 D3 生态系统——入门须知1.3 数据可视化最佳实践(上)1.3 数据可…

【Python】Streamlit:为数据科学与机器学习打造的简易应用框架

Streamlit 是一个开源的 Python 库,专为数据科学家和机器学习开发者设计,旨在快速构建数据应用。通过简单的 Python 脚本,开发者无需掌握前端技术,即可将数据分析和模型结果转化为直观、交互式的 Web 应用。其简洁的 API 设计使得…

MATLAB下的RSSI定位程序,二维平面上的定位,基站数量可自适应

文章目录 引言程序概述程序代码运行结果待定位点、锚点、计算结果显示待定位点和计算结果坐标 引言 随着无线通信技术的发展,基于 R S S I RSSI RSSI(接收信号强度指示)的方法在定位系统中变得越来越流行。 R S S I RSSI RSSI定位技术特别适…

Android车载——VehicleHal初始化(Android 11)

1 概述 VehicleHal是AOSP中车辆服务相关的hal层服务。它主要定义了与汽车硬件交互的标准化接口和属性管理,是一个独立的进程。 2 进程启动 VehicleHal相关代码在源码树中的hardware/interfaces/automotive目录下 首先看下Android.bp文件: cc_binary …

【Linux的那些事】shell命名及Linux权限的理解

目录 一、shell命令以及运行原理 二、Linux权限的概念 三、Linux权限管理 3.1.文件访问者的分类(人) 3.2.文件类型和访问权限(事物属性) 3.3.文件权限值的表示方法 3.4.文件访问权限的相关设置方法 a)chmod b)chown c)…

【Spring Boot React】Spring Boot和React教程 完整版

【Spring Boot & React】Spring Boot和React教程 在B站找到一个不错的SpringBoot和React的学习视频,作者是amigoscode 【Spring Boot & React】Spring Boot和React教程 2023年更新版【Spring Boot React】价值79.9美元,全栈开发,搭…

Luminar激光雷达公司裁员重组的深度分析

在科技行业风起云涌的今天,每一家企业都面临着前所未有的挑战与机遇。当地时间9月23日,美国激光雷达领域的领军企业Luminar Technologies向美国证券交易委员会(SEC)提交了一份8-K报告,正式宣布了一项重大的业务重组计划,其核心内容是通过进一步裁员来优化成本结构,以期在…

windows上安装python环境

前言 最近电脑重装了系统,需要重新安装python环境 ,因此记录一下 1.下载 打开python官网下载,下载链接:https://www.python.org/downloads/windows/ 点击下载 ,我这里使用64位操作系统(大部分电脑),根据…

快速上手C语言【上】(非常详细!!!)

目录 1. 基本数据类型 2. 变量 2.1 定义格式 和 命名规范 2.2 格式化输入和输出(scanf 和 printf) ​编辑 2.3 作用域和生命周期 3. 常量 4. 字符串转义字符注释 5. 操作符 5.1 双目操作符 5.1.1 算数操作符 5.1.2 移位操作符 5.1.3 位操作符…

为Floorp浏览器添加搜索引擎及搜索栏相关设置. 2024-10-05

Floorp浏览器开源项目地址: https://github.com/floorp-Projects/floorp/ 1.第一步 为Floorp浏览器添加搜索栏 (1.工具栏空白处 次键选择 定制工具栏 (2. 把 搜索框 拖动至工具栏 2.添加搜索引擎 以添加 搜狗搜索 为例 (1.访问 搜索引擎网址 搜狗搜索引擎 - 上网从搜狗开始 (2…