Neo4j:图数据库的革命性力量

Neo4j 首席技术官 @prathle 撰写了一篇出色的博文,总结最近围绕 GraphRAG 的热议、我们从一年来帮助用户使用知识图谱 + LLM 构建系统中学到的东西,以及我们认为该领域的发展方向。Neo4j一时间又大火起来,本文将带你快速入门这神奇的数据库。

前言

Neo4j是一款符合ACID标准的图数据库,能处理当今世界中极为复杂的关系数据。由Emil Ifram于2007年创建,使用Java编写,并开创了属性图模型。

传统的关系数据库使用表格模型,但将规范化的表连接在一起并不是人类自然思考关系的方式。我们自然会想到实体之间的连接,比如Bob在Stack Overflow上提出了一个问题,然后Alice和Chad给它点了反对票,所以Bob放弃了他的编程梦想。

一个图可以像你在白板上可视化它一样建模这些数据。节点代表实体,边表示实体之间的关系,属性是存储在这些对象上的键值对。

在底层,Neo4j是真正的原生图数据库,将这个模型应用到存储层。

查询

用一种叫Cypher的声明性语言编写,类似SQL,只不过节点用括号括起来,通过箭头连接到其他节点,关系用括号括起来。

要开始使用Neo4j,可以用Docker自托管,但最简单的方法是注册Aura,它提供免费的全托管云数据库。从这里,我们可以用Cypher查询来构建下一个Twitter。

使用CREATE后跟括号来创建一个新的实体或节点,这个节点有一个用户标签,用于将相似的节点分组。在大括号中,我们可以添加键值对来表示该节点上的数据。现在,一个用户可能想要关注另一个用户,这可以用括号内的关系来表示,然后注意箭头指向另一个带有用户标签的节点。创建关系数据就这么简单,不需要外键或连接表,尽管我们可以向模式添加约束,比如这里的约束确保每个用户名都是唯一的。此外,我们可以在这个查询中定义局部变量,然后从语句中返回它们以获取结果数据。特别棒的是,我们可以将其可视化为交互式图形,甚至是表格。

为继续构建Twitter,我们可以将多个推文节点连接到一个用户。我们还需要一个查询来返回所有被关注用户的所有推文,这可以很容易地用节点和关系表示出来,但我们也可以用WHERE子句过滤这个查询,只返回最近发布的推文。此外,我们可以匹配字符串模式和正则表达式,或者基于图形本身过滤复杂模式,比如只返回没有被静音的用户的推文。因此,它不仅对开发人员直观,而且还允许你的数据模式自然地显现出来,这在数据分析和机器学习方面是一个巨大的优势。

核心概念

属性图模型

Neo4j的属性图模型由以下三个主要元素组成:

  1. 节点(Nodes): 代表实体,如用户、产品或位置。
  2. 关系(Relationships): 连接节点,表示节点间的关联。
  3. 属性(Properties): 存储在节点和关系上的键值对,用于描述它们的特征。

这种模型允许我们以一种非常接近人类思维方式的形式来建模数据,使得复杂的关系数据变得直观和易于理解。

标签和类型

  • 节点标签: 用于对节点进行分类和分组。例如,:Person:Product
  • 关系类型: 描述两个节点之间关系的性质。例如,:FOLLOWS:PURCHASED

Cypher查询语言

Cypher是Neo4j的声明式图形查询语言,设计灵感来自SQL,但针对图数据结构进行了优化。

基本语法

MATCH (n:Person)-[:FOLLOWS]->(m:Person)
WHERE n.name = 'Alice'
RETURN m.name

这个查询匹配所有Alice关注的人,并返回他们的名字。

创建和更新

CREATE (n:Person {name: 'Bob', age: 30})
SET n.job = 'Developer'

这个查询创建一个新的Person节点,并设置其属性。

复杂关系查询

MATCH (a:Person)-[:POSTED]->(t:Tweet)<-[:LIKED]-(b:Person)
WHERE a.name = 'Charlie' AND t.timestamp > timestamp() - 86400000
RETURN b.name, COUNT(t) AS likes
ORDER BY likes DESC
LIMIT 5

这个查询找出过去24小时内点赞Charlie推文最多的5个用户。

性能优化

索引

为了提高查询性能,Neo4j允许在节点属性上创建索引:

CREATE INDEX ON :Person(email)

查询计划

使用EXPLAINPROFILE关键字来分析和优化复杂查询的执行计划。

高级特性

全文搜索

Neo4j可以集成全文搜索引擎,如Apache Lucene:

CALL db.index.fulltext.createNodeIndex("tweetContent", ["Tweet"], ["text"])

图算法

Neo4j图数据科学库提供了许多内置的图算法,如PageRank、社区检测等:

CALL gds.pageRank.stream('myGraph')
YIELD nodeId, score

实际应用案例

适用场景

今天,Neo4j被用于推荐引擎(推荐系统: 基于用户行为和项目特征构建个性化推荐)

社交媒体平台:

人工智能的知识图谱,构建和查询复杂的知识网络,支持智能问答系统:

欺诈检测: 通过分析交易网络中的异常模式

技术集成

  • Spring Data Neo4j: 为Java开发者提供了简单的Neo4j集成方案。
  • Neo4j-GraphQL: 允许开发者使用GraphQL语法来查询Neo4j数据库。

总结

Neo4j作为领先的图数据库,不仅提供强大的数据建模和查询能力,还具有卓越的性能和可扩展性。随数据关系日益复杂,Neo4j在各个领域的应用前景将更加广阔。无论是构建下一代社交网络、优化供应链管理,还是推动AI和机器学习的发展,Neo4j都将扮演重要角色。

关注我,紧跟本系列专栏文章,咱们下篇再续!

作者简介:魔都架构师,多家大厂后端一线研发经验,在分布式系统设计、数据平台架构和AI应用开发等领域都有丰富实践经验。

各大技术社区头部专家博主。具有丰富的引领团队经验,深厚业务架构和解决方案的积累。

负责:

  • 中央/分销预订系统性能优化

  • 活动&券等营销中台建设

  • 交易平台及数据中台等架构和开发设计

  • 车联网核心平台-物联网连接平台、大数据平台架构设计及优化

  • LLM Agent应用开发

  • 区块链应用开发

    目前主攻市级软件项目设计、构建服务全社会的应用系统。

参考:

  • 编程严选网

    本文由博客一文多发平台 OpenWrite 发布!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/376360.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

sentinel源码分析: dashboard与微服务的交互、pull模式持久化

文章目录 原始方式微服务端规则如何保存规则如何加载进内存微服务端接收控制台请求控制台推送规则总结 pull拉模式官方demo如何整合Spring Cloud整合Spring Cloud 前置知识 SentinelResource的实现原理、SphU.entry()方法中ProcessorSlotChain链、entry.exit() 建议先会使用se…

秋招Java后端开发冲刺——MyBatisPlus总结

一、 基本知识 1. 介绍 yBatis-Plus 是一个 MyBatis 的增强工具&#xff0c;在 MyBatis 的基础上增加了大量功能和简化操作&#xff0c;以提高开发效率。 2. 特点 无侵入&#xff1a;只做增强不做改变&#xff0c;引入它不会对现有项目产生影响。依赖少&#xff1a;仅仅依赖 …

谈谈软件交互设计

谈谈软件交互设计 交互设计的由来 交互设计(Interaction Design)这一概念,最初是由IDEO创始人之一Bill.Moggridge(莫格里奇)1984年在一次会议上提出。他设计了世界上第一台笔记本电脑Compass,并写作出版了在交互设计领域影响深远的《Designing Interactions》一书,被称…

mqtt.fx连接阿里云

本文主要是记述一下如何使用mqtt.fx连接在阿里云上创建好的MQTT服务。 1 根据MQTT填写对应端口即可 找到设备信息&#xff0c;里面有MQTT连接参数 2 使用物模型通信Topic&#xff0c;注意这里的post说设备上报&#xff0c;那也就是意味着云端订阅post&#xff1b;set则意味着设…

Linux内核编译安装 - Deepin,Debian系

为什么要自己编译内核 优点 定制化&#xff1a;你可以根据自己的硬件和需求配置内核&#xff0c;去掉不必要的模块&#xff0c;优化性能。性能优化&#xff1a;移除不需要的驱动程序和特性&#xff0c;减小内核体积&#xff0c;提高系统性能。最新特性和修复&#xff1a;获取…

【密码学】从有限状态自动机到密钥流生成器

本文是对流密码内容的拓展&#xff0c;在流密码中种子密钥通过一个伪随机数生成器产生一个与明文等长的伪随机密钥流。而本文的内容就是在回答这样两个问题&#xff1a; 伪随机密钥流是如何生成的&#xff1f;流密码、流密钥生成器和有限状态自动机之间是什么关系&#xff1f;…

Mac和VirtualBox Ubuntu共享文件夹

1、VirtualBox中点击设置->共享文件夹 2、设置共享文件夹路径和名称&#xff08;重点来了&#xff1a;共享文件夹名称&#xff09; 3、保存设置后重启虚拟机&#xff0c;执行下面的命令 sudo mkdir /mnt/share sudo mount -t vboxsf share /mnt/share/ 注&#xff1a;shar…

Gitea 仓库事件触发Jenkins远程构建

文章目录 引言I Gitea 仓库事件触发Jenkins远程构建1.1 Jenkins配置1.2 Gitea 配置引言 应用场景:项目部署 I Gitea 仓库事件触发Jenkins远程构建 Gitea支持用于仓库事件的Webhooks 1.1 Jenkins配置 高版本Jenkins需要关闭跨域限制和开启匿名用户访问 在Jenkins启动前加入…

东软“引战”国家队 通用技术“补链”大国重器

向来低调温和的东软创始人刘积仁&#xff0c;这一次抛出了“王炸”级的资产交易。 7月3日&#xff0c;《多肽链》获得一则足以引爆国内医疗设备行业的投资信息&#xff1a;被东软集团视为核心资产、掌上明珠的东软医疗&#xff0c;成功引入通用技术集团资本有限公司与中国国有…

华为配置蓝牙终端定位实验

个人主页&#xff1a;知孤云出岫 目录 配置蓝牙终端定位示例 业务需求 组网需求 数据规划 配置思路 配置注意事项 操作步骤 配置文件 配置蓝牙终端定位示例 组网图形 图1 配置蓝牙终端定位示例组网图 业务需求组网需求数据规划配置思路配置注意事项操作步骤配置文件 业…

用HTML和CSS实现提示工具(tooltip)及HTML元素的定位

所谓提示工具&#xff0c;是指将鼠标移动到某个HTML元素&#xff08;工具&#xff09;时会显示一些提示内容&#xff08;提示文本&#xff09;&#xff0c;而鼠标移出工具元素的范围时提示文本就消失了。考虑到提示文本元素应当在鼠标进入工具元素时显示&#xff0c;鼠标离开工…

【VS2019】安装下载库HtmlAgilityPack,可解析 HTML (图文详情)

目录 0.背景 1.环境 2.详细步骤 0.背景 项目需要&#xff0c;搭建WCF服务&#xff0c;需求是输入一个string类型字符串&#xff08;网页代码&#xff0c;如<html><body><p>Hello, <b>World</b>!</p></body></html>&#xf…

《代理选择与反爬虫策略探究:如何优化网络爬虫效率与稳定性》

代理IP如何选以及常见反爬策略 为什么需要代理&#xff1f; 因为有的网站会封IP&#xff0c;用户如果没有登录&#xff0c;那IP就是身份标识&#xff0c;如果网站发现用户行为异常就非常可能封IP 什么是代理IP 就是让一个人帮你转交请求&#xff0c;帮你转交的人对面不熟&a…

<数据集>猫狗识别数据集<目标检测>

数据集格式&#xff1a;VOCYOLO格式 图片数量&#xff1a;3686张 标注数量(xml文件个数)&#xff1a;3686 标注数量(txt文件个数)&#xff1a;3686 标注类别数&#xff1a;2 标注类别名称&#xff1a;[cat, dog] 序号类别名称图片数框数1cat118811892dog24982498 使用标…

vmware 虚拟机扩容 centos 硬盘扩容 kylinos v10扩容

1. 虚拟机先扩容 1.1 关机&#xff0c;并点击系统&#xff0c;让他是点选状态&#xff0c;但是没开机 1.2 右击&#xff0c;点击最下方设置&#xff0c;点击硬盘 1.3 点击扩展磁盘 1.4 选择你需要扩容的大小&#xff0c;数字为总大小 完成提示&#xff1a; 磁盘已成功扩展。您…

整洁架构SOLID-接口隔离原则(ISP)

文章目录 定义ISP与编程语言ISP与软件架构小结 定义 在上图中有多个用户需要操作OPS类。现在&#xff0c;我们假设这里的User1只需要使用op1,User2只需要使用op2,User3只需要使用op3。 在这种情况下&#xff0c;如果OPS类是用Java编程语言编写的&#xff0c;那么很明显&#x…

安全防御实验2

一、实验拓扑 二、实验要求 办公区设备可以通过电信链路和移动链路上网(多对多的NAT&#xff0c;并且需要保留一个公网IP不能用来转换)分公司设备可以通过总公司的移动链路和电信链路访问到Dmz区的http服务器多出口环境基于带宽比例进行选路&#xff0c;但是&#xff0c;办公区…

electron + express 实现 vue 项目客户端部署

写在前面 作为一个前端程序员&#xff0c;如何实现从前端到客户端的跨越&#xff0c;可能是一个很难实现的事。但客户需求千奇百怪&#xff0c;偶尔遇到一个非要客户端的&#xff0c;如何应对&#xff1f; 那Electron可能真是你福音。具体它有哪些功能&#xff0c;可自行官网…

《斯科特·凯尔比的风光摄影手册》读书笔记

写在前面 《斯科特凯尔比的风光摄影手册》读书笔记整理没有全部读完&#xff0c;选择了感兴趣的章节理解不足小伙伴帮忙指正 &#x1f603;,生活加油 99%的焦虑都来自于虚度时间和没有好好做事&#xff0c;所以唯一的解决办法就是行动起来&#xff0c;认真做完事情&#xff0c;…

2-33 基于matlab的用于计算无故障的斜齿轮对啮合时接触线长度随时间的变化

基于matlab的用于计算无故障的斜齿轮对啮合时接触线长度随时间的变化&#xff0c;根据需求设置斜齿轮对的相应参数&#xff0c;得到结果。程序已调通&#xff0c;可直接运行。 2-33 斜齿轮对啮合时接触线长度 齿轮参数 - 小红书 (xiaohongshu.com)