创邻科技Galaxybase助力SPG推动知识图谱应用落地

1. 知识图谱实践应用:从理论到落地的全景视角

知识图谱,作为一种先进的数据模型和信息表示策略,极大地提升了信息检索与分析的能力。该模型利用图结构,将不同领域、层次和类别的信息有机整合,令复杂的数据关系变得清晰易懂。 在诸如人工智能、搜索引擎优化以及数据分析等多个重要领域中,知识图谱早已证明了其巨大的价值和潜力。通过对大量数据进行高效查询和推理,知识图谱不仅能提供更个性化、更准确的信息服务,也有助于提高企业和个人的决策效率。

随着大数据技术和数字经济的快速演进,知识图谱处理的数据量和复杂度也随之递增。这使得传统的三元组(subject-predicate-object)存储方案在性能和可扩展性上逐渐显得不足。因此,大多数工业应用现已转向更为高效的、基于属性图的图数据库解决方案。与三元组方法相比,这些原生图数据库针对图结构进行了优化,实现了免索引邻接(index-free adjacency),从而即便在大规模数据操作和复杂查询的环境下也能维持出色的性能。成熟的商业图数据库还进一步提供了数据安全、事务支持、水平扩展、实时容灾以及运维监控等关键功能,确保了数据的高可靠性和安全性,同时也增强了系统的可扩展性和可维护性,从而对知识图谱的商业化落地提供了强有力的支持。

2. 知识图谱应用的挑战:实践落地过程中的核心难题

在践行多个知识图谱应用项目的过程中,我们深刻感受到,长期维护和有效运用知识图谱涉及多方面的复杂挑战。这些挑战大致可以分为两个主要领域:一是静态的数据与动态的业务需求之间的张力,二是高易用性与强表达力的平衡。

2.1 静态的数据和动态的业务需求

  • 选择图模式(Schema):弱类型与强类型的权衡
    选择弱类型/弱Schema约束的图数据库可以赋予业务人员极大的灵活性,在数据查询和分析上能够快速上手。然而,随着数据量的逐渐膨胀和业务需求的复杂化,这种架构缺乏明确的规范和结构、容易带来数据不一致问题和数据质量问题,将导致后续的数据维护和性能优化面临巨大困境。因此,在生产环境中,我们会推荐使用强类型/强Schema约束,以确保长期的可维护性和查询性能。

  • 复用基础图谱:一图多用的挑战
    以企业股权穿透图谱为例,初步构建的图谱通常包含企业投资企业、个人投资企业等数据,可供业务人员探索实际控制关系、集团关系等企业关系的查询和推理。在引入交易数据后,业务人员可以从更多维度探索图谱,譬如挖掘企业间的关联交易关系。但此时如何高效地复用先前的基础图谱就会成为一个问题。若通过调用的方式复用原图谱,新业务对原图谱的修改将影响原业务的稳定;若将两个图谱融合形成完整的企业交易图谱,则如何保证两个图谱的企业数据更新的一致性又是新的挑战。

  • 数据一致性:逻辑依赖导致的连锁反应
    当底层数据发生变化,上层业务推理衍生出的关系或特征也必然要重新计算。仍以企业股权穿透图谱为例,企业实控人是由股权关系和规则计算推理出来的,若传导链路中的企业股权数据发生变化,那么整个连通图范围内的企业实控人都将重新计算。在大量数据更新时,进行这样全图的级联计算是相当耗费系统资源的。因此,如何确保数据一致性,同时减少系统压力,是我们需要持续解决的难题。

  • 子图处理:标准化与实体对齐
    子图处理是业务实践中一个普遍存在的问题。比如,在反欺诈、反洗钱等业务中,业务人员需要对一定范围内的子图进行详细分析,而子图的定义方式和在子图内进行筛选、剪枝等操作的方式并无统一标准。同样,涉及多个图的子图在融合时往往会产生歧义,导致数据无法有效对齐。

  • 持续膨胀的Schema与数据
    随着业务进展,新的业务形态与关系不断涌现、业务决策逻辑与依据不断调整迭代,这也意味着我们需要频繁地更新图谱Schema和数据。长时间下来,原始和衍生数据的混合使得数据维护与溯源变得复杂。

综合来看,原始数据本质上是较为单一和稳定的,然而业务需求却是不断变化和拓展的。这就需要我们能够在实际应用中灵活地构建和调整图模式,以满足多维度、全局视角的业务分析需求。

2.2 易用性与表达力的双重挑战

  • 查询语言的学习门槛与推理能力
    虽然Cypher/GQL等图查询语言相对直观,但要求业务人员具有将复杂推理逻辑转换为具体图查询的能力,这对非技术人员来说并不容易。

  • 业务逻辑开发人员需要兼具查询性能优化的能力
    通常情况下,查询语言的不同写法会导致生成不同的执行计划,从而影响查询性能。在一些对性能要求较高的场景中,开发人员需要通过自定义函数或过程的方式实现高效的查询。在开发过程中,需要深入了解业务逻辑、图Schema、推理过程,才能对查询进行优化,这无疑增加了项目落地的复杂性和时间成本。

  • 初始图模式(Schema)的定义至关重要,否则后续修改的代价很高
    图模式的选择会极大的影响产品性能和易用性,因此对数据分析师也有较高的要求。图模式是在知识图谱应用开发的早期就需要确定的,它会影响后续所有查询的写法以及性能。

  • 对“事件”这样随时间演化的数据缺少标准处理机制
      现有的属性图系统缺乏对“事件”这一动态数据类型的标准处理机制。一般情况下,我们会通过在点边上增加时间戳类型的属性来表示事件,但对事件在时间维度下怎样进行演化和关联缺乏标准的分析处理机制。这往往导致事件传导推理结论的可解释性不够直观,且不同系统的实现方式千差万别,缺乏统一管理的接口。在数据分析时如果涉及到数据过期、需要对数据进行时间切片等情况时,会进一步加大事件处理的复杂度。

总体而言,我们都希望产品具备高度的易用性和强大的表达能力,但这两者往往难以兼得。实现这一平衡,便是知识图谱应用落地过程中需要持续攻克的难题。

3.语义增强可编程知识图谱SPG:解决知识图谱应用落地难题的新篇章

面对知识图谱应用落地的复杂挑战,一种先进的解决方案应运而生——那就是新一代工业级知识语义表示框架SPG(Semantic-enhanced Programmable Graph,语义增强可编程知识图谱)。SPG不仅为“知识”提供了一种形式化和可编程的框架,让人可以直观的解读、让机器能够高效的处理,而且在知识层级间实现了兼容与递进。更令人振奋的是,该框架具备对非完备数据状态下的图谱构建和持续演化的强大支持。SPG框架更是顺畅地融合了大数据与AI技术,使得对海量数据的知识化转换成为可能,从而极大地提升了数据的应用价值。通过SPG框架,我们可以更加高效地构建和管理图谱数据,同时可以更好地支持业务需求与场景应用。

SPG系统由五大精心设计的模块组成,每个模块都充当着不可或缺的角色。

  • SPG-Schema: 提供了包括主体、谓词、逻辑在内的核心语义管理功能。
  • SPG-Controller: 这一模块负责任务分发、服务部署、数据转换、算子编译以及知识查询等多重任务。
  • SPG-Engine: 负责Schema转换、知识写入和推理计算,同时还支持多引擎适配。
  • SPG-Program: 一个高度可编程的SDK框架,让开发变得更为便捷。
  • SPG-Interface: 一个基于大语言模型的用户交互界面,使得操作更为直观和友好。

这五大模块共同构成了一个高度分层、模块化且解耦合良好的系统,使得团队成员可以更加专注于自己擅长的领域。SPG的设计考虑到了不同专业背景的团队成员,实现了业务与技术之间的高效协作。业务人员只需使用具有语义推理能力的SPG语法,便可轻松完成图谱推理。与此同时,编程开发人员无需深入了解复杂的业务逻辑,只需专注于图查询和图计算的性能优化。通过实现对应的接口,他们便可以高效地应对各种实际应用场景。

总体而言,SPG不仅是一种技术框架,更是一种业务与技术和谐共生的全新范式。通过这一框架,我们不仅能更高效地构建和管理复杂的图谱数据,还能更全面地满足多样化的业务需求和应用场景。

在这里插入图片描述

4. 深入了解SPG引擎层:实现智能推理与计算的核心

作为SPG工作组的核心参与者,创邻科技承担了引领SPG-Engine模块设计和规范制定的重任。SPG-Engine层不仅是SPG理论到实际应用的关键转换点,更是连接SPG与第三方属性图系统(简称为LPG,Labeled Property Graph)的桥梁。这一层主要由三大子模块组成:SPG2LPG Translator、SPG2LPG Builder和SPG2LPG Executor。其详细的模块架构如下图所示:
在这里插入图片描述

  • SPG2LPG Translator: 负责SPG与属性图之间Schema的转换。考虑到SPG Schema涉及到丰富的语义表达,譬如概念类型、标准属性和事件对象,以及subClassOf这样的语义关系,这些在属性图Schema中都没有显式的表达,从而需要进行精细的映射和转换。

  • SPG2LPG Builder: 负责知识的格式转化。由于业务层的知识数据是按照SPG Schema进行组织的,因此在导入到属性图系统之前需要将这些数据转换为属性图兼容的格式,以实现知识的写入和更新。

  • SPG2LPG Executor: 负责查询和计算的核心模块,它主要执行来自SPG-Controller的、基于RDG(Resilient Distributed Graph,弹性分布式图,借鉴了弹性分布式数据集RDD的定义)算子构成的执行计划,以实现复杂的推理和计算过程。

SPG引擎的底层能力,包括图存储、图查询和图计算等,通常由第三方属性图系统提供。第三方属性系统是可以支持单机或分布式部署的独立服务进程,具备独立的集群安装、部署、运维、监控、管理方式,及Web用户界面。该图系统通过一组适配接口和SPG Controller所在进程进行交互。

为适应不同的第三方属性图系统能力,SPG-Engine存在两种实现策略:一是使用具备HTAP(混合事务/分析处理)能力的单一底层系统,二是使用分别具备TP(事务处理)和AP(分析处理)能力的组合系统。不论采用哪种实现方式,第三方属性图系统都需要满足SPG对其提出的不同等级的技术与功能要求,并按照SPG-Engine Core所描述的接口规范完成适配。

在这里插入图片描述
综上所述,SPG引擎层是一个多功能、高效且灵活的模块,不仅负责SPG系统和属性图系统之间的衔接转换,还具备与多种第三方属性图系统的高度互操作性,为复杂的知识图谱应用提供了坚实的基础。

5. 映照未来的SPG技术蓝图

按照SPG的技术规划,未来将首批适配蚂蚁TuGraph图数据库和创邻Galaxybase图数据库,以加速SPG技术从理论到实践的成熟转化。TuGraph和Galaxybase的卓越性能使其能够完美实现SPG-Engine的高级要求,这将显著提升SPG系统在实时推理方面的计算效率。

未来我们也将大力推动SPG技术在多行业领域的应用和实践,包括但不限于金融、能源、政务及互联网。我们相信,通过解决这些行业特有的复杂问题和挑战,Galaxybase和SPG技术将能够为企业和终端用户带来更为出色的使用体验和更高的价值回报。

此外,我们正积极推动建设一套统一的SPG能力评测体系,通过标准化的功能和性能指标来驱动SPG技术的不断创新和完善。这不仅有助于提升SPG技术自身的成熟度,还将促进整个知识图谱行业水平的提升。

创邻科技Galaxybase也将站在SPG技术发展的最前沿,从引擎优化到产业落地,全方位推进图技术的进步与普及,赋能企业加速释放数据资产价值。

创邻科技自主研发的图数据库Galaxybase,是分布式原生图数据库的杰出代表之一。 该产品采用了先进的分布式架构,对图数据的存储和处理进行了深度优化,实现了卓越的横向扩展性,完全满足了知识图谱对高效图数据存储和处理的要求。值得一提的是,Galaxybase的存储和计算内核完全由创邻科技自主研发,不依赖第三方开源方案,因此完全符合国产信创标准,适配各种国产CPU和操作系统。得益于其原生图存储和图处理的优势,Galaxybase已在金融、能源、政府、高等教育、互联网等多个行业中成功支持了知识图谱应用的实际部署。多家大型商业银行已经选择使用Galaxybase作为其企业级知识图谱应用平台的基础技术,成功实现了知识图谱建模、分析、挖掘、服务的全流程集成,构建了企业图谱、信贷风险图谱等多个领域知识图谱,应用于精准营销、风险防控、反洗钱、合规审计等业务领域。

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/128871.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

《得帆云 AIGC+低代码PaaS平台系列白皮书》-主流OA集成应用

近年来,随着国内外的信息技术发展日益迅速,无论是企业的业务模式,还是企业的人员管理,都在不断发展变化,OA系统作为公司的核心协调系统,必须能够及时响应公司的发展,实现与企业内部各种业务系统…

LeetCode刷题笔记【27】:贪心算法专题-5(无重叠区间、划分字母区间、合并区间)

文章目录 前置知识435. 无重叠区间题目描述参考<452. 用最少数量的箭引爆气球>, 间接求解直接求"重叠区间数量" 763.划分字母区间题目描述贪心 - 建立"最后一个当前字母"数组优化marker创建的过程 56. 合并区间题目描述解题思路代码① 如果有重合就合…

PostGreSQL:时间戳时区问题

时间|日期类型 PostGreSQL数据库内置的时间类型如下&#xff0c;注意到&#xff1a;内置的时间类型被分为了with time zone-带时区、without time zone-不带时区两种类型&#xff0c; time、timestamp和interval都可以接受一个可选的精度值 p&#xff08;取值&#xff1a;0-6&a…

hadoop伪分布模式配置

1、修改/usr/local/hadoop/etc/hadoop/core-site.xml和/usr/local/hadoop/etc/hadoop/hdfs-site.xml文件 core-site.xml内容 <configuration><property><name>hadoop.tmp.dir</name><value>file:/usr/local/hadoop/tmp</value><descr…

解释模块化开发及其优势,并介绍常用的模块化规范。

聚沙成塔每天进步一点点 ⭐ 专栏简介⭐ 模块化开发⭐ 模块化开发的优势⭐ 常用的模块化规范⭐ 写在最后 ⭐ 专栏简介 前端入门之旅&#xff1a;探索Web开发的奇妙世界 记得点击上方或者右侧链接订阅本专栏哦 几何带你启航前端之旅 欢迎来到前端入门之旅&#xff01;这个专栏是…

城市内涝监测预警系统:有效降低内涝风险,保障城市安全

近日&#xff0c;受台风“海葵”的影响&#xff0c;福建广东多地遭遇了持续性强降雨的袭击&#xff0c;道路积水严重&#xff0c;“城市看海”模式再次开启&#xff0c;不少网友纷纷调侃房子已经升级为海景房。近年来受极端天气影响&#xff0c;城市内涝灾害越发凸显&#xff0…

redis常用命令

redis客户端 // 连接远程的redis服务端 redis-cli -h host -p port -a password// 访问本机的redis服务端 redis-cli keys //以runoob*开头的key KEYS runoob*//查看全部的key KEYS * Type // type命令用于确定给定 key 存储的数据类型 type key Object /** 返回key的内…

【力扣每日一题】2023.9.10 课程表Ⅱ

目录 题目&#xff1a; 示例&#xff1a; 分析&#xff1a; 代码&#xff1a; 题目&#xff1a; 示例&#xff1a; 分析&#xff1a; 今天的题目和昨天类似&#xff0c;不过今天要我们求出学习所有课程的先后顺序。 昨天只需要我们求出能否学习完所有课程&#xff0c;因此…

精品基于SpringCloud实现的电影院购票系统设计-微服务-分布式

《[含文档PPT源码等]精品基于SpringCloud实现的电影院购票系统设计的设计与实现-微服务-分布式》该项目含有源码、文档、PPT、配套开发软件、软件安装教程、项目发布教程等 软件开发环境及开发工具&#xff1a; 开发语言&#xff1a;Java 框架&#xff1a;springcloud JDK版…

计算机网络中的应用层和传输层(http/tcp)

目录 1、协议的通俗理解 1.1 理解协议 2.应用层 2.1 http协议 2.2 HTTP的方法 2.3 HTTP的状态码 2.4 HTTP常见Header 3、传输层 3.1 端口号 3.1.1 端口号范围划分 3.1.2 netstat 3.1.3 认识知名端口号(Well-Know Port Number) 3.2 UDP协议 3.2.1 UDP协议端格式 3…

[开学季]ChatPaper全流程教程

文章目录 1. 粗筛&#xff1a;论文全文总结1.1 使用步骤&#xff1a; 1.2 功能描述&#xff1a;2. 论文问答&#xff1a;2. 精读&#xff1a;学术版GPT的论文翻译2.0 论文精读的正确姿势2.1 使用场景1&#xff1a;arxiv论文完美翻译2.2 本地PDF全文翻译&#xff1a;2.3 关于免费…

【数据结构】线性表的知识点全面总结

目录 1.线性表的顺序表示 1.1顺序表的基本概念 1.2顺序表的基本操作 1.2.1插入 1.2.2删除 1.2.3查找 2.线性表的链式表示 2.1单链表 单链表的基本概念 2.1.1基本操作 2.1.1.1单链表的建立 2.1.1.2插入 2.1.1.3删除 2.1.1.4查找 2.2双链表 2.2.1基本操作 2.2.1.1插入 2.2.…

计算机专业毕业设计项目推荐03-Wiki系统设计与实现(JavaSpring+Vue+Mysql)

Wiki系统设计与实现&#xff08;JavaSpringVueMysql&#xff09; **介绍****系统总体开发情况-功能模块****各部分模块实现** 介绍 本系列(后期可能博主会统一为专栏)博文献给即将毕业的计算机专业同学们,因为博主自身本科和硕士也是科班出生,所以也比较了解计算机专业的毕业设…

使用PHPStudy在本地快速建立网站并实现局域网外访问(无公网IP)

文章目录 使用工具1. 本地搭建web网站1.1 下载phpstudy后解压并安装1.2 打开默认站点&#xff0c;测试1.3 下载静态演示站点1.4 打开站点根目录1.5 复制演示站点到站网根目录1.6 在浏览器中&#xff0c;查看演示效果。 2. 将本地web网站发布到公网2.1 安装cpolar内网穿透2.2 映…

datagrip 相关数据连接信息无缝迁移

背景 因为公司换电脑了&#xff0c;接触的项目比较多&#xff0c;不同项目&#xff0c;不同环境的数据库连接有好几十个&#xff0c;如果在新电脑上挨个重新连接一遍劳心劳力&#xff0c;所以想看一下能不能直接将之前保存的连接信息直接迁移到新的电脑上面。 为此&#xff0c…

探索GreatADM:如何快速定义监控

引文 在数据库运维过程中&#xff0c;所使用的运维管理平台是否存在这样的问题&#xff1a; 1、默认监控粒度不够,业务需要更细颗粒度的监控数据。2、平台默认的监控命令不适合,需要调整阈值量身定制监控策略。3、不同类型的实例或组件需要有不同的监控重点,但管理平台监控固…

界面组件DevExpress WinForms v23.1 - 增强的图表、甘特图功能

DevExpress WinForms拥有180组件和UI库&#xff0c;能为Windows Forms平台创建具有影响力的业务解决方案。DevExpress WinForms能完美构建流畅、美观且易于使用的应用程序&#xff0c;无论是Office风格的界面&#xff0c;还是分析处理大批量的业务数据&#xff0c;它都能轻松胜…

《Python入门到精通》time模块详解,Python time标准库,time库函数大全

「作者主页」:士别三日wyx 「作者简介」:CSDN top100、阿里云博客专家、华为云享专家、网络安全领域优质创作者 「推荐专栏」:小白零基础《Python入门到精通》 time模块详解 1、获取操作time.time() 获取时间戳(float)time.time_ns() 获取时间戳(int)time.thread_time()…

VIT中的einops包详解

‘’‘einops有三个常用方法&#xff1a;rearrange,repeat,reduce’‘’ rearrange的操作相当于转置 rearrange(image,‘h w c -> w h c’) 高和宽转置 path ../data/cat_and_mouse.jpg image cv2.imread(path) h,w,c image.shape # shape第一个值是h,第二个是w image…

电子电路学习笔记之NCV84120DR2G——车规级单通道高压侧驱动器

关于车规级芯片&#xff1a; 关于车规级芯片&#xff08;Automotive Grade Chip&#xff09;&#xff0c;车规级芯片是专门用于汽车行业的芯片&#xff0c;具有高可靠性、高稳定性和低功耗等特点&#xff0c;以满足汽车电子系统的严格要求。这些芯片通常用于车载电子控制单元&…