扩展学习|一文读懂知识图谱

一、知识图谱的技术实现流程及相关应用

文献来源:曹倩,赵一鸣.知识图谱的技术实现流程及相关应用[J].情报理论与实践,2015, 38(12):127-132.

(一)知识图谱的特征及功能

        知识图谱是为了适应新的网络信息环境而产生的一种语义知识组织和服务的方法,通过把用户查询的关键词映射到语义知识库的概念上,使计算机能够理解人类的语言交流模式,从而更加智能地反馈给用户需要的答案。知识库是知识图谱的核心,采用某种知识表示方式来存储管理互相关联的知识片集合,它必须包含丰富的数据,数据来源于原有的关系型数据库、LOD中的部分关联数据集、 领域本体、用户数据、从半结构化和非结构的数据内容中抽取出的理论知识、事实数据、启发式知识等。知识库是服从于本体控制的知识单元的载体,覆盖了各种概念、实例、属性、关系等要素,并保持高效率地更新,以便随时满足用户的知识需求。以谷歌知识图谱为例,它在2012年5月发布时已包含5亿多的对象实体和关于这些实体的超过35亿的事实关系,仅仅6个月后,实体数量增长到5. 7亿,事实关系增长到180亿,到目前为止,还在不断地更新扩展。

        知识图谱的功能主要体现在知识组织、展示与搜索方面: 第一,给用户提供正确的理想答案,在一定程度上克服自然语言的歧义性; 第二,通过信息元侧边栏,把经过梳理、总结的知识提供给用户; 第三,通过信息推荐, 提供更深入更广阔的知识,知识图谱尝试通过对其他用户相关的搜索记录进行推理,帮助用户在提问之前就回答出下一个问题,激发用户对知识的搜索兴趣,从而进行一次全新的查询操作。

(二)知识图谱的实现流程及关键技术

        知识图谱的实现流程可总结为6个模块,即知识获取、知识融合、知识存储、查询式的语义理解、知识检索和可视化展现,见图1。其中知识库的构建是知识图谱实现的核心,知识库中存储的内容需要经过广泛的知识获取及充分的知识融合,当用户进行查询检索时,用户的自然语言查询式经过语义分析处理后进入检索系统,和知识库中的内容进行匹配,整合后的反馈结果以可视化的形式展现给用户。

1.知识获取

        为了提高知识服务的质量,提供用户满意的答案,知识图谱不仅要包含各个领域的常识性知识,还要及时发现并添加新知识,知识的数量和质量决定了其所能提供的知识服务的广度和深度以及解决问题的能力,因此知识图谱的构建需要以高效的知识获取作为支撑。

        常识性知识的获取主要来自百科类站点和各种垂直站点的结构化数据,如从DBpedia中抽取某一主题的知识, 根据一定的抽取策略提取出领域相关的事实,包括主题下的细分知识以及扩展的相关类别知识等。同时还要从一些半结构化和非结构化数据中抽取实例和属性来丰富相关实体的描述。

        随着用户交互大量涌现,用户生成内容( UGC)不断增加,大量用户投入到网络信息的创建、组织和传播中,这其中产生的一些知识也是知识图谱知识获取中重要的一方面。新知识可以从用户的查询日志中发现新的实体属性,不断地扩展知识的覆盖率。此外,由于知识图谱要根据用户的兴趣提供相关的知识推荐,所以用户相关的行为数据也要抽取,包括用户所在的国家,能确定用户身份的信息、查询语句使用的语言、 查询时间、以往的访问日志数据等。例如在用户查询过程中可以分析用户的兴趣: 根据用户筛选后点击的链接,以及 “长点击”与 “短点击”判断用户对答案的满意度及感兴趣程度,从而获得用户行为数据, 也可以根据这些数据抽取对应的实体。

        知识获取实现的主要技术包括机器学习、知识挖掘、自然语言处理、基于内在机理的知识发现技术等。在大数据环境下,智能化的数据抽取、提炼与挖掘技术显得尤为重要,大量的知识资源为后续的知识推理融合奠定了坚实的基础。

2.知识融合

        由于知识图谱中的知识来源广,存在知识质量良莠不齐、来自不同数据源的知识重复、知识间的关联不够明确等问题,所以必须要进行知识的融合。知识融合是高层次的知识组织,使来自不同知识源的知识在同一框架规范下进行异构数据整合、实体重要度计算和推理验证等步骤,达到数据、信息、方法、经验以及人的思想的融合。

        异构数据整合要进行数据清洗、实体对齐、属性值决策以及关系的建立。数据清洗包括对拼写错误的数据、相似重复数据、孤立数据、数据时间粒度不一致等问题进行处理; 实体对齐解决来自不同数据源的相同实体中对同一特性的描述、格式等方面不一致的问题,对实体描述方式和格式进行规范统一,如 “籍贯”与 “出生地” 的表述差别,日期书写格式的不同等; 属性值决策主要是针对同一属性出现不同值的情况下,根据数据来源的数量和可靠度进行抉择,提炼出较为准确的属性值; 关系是知识图谱中非常重要的知识,任何实体概念都不是孤立的,都处在和周围概念一定的逻辑关系中,如等同关系、属分关系和相关关系等。从本质上看,知识图谱建立关系的过程可以简化为相关实体挖掘,即寻找用户类似查询中共现的实体或是在同一个查询中被提到的其他实体,通过对链接的提取统计以及对用户查询日志的分析,发掘查询式的主题分布,把同一主题中的相关实体进行类型验证并建立关联。

        实体的重要度主要通过Page Rank等算法进行计算, 实体属性和实体间的关系、不同实体和语义关系的流行程度、抽取的置信度等都会影响实体重要度计算的结果。 用户查询式中的实体被识别后,关于该实体的结构化摘要就会展现给用户,当查询涉及多个实体时,就需要选择与查询更相关且更重要的实体展现出来。如查询 “李娜”, 同名实体有超过20个,就要根据重要度的计算对这些实体进行排序。

        推理的规则一般涉及两类,针对属性和针对关系的。 通过推理验证可以检测逻辑矛盾,提高知识质量; 也可以获取属性值和实体间隐含的关系,从而建立更多实体间的关联。通过推理形成新的数据对知识进行再扩展,提高知识的完整性,并通过知识的聚合、分类等技术把知识具体化和分类整合。

3.知识存储

        知识图谱中的知识存储在它的知识库中,是一个规模庞大的关联集合。杂乱的信息经过前期的融合与处理,形成了有序、关联可用的知识,按照知识的类别以规范化的形式分类存储在知识库中不同的知识模块里,生成索引, 以便在知识检索时更加智能有效地匹配以及进行知识的深度挖掘

        知识库中知识节点和节点间映射关系的数目是庞大的,并且在不断增长。另外,知识库中的知识与规则要保证及时的更新、纠错与维护,一些知识会长期存储保留, 而一些时效较短的知识就要及时删除或修改,知识的变化还会打乱其内部像网络一样的关联关系,这给知识存储带来了很大的挑战。因此,知识图谱中的知识依赖合适的存储介质和合理的存储方式进行有效存储,既保证知识的可读性和稳定性,又不影响系统运行效率和对数据的操纵管理能力。知识库中知识的更新修订遵守一定的原则, 使得新知识的加入与老知识的更新不会引起知识库结构发生变化,修改后的知识库不应该依赖原始知识库或新公式的语法形式,同时要保持知识表达的充足性和连贯一致性,新知识应该尽可能多地被接受,而许多老知识也应该尽量保持,这样更有利于知识库大量吸收并储备各方面的知识。

        总之,知识图谱的知识存储依赖于海量数据存储技术来管理大规模分布式的数据,以实现海量存储系统大容量、可扩展、高可靠性和高性能的要求。

4.查询式的语义理解

        用户的查询式一般可分为4种: 定义型,如 “什么是知识组织”; 事实型,如 “Knowledge Graph的出现时间”;肯定否定型,如 “Tim Berners-Lee是万维网之父吗”; 意见型,如 “如何看待大数据时代”。针对用户不同的查询式问题,经过自然语言处理,可以根据以上类型大致归类,系统分类理解查询式,方便答案的反馈。

        知识图谱中对查询式的语义分析包括以下几个关键步骤: 1对查询式进行分词、词性标注和查询纠错。

        2对句法进行分析,基于一些通用词典和本体库等实现实体识别,同时对实体进行过滤和消歧; 基于模式挖掘实现属性识别,对实体属性进行归一处理。因为用户的表达方式不一样,不同用户对实体、属性等都有不同的描述方式,因而对不同的描述进行归一,进而和知识库中的相关知识匹配。

        3用户情感及语境的理解分析,在不同语境下用户查询式中的实体会有差别,知识图谱要识别用户的情感,以反馈用户此刻需要的答案。

        4查询式扩展,明确了查询的确切所指以及用户的信息意图后,加入与其语义相关的其他概念来实施扩展。查询式语义分析后会生成标准查询语句,以SPARQL为代表,SPARQL查询语句是基于模板匹配的一种标准化的格式,可以与知识库中的知识更好地衔接; 另外,它还是基于需求重要度排序后的查询语句,反馈的知识结果会展现出优先顺序。

        查询式的语义理解涉及的相关技术主要包括自然语言处理技术和人工智能等。

5.知识检索

        知识检索是基于之前的知识组织体系,实现知识关联和概念语义检索的智能化检索方式。知识图谱中的知识检索包含两类核心任务: 一是利用相关性在知识库中找到相应的实体; 二是在此基础上根据实体的类别、关系及相关性等信息找到关联的实体。

        用户输入的查询式经过语义分析理解后生成的标准查询语句进入检索系统后被解析,与知识库中的知识匹配, 并进行统计、排序、推理、推荐、预测等工作。系统会基于对查询词表达的概念和语义内涵的深度理解作为搜索依据,同时对该词的同义词、近义词、广义词、狭义词检索,进行概念的扩充,扩大检索,避免漏检; 另外,还会进行相关概念的联想检索,做好推荐预测的工作。通过对知识库进行深层次的知识挖掘与提炼后,检索系统为用户反馈出具有重要性排序的准确且完整的知识,并推荐用户可能感兴趣的相关知识。

        知识检索阶段涉及信息检索、知识挖掘等关键技术, 比如相似性、重要性计算。

6.可视化展现

        知识图谱可视化的结果展现提升了用户的使用体验,它将知识库中的信息转化为更方便用户理解的方式进行呈现,通常整合为简洁明了的内容放在一个信息栏中,用户可以一目了然地了解到他需要的知识,快速解答疑惑; 同时提供了更加丰富的富文本信息,除文字外还有图片、列表等可以直接消费的形式,增加了更多的用户交互元素,提升用户体验,如图片浏览、点击试听等,引导用户在短时间内获取到更多的知识。例如,在百度中搜索 “十大元帅”,信息栏中既有文字的介绍,还有每一位元帅的照片; 搜索 “周星驰和吴孟达的电影”,信息栏中整合了所有符合条件的电影结果,还可以按照类型、地区、 年代、最新、最热、用户好评等标签缩小搜索范围,帮助用户快速锁定目标; 在搜狗搜索中输入 “梁启超儿子的太太的好友”,信息栏中简洁地给出答案: 泰戈尔和金岳霖,并配有他们的照片,另外还显示了问题答案的推理说明。

        知识图谱可视化的展现不仅注重答案的精准,注重内容显示粒度上的把握,还关注页面中显示的位置、知识模块位置的安排等细节,还考虑了在智能手机和平板电脑等多种设备上显示的效果等问题。需要涉及Web客户端技术、可视化技术、人机交互等技术来帮助用户实现高效答案获取和知识学习。

二、知识组织研究现状

文献来源:司莉,何依,郭晓彤.国外知识组织研究主题、特征及思考[J].情报资料工作,2024,45(01):12-22.

        知识组织的探索从古希腊柏拉图、亚里士多德开始,一直伴随着人类文明史发展的整个过程。其发展不仅是内部变革使然,也是外部技术驱动的结果。本文从理论视角全方位、系统性探索了新科技浪潮对KO的影响,深入揭示国外KO研究主题、研究方法及领域应用的特征。研究结果发现,过去二十年间KO研究主题持续深入细化,关注点从概念理论等表层问题转向核心价值、伦理道德、质量评估、教学培训等深层问题的探讨,方法体系从面向纸质文献的书目描述、分类标引到面向多源异构多模态资源的语义关联,技术手段从依赖于专家人工操作到辅以众包及自动化技术,不断得到继承与发展。研究方法形成“实践-理论-实践”的发展路径,实证研究逐渐成为主流。应用范围从图书情报向生物医学、教育法学等领域扩展,且呈现向药物安全监测、课程建模管理、新闻浏览等特定场景发展的趋势。鉴于此,我国可在教学培训、理论和实践应用方面进一步拓展KO疆域,包括:建立合理的评估体系,重视KO质量;关注中文数据基础设施建设,推动语义化、关联化进程;从实证研究出发,关注领域知识组织研究,促进研究成果转化;“群体+技术+专家”三轮驱动,加快海量数据的组织;扩展特定领域应用实践,提升KO服务水平;更新教学内容,优化理论基础课与实践进阶课,培养伦理道德、跨文化意识。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/320964.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

第8篇:创建Nios II工程之读取Switch的值<一>

Q:本期我们再添加一个PIO组件设为输入,创建Nios II工程读取输入值显示在LED上。 A:在前2期创建的控制LED工程的Platform Designer系统基础上再添加一个PIO核,参数设置为18位和单向输入模式,表示DE2-115开发板上的18个…

Ubuntu进行换源

各种源大全 在此地 // 此源均只适用Ubuntu 18.04 版本,其他版本需要修改 bionic 为对应的Ubuntu版本#阿里云源地址 deb http://mirrors.aliyun.com/ubuntu/ bionic main restricted universe multiverse deb http://mirrors.aliyun.com/ubuntu/ bionic-security ma…

Anaconda删除虚拟环境目录pkgs和envs|conda瘦身

这个文件夹里面是专门放不同环境中的包的,只是没有区分环境,都混在一起了, 一般在想要删除一个虚拟环境,除了在命令行中输入conda remove -n your_env_name(虚拟环境名称) --all 然后在envs中删除虚拟环境的文件夹, 还…

Vector Laboratories|用于生物偶联疗法BioDesign™ dPEG® Linker连接平台

术语dPEG代表“离散PEG(discrete PEG)”,这是一种均一的、单分子量(MW)、高纯度的新一代聚乙二醇聚合物。Vector Laboratorie采用其受专利保护的专有生产工艺,可生产提供适合于各种应用场景,具有…

在做题中学习(50):搜索插入位置

35. 搜索插入位置 - 力扣(LeetCode) 解法:二分查找 思路:题目是有序的,时间复杂度O(logN),二分没跑了,题目说如果找不到target,返回它应该被插入位置的下标,所以可以分析一下示例2…

ElasticSearch知识点汇总

1、ES中的​​​​​​​倒排索引是什么。 倒排索引,是通过分词策略,形成了词和文章的映射关系表,这种词典映射表即为倒排索引 2、ES是如何实现master选举的。 选举过程主要包括以下几个步骤: 心跳检测: 每个节点…

“Postman 中文版使用教程:如何切换到中文界面?”

Postman 的很好用的接口测试软件。但是,Postman 默认是英文版的,也不支持在软件内切换为中文版。很多同学的英语并不是很好,看到一堆的英文很是头痛。 今天我们来介绍下:切换到 Postman 中文版的方法。想要学习更多的关于 Postma…

药物代谢动力学学习笔记

一、基本概念 二、经典房室模型 三、非线性药物代谢动力学 四、非房室模型 五、药代动力学与药效动力学 六、生物等效性评价 七、生物样品分析方法 基本概念 生物样品:生物机体的全血、血浆、血清、粪便、尿液或其他组织的样品 特异性,specificity&…

nvcc: command not found

nvcc: command not found nvcc命令是 NVIDIA CUDA 编译器,就类似于gcc是c语言的编译器,用于编译 CUDA 代码并生成 GPU 可执行文件。由于程序是要经过编译器编程成可执行的二进制文件,而cuda程序有两种代码,一种是运行在CPU上的ho…

改变视觉创造力:图像合成中基于样式的生成架构的影响和创新

原文地址:revolutionizing-visual-creativity-the-impact-and-innovations-of-style-based-generative 2024 年 4 月 30 日 介绍 基于风格的生成架构已经开辟了一个利基市场,它将机器学习的技术严谨性与类人创造力的微妙表现力融为一体。这一发展的核…

消费金融平台公司如何做大做强自营产品

本文来自于2019年的某次内部分享沟通会,部分敏感内容已做删减。

基于python+django网易新闻+评论的舆情热点分析平台

博主介绍: 大家好,本人精通Java、Python、C#、C、C编程语言,同时也熟练掌握微信小程序、Php和Android等技术,能够为大家提供全方位的技术支持和交流。 我有丰富的成品Java、Python、C#毕设项目经验,能够为学生提供各类…

密码学《图解密码技术》 记录学习 第十四章

目录 十四章 14.1 本章学习的内容 14.2 什么是 SSL/TLS 14.2.1 Alice 在 Bob 书店买书 14.2.2 客户端与服务器 14.2.3 АSSL/TLS 承载HTTP 14.2.4 SSL/TLS的工作 14.2.5 SSL/TLS也可以保护其他的协议 14.2.6 密码套件 14.2.7 SSL 与 TLS 的区别 14.3 使用 SSL/TLS 进…

如何有效访问Exness官网中文版!技巧与注意事项

Exness是一家全球知名的在线外汇和差价合约经纪商,为全球客户提供丰富的交易工具。由于Exness的国际化运营,它提供多种语言版本的官网,其中包括中文版。为了确保用户在Exness官网中文版的访问体验良好,了解一些技巧和注意事项至关…

为什么SSL证书的有效期很短?

在当今互联网世界中,SSL证书作为保障网站数据传输安全的重要工具,其有效期往往被设定为相对较短的时间。对于许多非专业人士来说,可能会好奇:为什么SSL证书不能像其他证件一样拥有较长的有效期呢?今天,我们…

桌面文件删除了怎么恢复?4个靠谱方法分享!

“我平常工作的时候喜欢将文件直接保存在电脑桌面上,但是今天一打开电脑,突然发现我的文件都不见了,有什么恢复桌面文件的简单方法吗?希望大家可以推荐几个。” 很多用户在使用电脑时可能都习惯了把文件直接放在桌面上&#xff0c…

Linux主机重启后报错:[FAILED] Failed to start Switch Root.

一、问题描述 某次云主机因计费问题,导致批量重启,重启后发现某台云主机竟进入紧急救援模式(emergency模式),如下所示: 二、原因及处理 1)原因:加载根分区失败,导致无…

盒模型,BFC以及行内块级元素

一.盒模型篇 css基础框盒模型介绍: 当对一个文档进行布局的时候,浏览器的渲染引擎会根据标准之一的css基础框盒模型,将所有元素表示为一个个矩形的盒子,每个盒子由四部分组成,分别是内容 内边距 边框 外边距&#xff…

每日OJ题_DFS解决FloodFill⑥_力扣529. 扫雷游戏

目录 力扣529. 扫雷游戏 解析代码 力扣529. 扫雷游戏 529. 扫雷游戏 难度 中等 让我们一起来玩扫雷游戏! 给你一个大小为 m x n 二维字符矩阵 board ,表示扫雷游戏的盘面,其中: M 代表一个 未挖出的 地雷,E 代表…

产品推荐 | 基于Intel (Altera) Cyclone V打造的水星Mercury SA1核心板

01 产品概述 水星Mercury SA1片上系统(SoC)核心板通过结合基于ARM处理器的SoC FPGA、快速DDR3L SDRAM、eMMC flash、QSPI flash、Gigabit Ethernet PHY和RTC形成了一个高性能嵌入式处理方案,结合了CPU系统的灵活性和FPGA原始的、实时的并行处…