知识图谱学习一:啥是知识图谱,用来干啥,怎么做?

一、啥是知识图谱

    通俗的讲就是由知识形成的图。知识+图

  1.1 知识

        知识让机器具有认知能力

       百度AIG(人工智能技术体系)负责人王海峰曾提出,AI可以分为感知层和认知层,感知是人类和动物都有的能力,机器一定程度也可以比人类更强;但认知是人类的专属能力。机器感知能力目前已趋于成熟,但认知能力还有很大的提升空间。知识类数据可以让机器在感知能力的基础上形成认知能力。    

        知识可以让机器与人类对话

         要机器实现与人类的自然对话,像一个真正的助理那样与用户交互,就需要它储备足够多的知识。有知识储备的机器有了认知,就不只是拥有语音或者图像识别能力,而是具备语义理解能力,从听清进步到听懂,从看出来升级到看得懂。

        知识可以让机器智能决策

        当机器通过足够多的知识建立认知能力,对世界有自己的理解后,就可以进行智能决策。要机器有“一定的想法”,能够自我决策,变得智能,就必须要有足够多的知识输入,让其形成认知能力。

1.2 知识图谱

    在AI时代,我们要让机器真正意义上认知这个世界,要让机器与我们更自然地交互,要让机器可以智能做出决策,都必须要输入足够多的知识给机器。如何给机器输入知识?核心技术就是知识图谱,它就像AlphaGo“吃”的棋谱一样,是将人类掌握的不同知识进行关联存储于计算机中,形成网状结构并持续动态完善,让机器不断汲取知识,对世界的认知日益完善。

知识图谱就是通过不同知识的关联性形成成一个网状的知识结构,对机器来说就是图谱,形成知识图谱的过程本质是在建立认知,理解世界。

学术解释:

知识图谱是Google用于增强其搜索引擎功能的知识库。本质上, 知识图谱旨在描述真实世界中存在的各种实体或概念及其关系,其构成一张巨大的语义网络图,节点表示实体或概念,边则由属性或关系构成。现在的知识图谱已被用来泛指各种大规模的知识库。

二、知识图谱能干啥

知识图谱于2012年5月17日由[Google]正式提出,其初衷是为了提高搜索引擎的能力,改善用户的搜索质量以及搜索体验。随着人工智能的技术发展和应用,知识图谱作为关键技术之一,已被广泛应用于智能搜索、智能问答、个性化推荐、内容分发等领域。

人工智能与传统产业融合的过程中,要想为这个行业提供更好的服务,就需要对这个行业进行定制化,要有行业知识,这时候就需要在通用知识图谱的基础上,有相应的行业知识图谱,进而帮助这个行业提升生产力,帮助这些行业、产业升级。

三、知识图谱的构建

3.1 概述

        知识图谱的基础,就是数据和算法,它需要应用自然语言处理和深度学习技术来进行数据挖掘,在海量知识中找出关联性,形成图谱。

基于三元组是知识图谱的一种通用表示方式。三元组的基本形式主要包括(实体1-关系-实体2)和(实体-属性-属性值)等。

其余参考: 专知:最全知识图谱综述#1: 概念以及构建技术

3.2 存储:图数据库

形成知识图谱的过程本质是在建立认知、理解世界、理解应用的行业或者说领域。

知识图谱的图存储在图数据库(Graph Database)中,图数据库以图论为理论基础,图论中图的基本元素是节点和边,在图数据库中对应的就是节点和关系。用节点和关系所组成的图,为真实世界直观地建模,支持百亿量级甚至千亿量级规模的巨型图的高效关系运算和复杂关系分析。

目前市面上较为流行的图数据库有:Neo4j、Orient DB、Titan、Flock DB、Allegro Graph等。不同于关系型数据库,一修改便容易“牵一发而动全身”图数据库可实现数据间的“互联互通”,与传统的关系型数据库相比,图数据库更擅长建立复杂的关系网络。

图数据库将原本没有联系的数据连通,将离散的数据整合在一起,从而提供更有价值的决策支持。

3.3 知识图谱点价值

知识图谱用节点和关系所组成的图谱,为真实世界的各个场景直观地建模,运用“图”这种基础性、通用性的“语言”,“高保真”地表达这个多姿多彩世界的各种关系,并且非常直观、自然、直接和高效,不需要中间过程的转换和处理——这种中间过程的转换和处理,往往把问题复杂化,或者遗漏掉很多有价值的信息。

凡是有关系的地方都可以用到知识图谱

那相比传统数据存储和计算方式,知识图谱的优势显现在哪里呢?

(1)关系的表达能力强

传统数据库通常通过表格、字段等方式进行读取,而关系的层级及表达方式多种多样,且基于图论和概率图模型,可以处理复杂多样的关联分析,满足企业各种角色关系的分析和管理需要。

(2)像人类思考一样去做分析

基于知识图谱的交互探索式分析,可以模拟人的思考过程去发现、求证、推理,业务人员自己就可以完成全部过程,不需要专业人员的协助。

(3)知识学习

利用交互式机器学习技术,支持根据推理、纠错、标注等交互动作的学习功能,不断沉淀知识逻辑和模型,提高系统智能性,将知识沉淀在企业内部,降低对经验的依赖。

(4)高速反馈

图式的数据存储方式,相比传统存储方式,数据调取速度更快,图库可计算超过百万潜在的实体的属性分布,可实现秒级返回结果,真正实现人机互动的实时响应,让用户可以做到即时决策。

四 知识图谱的主要技术

4.1 知识建模

知识建模,即为知识和数据进行抽象建模,主要包括以下5个步骤:

  1. 以节点为主体目标,实现对不同来源的数据进行映射与合并。(确定节点)

  2. 利用属性来表示不同数据源中针对节点的描述,形成对节点的全方位描述。(确定节点属性、标签)

  3. 利用关系来描述各类抽象建模成节点的数据之间的关联关系,从而支持关联分析。(图设计)

  4. 通过节点链接技术,实现围绕节点的多种类型数据的关联存储。(节点链接)

  5. 使用事件机制描述客观世界中动态发展,体现事件与节点间的关联,并利用时序描述事件的发展状况。(动态事件描述)

4.2 知识获取

从不同来源、不同结构的数据中进行知识提取,形成知识存入到知识图谱,这一过程我们称为知识获取。针对不同种类的数据,我们会利用不同的技术进行提取。

从结构化数据库中获取知识:D2R。

备注:1.D2R:将关系数据库映射到RDF

           2.RDF-语义网体系的基础技术 RDF(Resource Description Framework)资源描述框架,一种用于描述Web资源的标记语言。

难点:复杂表数据的处理。

从链接数据中获取知识:图映射。

难点:数据对齐。

从半结构化(网站)数据中获取知识:使用包装器。

难点:方便的包装器定义方法,包装器自动生成、更新与维护。

从文本中获取知识:信息抽取。

难点:结果的准确率与覆盖率。

4.3 知识融合

如果知识图谱的数据源来自不同数据结构的数据源,在系统已经从不同的数据源把不同结构的数据提取知识之后,接下来要做的是把它们融合成一个统一的知识图谱,这时候需要用到知识融合的技术(如果知识图谱的数据结构均为结构化数据,或某种单一模式的数据结构,则无需用到知识融合技术)。

知识融合主要分为数据模式层融合和数据层融合,分别用的技术如下:

  1. 数据模式层融合:概念合并、概念上下位关系合并、概念的属性定义合并。
  2. 数据层融合:节点合并、节点属性融合、冲突检测与解决(如某一节点的数据来源有:豆瓣短文、数据库、网页爬虫等,需要将不同数据来源的同一节点进行数据层的融合)。

由于行业知识图谱的数据模式通常采用自顶向下(由专家创建)和自底向上(从现有的行业标准转化,从现有高质量数据源(如百科)转化)结合的方式,在模式层基本都经过人工的校验,保证了可靠性,因此,知识融合的关键任务在数据层的融合。

4.4 知识存储

图谱的数据存储既需要完成基本的数据存储,同时也要能支持上层的知识推理、知识快速查询、图实时计算等应用,因此需要存储以下信息:三元组(由开始节点、关系、结束节点三个元素组成)知识的存储、事件信息的存储、时态信息的存储、使用知识图谱组织的数据的存储。

其关键技术和难点就在于:

  1. 大规模三元组数据的存储;
  2. 知识图谱组织的大数据的存储;
  3. 事件与时态信息的存储;
  4. 快速推理与图计算的支持。

4.5 知识计算

知识计算主要是在知识图谱中知识和数据的基础上,通过各种算法,发现其中显式的或隐含的知识、模式或规则等,知识计算的范畴非常大,这里主要讲三个方面:

  1. 图挖掘计算:基于图论的相关算法,实现对图谱的探索和挖掘。
  2. 本体推理:使用本体推理进行新知识发现或冲突检测。
  3. 基于规则的推理:使用规则引擎,编写相应的业务规则,通过推理辅助业务决策。

4.6 图挖掘和图计算

知识图谱之上的图挖掘和计算主要分以下6类:

  • 第一是图遍历,知识图谱构建完之后可以理解为是一张很大的图,怎么去查询遍历这个图,要根据图的特点和应用的场景进行遍历;
  • 第二是图里面经典的算法,如最短路径;
  • 第三是路径的探寻,即给定两个实体或多个实体去发现他们之间的关系;
  • 第四是权威节点的分析,这在社交网络分析中用的比较多;
  • 第五是族群分析;
  • 第六是相似节点的发现。

五、知识图谱的应用

  1. 信用卡申请反欺诈图谱

  2. 企业知识图谱

  3. 交易知识图谱

  4. 反洗钱知识图谱

  5. 信贷/消费贷知识图谱

  6. 内控知识图谱

具体参考:6个方面分析:知识图谱的价值和应用

 

参考资料:

1.https://baike.baidu.com/tashuo/browse/content?id=e5a23826846f620f7bac3794&lemmaId=8120012&fromLemmaModule=pcBottom

2.https://baike.baidu.com/tashuo/browse/content?id=edc68a0a68ea1311fa86a1b1&lemmaId=8120012&fromLemmaModule=pcBottom

3.  专知:最全知识图谱综述#1: 概念以及构建技术

4.6个方面分析:知识图谱的价值和应用

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/66523.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2023年第六届广西大学生程序设计竞赛(正式赛)题解

比赛题目链接,可以继续提交代码: 2023年第六届广西大学生程序设计竞赛(正式赛) | 知乎:如何评价第六届广西大学生程序设计竞赛? 难度题号备注签到题A J K已给出题解和代码普通题B D E H已给出题解和代码中等题C G I给出 I 题代码…

Python 集合应用之“简易英语词汇生词本”

# 英语生词本""" 介绍:背单词是学英语最基础的一环,不少学生在背单词的过程中会整理自己的生词本,以不断拓展自己的词汇量。知识点:1、集合的创建、增添、删除、查询、遍历2、循环语句:while、for3、条…

英文诗歌数据-绘制英文词云图+英文本文分类(pytorch)

英文诗歌数据-绘制词云图本文分类 本项目包含: 1.文本处理 2.词云图绘制 3.文本分类 往期文章可以关注我的专栏 下巴同学的数据加油小站 或者关注CSDN 会不定期分享数据挖掘、机器学习、风控模型、深度学习、NLP等方向的学习项目 数据和完整代码文末链接可以下载 …

EasyNLP玩转文本摘要(新闻标题)生成

作者:王明、黄俊 导读 文本生成是自然语言处理领域的一个重要研究方向,具有丰富的实际应用场景以及研究价值。其中,生成式文本摘要作为文本生成的一个重要子任务,在实际应用场景中,包括新闻标题生成、摘要生成、关键词…

微信聊天记录生成词云图

微信聊天记录生成词云图 基本材料准备 电脑微信客户端、手机微信客户端、电脑mumu安卓模拟器(安装微信和RE文件管理器)、sqlcipher.exe、idea 获取微信聊天记录 电脑微信客户端备份聊天记录 微信左下角点击备份与恢复按钮出现如下弹窗 然后点击左侧…

txt文件英语单词词频统计

目录 一、需求分析 二、相关库列表 三、代码在此 四、一些问题 一、需求分析 把txt文件里的英语单词按照出现次数排序并生成csv文件,如果次数相同按照单词的md5值来排序 二、相关库列表 pandasrecollectionshashlib 三、代码在此 打开文件 txt_file open(f…

从文本中提取单词生成单词本

词频统计及单词提取 对一段英文文本做词频统计,提取单词,查词,最终生成一个单词本,生成的单词本可以导入Anki中学习。 问题分析 考虑到单词的变形,分词后先做词形还原,之后再进行词频统计。去除掉较为简…

给英文文章加音标,建生词表

先上个效果图 10. Thats WhyJimmy/ˈʤɪmi/ 吉米more/mɔː/ adj.更多的adv.更started/ˈstɑːtɪd/[start]v.开始,着手,发动were/wɜː/ (be/biː/ was/were been) v.是,存在painting/ˈpeɪntɪŋ/ n.画,绘画(艺术)different/…

生词提取方法,学以致用(用于生成学习计划)

为了能够更加便捷的吸收英文文章的养分,从下周开始,计划边读文章,边学习。在拿到一片英文材料后,首先识别其中已经知道的单词,然后识别自己不会的单词。根据不会的单词制定单词学习计划。单词掌握以后,学习内容,既确保学以致用,又确保能够吸收到优秀文章的养分。 我的初…

英语词缀与英语派生词词典读书笔记,并总结输出思维导图

大部分构词法知识在词根章节已说到,这里以词缀相关知识点作为重点讲述; 本文摘抄总结于 “英语词缀与英语派生词词典 - 李武平“ 往期文章: 英语词根与说文解字词典读书笔记,并总结输出思维导图 目录 思维导图 一、词缀概述…

英语ai文章生成器,英语文章生成器在线

英语AI文章生成器是一种基于人工智能技术的语言处理工具,能够自动生成各类英语文章。然而,由于其自动化特性,有时候生成的文章可能存在一些问题,比如语法错误、逻辑不清等。那么,如何提高英语AI文章生成器的写作质量呢…

文本挖掘之WordCloud+Python3快速生成中英文词云图

引言: “词云”,又称文字云,是由词汇组成类似云的彩色图形。可对网络文本中出现频率较高的“关键词”予以视觉上的突出,形成"关键词云层"或"关键词渲染",从而过滤掉大量的文本信息,使浏览网页者只…

python统计文章中高频词汇并生成词云

LZ的同事写的文章经常被公司或者上级部门发表,LZ对此觉得同事写的文章一定有什么套路或者经常使用的词句,所以LZ收集了6篇同事的文章希望统计出其文章的高频词语以此可以效仿。 首先,把6篇文章放在同一个Text文档中,准备好词云需…

掌阅科技让数字化阅读更便捷

阅读是快速让人提高的方法,不需要你花很多的钱只需要你沉下心耐着性子从书中得到知识与经验,掌阅科技作为一家在国内领先的数字化阅读平台更是为无数爱好阅读的人提供便利。古书有云“书中自有颜如玉,书中自有黄金屋”。现在社会的阅读可能没有颜如玉和黄金屋,但是阅读还是可以…

掌阅科技与厦门航空联合推出首个机上阅读服务“天际悦读”

【TechWeb】6月27日消息,掌阅科技和厦门航空今日联合宣布,将推出全国首个常态化空中阅读服务“天际阅读”。 厦门航空空中乘务部副总经理张玉晶指出,厦航经过对旅客画像、出行习惯与需求,以及行业发展趋势的综合分析后&#xff0c…

高清3D人体解剖图谱

目前见过的高清3D人体模型最好的一个了,截图供大家欣赏,这个可能我通过微信传的时候像素有损失,大家大量,我截取的当然也只有平面图,3D的效果,请恕我的无能,还不知道3D的人体模型要怎么截取。话…

PXI机箱大解剖

上一节给大家介绍了PXI的背景和历史,让我们对PXI的起源有了更多的认识。同时对PXI机箱做了初步介绍。本节将会从10个方面为大家详细解剖PXI机箱。 PXI槽位序号 每一个PXI槽位都有一个对应的槽位号(大部分情况下)被标注在PXI插槽下方。一般为从左到右排列。 图1.3…

经典大脑解剖网站大全

本文首发在个人博客上(7988888.xyz),此文章中所有链接均通过博客进行访问。 根据互联网公开资源,整理了部分大脑解剖学习资源网站,仅供学习参考。 在脑科学的研究中,大脑解剖学知识的了解是必不可少的&am…

视网膜生理解剖

Cornea:角膜 Pupil:瞳孔 Lris:虹膜 Lens:晶状体 Retina:视网膜 Macula:黄斑 Optic nerve:视神经 视网膜(retina)居于眼球壁的内层,是一层透明的薄膜。视网膜…

Maven仓库解剖

介绍 分类 项目从仓库找包顺序 各个仓库的介绍 本地仓库 私服 nexus私服 阿里云云效制品仓库 中央仓库 公共仓库 演示 介绍 所谓的maven仓库,其实就是存放各个依赖包的文件夹,maven不仅是构建工具和依赖管理工具以及项目信息管理工具&#xff…