持续总结更新中
- 一句话总结知识图谱
- 人工智能从感知到认知
- 什么是知识?
- 什么是先验知识?
- 什么是知识表示?
- 知识图谱的基本组成要素?
- 什么是概念?什么是实体?什么是本体?
- 谈谈本体构建
- 什么是知识图谱的schema?
- 一定要构建schema吗?
- 两种知识图谱的组成划分方式
- 知识图谱和知识库是什么关系?
- 知识图谱和语义网络是什么关系?
- 知识图谱和NLP是什么关系?
- 知识图谱和深度学习是什么关系?
- ChatGPT会对NLP、知识图谱产生怎么样的影响?
- 知识图谱的优势是什么?
- 属性和关系和区别?
本文关注点在于:
1.大白话总结知识图谱等概率的本质
2.梳理容易混淆的几个概念之间的关系
用尽量简短的话讲清楚。
一句话总结知识图谱
对知识图谱的认识是不是类似于这个样子?
这只是知识图谱好看的外表,而不是知识图谱朴素的灵魂。高度总结一下:
知识图谱是一种结构化的语义知识库,能够描述物理世界的实体、概念及其相互关系,本质是用图表示知识,给机器提供先验知识。
换句话说:
知识图谱只是知识的一种组织和表示方式。在存储时,就是各种三元组。
知识图谱本质上是一种静态数据结构,它可以存储和组织大量知识,但是对于一些动态、复杂的问题,知识图谱可能并不能很好地处理。
(往大了说,知识图谱是实现从感知到认知智能的重要基石。但目前更多的是作为一种辅助信息用于提升各种模型训练的效果,最成功的应用方向应该是智能问答KBQA和语义搜索)
人工智能从感知到认知
人工智能有三种学派:连接学派(模拟脑的结构),符号学派(模拟人的心智),行为学派(模拟人的行为),连接学派主要是利用大数据和深度学习,解决的是感知层面的问题(计算机视觉,语音识别)。
认知智能是属于符号学派的,如自然语言的理解,推理和联想等,需要知识。
深度学习从大数据中学习到的是特征,而不是知识。
从认知智能层面来拔高知识图谱,这纯粹是过度包装,道阻且长
什么是知识?
知识是经过剪裁、塑造、解释、选择和转换了的信息,换句话说,知识是加工后的信息。
如:“奥巴马是美国的前总统”,对机器而言就是一句话,不知道在讲什么;
处理一下,如变成三元组:(美国,前总统,奥巴马),这就是一条知识了。
这个转换的过程,就是知识表示。
信息关联后所形成的信息结构:事实&规则
**DIKW模型很好的展现了知识和信息的关系。
**
什么是先验知识?
直白来说,就是事情发生前已经知道的知识,比如你听到“汪汪声”,你猜那是狗🐕;你听到“嘎嘎声”,你猜那是鸭子🦆;你的判断是在不经意的间做出的,事实上做这些判断之前,你已经具备了先验知识,这些知识大概率就是你小时候学习到的。
对于机器而言,没有先验知识,无法做任何分类和预测,模型训练的过程就是机器学习先验知识的过程,比如根据大量的猫的照片学习到猫的特征,当遇到一张没见过的照片时,判断是不是猫。
知识图谱对于机器的作用就是提供大量的先验知识,这类知识,常常作为辅助信息用于算法训练中。
相对的,还有后验知识。
什么是知识表示?
将人类知识形式化或者模型化的过程就是知识表示。
知识表示是将信息抽取成知识,用于给机器提供先验知识。
有很多种知识表示方法,如状态空间法、问题规约法、谓词逻辑、语义网络、本体技术等。
知识图谱的基本组成要素?
实体,属性,关系。
为什么不是本体,属性,关系?
本体是构建阶段的产物,是知识的顶层架构,是概念层面的东西,在实际的知识图谱中,存储的都是实体。
什么是概念?什么是实体?什么是本体?
举个栗子:
张三是一个实体,其具有年龄、性别、职业等属性;
同时,张三是一个人,“人类”就是一个概念、类似的还有“国家”,“民族”等抽象概念;
本体是概念的集合,知识图谱本体层的东西就是各种概念及其属性和关系。
本体的最大作用是见下下一条schema。
谈谈本体构建
2023.1.9
本体的构建(本体建模)通常有自顶向下和自底向上两种方式,一段正式的介绍是:
1.开放域知识图谱的本体构建通常用自底向上的方法,自动地从知识图谱中抽取概念、概念层次和概念之间的关系。
2. 领域知识图谱多采用自顶向下的方法来构建本体。
说白了,前者就是先定义好要抽取那些类型的实体,然后再抽取;后者则是直接开搞,边搞边构建本体。自顶向下构建的本体层逻辑清晰,质量较高,为什么开放域不能这么做,因为实体类型太多了,很难完全归纳出来,抽取的实体粒度较粗,很难迁移应用于专门领域。
针对一个细分的领域,如汽车故障知识图谱,自顶向下就变得可行。
但在实际构建领域知识图谱的过程中,往往结合两种,举个湿栗:
以汽车故障知识图谱为例,先构建了汽车-系统-部件-现象-原因-措施等本体及关系。
然后进行抽取,抽着抽着可能就会遇到问题了,很多自然语言的描述五花八门,eg:
“汽车左前、右前门车门玻璃无法升降”
此时进行抽取,会遇到两个问题:
1.【右前门车门玻璃】如何切分?类似于【南京市长江大桥】这类嵌套实体问题。
2.【左前】这个省略句如何处理?
具体解决方法就不展开了。此时我们就意识到最初规划的本体层不能覆盖这个数据了。一种解决办法就是扩充本体。如将部件细分为一级部件和二级部件。此时【右前门车门玻璃】就可切分为【右前门】和【车门玻璃】。
两个经验:
1.粒度划分得越细,可抽取覆盖的数据就越多,原始数据在抽取的信息量就越大,但关系抽取就变得越复杂,所以要找到一个抽取粒度的平衡点
2.在构建本体时需要熟悉数据,从数据出发构建本体,尽可能的考虑到位,因为,每一次本体层面的变动,都会导致数据集需要重新标注和修改。
什么是知识图谱的schema?
schema在不同的技术领域有不同的含义,在知识图谱中,schema等价于本体,构建知识图谱的schema就等价于构建知识图谱的本体,也就是构建各种概念及其关系。
定义好schema,就相当于制定好了知识图谱的顶层设计。
schema的作用:
1.用于规范结构化数据的表达
不满足schema预先定义好的实体对象及其类型,无法被添加到知识图谱中。
2.严格的schema设计,可便于知识推理
参考:https://blog.csdn.net/Solitarily/article/details/79705753
一定要构建schema吗?
是的,无论是自上而下还是自下而上的知识图谱构建方式,都会涉及到本体层的构建,但在实际构建过程中,特别是自下而上的方式中,可能在没有刻意去制定时,就完成了简单的本体设计。
两种知识图谱的组成划分方式
注意,不是分类方式,这两种方式是知识图谱构建阶段考虑的事情。
方式一:划分为本体层和实体层;
方式二:划分为模式层和数据层;
两种方式本质上是等价的
知识图谱和知识库是什么关系?
知识图谱是一种知识库,知识库范畴更广。和其它知识库的区别在于,知识图谱是网状的,使用图结构来存储知识。
知识图谱和语义网络是什么关系?
首先,知识图谱本质是语义网络;其次,是先有语义网络,再有知识图谱;
在表现形式上,语义网络和知识图谱相似,但语义网络更侧重于描述概念与概念之间的关系,而知识图谱则更偏重于描述实体之间的关联。
在很多说法中,知识图谱都说成是语义网络,没有问题。
知识图谱和NLP是什么关系?
NLP:自然语言处理,目前很火的研究方向。
可以参考知乎问题:知识图谱是NLP的未来吗?
https://www.zhihu.com/question/267242467/answer/1827583493
答案中有段话我很认同:
知识图谱不是NLP的未来,因为知识图谱是另外一种与NLP有很多交集的技术。在目前所有已知的发展方向中,知识图谱是最有可能长期和NLP互利共生的技术。
在我看来:
知识图谱是应用,NLP是工具。
这两者因为文本而产生了联系。因为现在场景的知识图谱都是基于文本来抽取知识的,所以在构建和应用过程中会用到大量的NLP算法和工具。
但知识图谱不是一定要NLP算法的,比如基于图像构建的知识图谱就不需要NLP。
所以,知识图谱也不是NLP的未来,只是它的一个应用方向罢了。但知识图谱有可能是人工智能的未来,因为它为机器提供了大量的先验知识,个人观点。
知识图谱和深度学习是什么关系?
知识图谱是应用,深度学习是工具
知识图谱的构建和应用不是非要深度学习的,以前没有深度学习的时候也有知识图谱。
没有深度学习如何构建知识图谱?
有两种方法:基于规则算法和基于统计学习方法。不用的方法优缺点不同,不是非要上深度学习的。再实际的知识图谱构建过程中,反而优先推荐尝试使用规则算法来快速构建第一版,搭建起知识图谱的雏形,在构建的过程中完善schema。后续根据规则算法的短板,再决定是否用统计机器学习和深度学习。
ChatGPT会对NLP、知识图谱产生怎么样的影响?
有一种主流的声音:NLP已死!
不可否认,ChatGPT很强大,对自然语言的理解和生成能力都非常强,NLP这个方向确实有点恼火了。
那知识图谱呢?NLP只是知识图谱构建过程和应用过程中的核心技术,当chatGPT取代了NLP,知识图谱何去何从呢?利用chatGPT构建知识图谱?还是说有了chatGPT后,不需要知识图谱了?
这真的是灵魂拷问了,见仁见智。
就目前来看(2023.3.21),个人的观点是:
ChatGPT是基于网络资源来做的,那么它利用的是开放域数据,作的是通用领域的知识图谱,那么它能取代的也是通用知识图谱,对于某一个细分领域,它的效果是不足的。
也就是,领域知识图谱它很难取代,因为他没有缺少这方面的数据,或者说应用粒度较粗。
那么做细粒度的领域知识图谱就有机会。
同时,能将知识图谱与其它数据结合其它就有更多机会。举例来说,在汽车行业,将知识图谱与汽车的车况数据进行结合做一些应用,那么这将是chatGPT永远不能涉足的地方,因为没有企业愿意将自己的数据进行公开,这涉及到数据安全的范畴。
知识图谱的优势是什么?
2023.3.30
知识图谱在应用过程中,经常就是雷声大雨点小的样子,看起来很厉害,但好像也就是看起来厉害的样子。
在最近的对知识图谱应用的思考过程中,🤔,我意识到基于知识图谱的推理和联想似乎才是他最大的优势所在,基于网状的结构,天然的适合从一个节点扩散到周围节点,这个特性,在推荐和智能问答中被用得的最多。
属性和关系和区别?
更新于2023.4.18
属性可以视为一种特殊的关系,属性的值视为内在属性,关系对应的实体作为外在属性,两者本质都是为了描述实体的自身信息和邻居信息。
那么什么时候作为属性,什么时候作为关系节点?
比如,中国特斯拉超级工厂位于上海,
这里面,“上海”可以作为“中国特斯拉超级工厂”的位置属性节点,也可以作为一个关系节点,两者的关系为“坐落于”。
既然都可以,该如何定?
一个经验是:若是你不希望对上海进行关联分析,那么就做为属性(因为属性节点是孤立的,没有联系的),比如上汽也坐落于上海,若上海都作为属性,那么很难将这两个属性关联起来,此时将上海作为关系节点,这这两个工厂都将有一条边指向它。
还有一点,作为关系节点时,关系还可以带其它属性,但是作为属性时,不能为属性增加属性。(比如:胡峥南-工作于-吉利汽车,就可以再为关系建立一个属性,since:2015,end:2021,这样就可以表达时间序列啦)