知识图谱从入门到应用——知识图谱的发展

分类目录:《知识图谱从入门到应用》总目录
相关文章:
· 知识图谱的基础知识
· 知识图谱的发展
· 知识图谱的应用
· 知识图谱的技术结构


1945年,美国首任总统科学顾问Vannevar Bush曾提出了一个称为MEMEX的“记忆机器”的设想。他认为人的记忆偏重关联,而非像图书馆那样采用严格的层次分类目录组织大脑中的信息。因此,他提出设计一种Mesh关联网络来存储电子化的百科全书。MEMEX记忆机器的设想启发了超文本技术Hypertext的实现,而超文本技术则直接促成了互联网的最大应用——World Wide Web的发明。Web是由英国人Tim Berners-Lee提出的,他因为Web技术的贡献获得了2016年的图灵奖。1989年,Tim作为欧洲高能物理研究中心的计算机工程师,提出了一种基于超文本技术的信息管理系统建议书。如图1-8所示,在建议书中,就可以看到知识图谱的影子。

起初,他只是希望为高能物理研究中心的科学家设计一种新型的科技文献管理系统。他利用超文本链接技术实现科技文献之间的相互关联,并实现了世界上第一个能处理这种超文本链接的Web服务器和浏览器。他认为,信息应该以图的方式组织,图中的节点可以是任何事物,节点之间的链接代表事物之间的关联,这样将大幅提升信息检索的效率和能力。这种以图和链接为中心的系统,在开放的互联网环境里面更容易生长和扩展。这一理念逐步被人们实现,并演化发展成为今天的World Wide Web。

Semantic Web

1994年,Web已经在全世界范围内快速发展起来,成为互联网上的最大应用。但Tim指出,这种以文本链接为主的Web并非他设想中的终极Web的样子。他认为终极的Web应该是Web of Everythings。例如,一位教授的个人主页实际上描述的是他的各种属性信息,如果他的主页上有一个超链接指向浙江大学的官方主页,这个超链接实际上指的是这名教授和浙江大学是雇佣关系,但这个超链接没有这方面的语义描述,搜索引擎也无法识别和处理这种语义关系。因此,他于1998年正式提出了Semantic Web(语义网)的概念。与经典Web一样,Semantic Web也是以图和链接为中心的信息管理系统,但不同之处是,图中的节点可以是粒度更细的事物,如一本书、个人、机构和概念等,图中的链接也标明这些事物之间的语义关系,如雇佣、朋友和作者等。这就是知识图谱的早期理念。

在Semantic Web提出以后的10余年里,催生了众多的语义网数据项目,比较著名的如谷歌知识图谱的核心数据来源Freebase,欧洲的LinkingOpenData,维基基金会倡导的WikiData等。由国内科研机构和企业共同发起的OpenKG收录了很多中文领域的语义网开放数据集。

谷歌公司于2010年收购了开发Freebase的Meta Web公司,并于2012年发布了首个基于知识图谱实现的搜索引擎。谷歌知识图谱本质上是Semantic Web理念的商业化实现。对于搜索引擎,知识图谱解决了一个难题,即精确的对象级搜索问题。传统搜索引擎只能返回很多相关页面,用户需要从海量文本中自行寻找答案,即所谓字符串级别的搜索。但用户希望直接搜索最终的答案,例如用户问:“浙江大学位于哪个城市”,希望得到对事物的精准描述——杭州市,而非返回很多页面,让用户自己从众多页面中寻找正确答案,即所谓事物对象级别的搜索。谷歌通过构建庞大的知识图谱,以结构化而非纯文本的方式描述事物的属性以及事物之间的关联关系,就可以实现这种对象级的精准搜索。当然,知识图谱的价值不止搜索。

典型的知识图谱项目

接下来简要介绍历史上出现过的典型知识图谱项目。Freebase是早期的语义网项目,主要通过开放社区协作方式构建,在经过近8年的开发和数据积累后,其母公司MetaWeb于2010年被谷歌收购。谷歌随后在Freebase基础之上发布了其面向搜索的知识图谱。Wikidata在一定程度上可以看作Freebase的后续发展,它由维基基金会支持,同样也是依靠开放社区众包构建。它的目标是要成为世界上最大的免费知识库,并采用了CC0完全自由的开放许可协议。Schema.org是谷歌等搜索引擎公司共同推动的Web数据Schema标准。Schema.org本质上是一种轻量级的本体,定义了有关人物、机构和地点等最常用的1000多个类和关系。任何人都可以利用这个Schema描述自己的数据,并以RDFa、Mcirodata等格式插入网页或邮件中。这使得每个人或机构都可以定制自己的知识图谱信息,并被搜索引擎快速地抓取和更新到后台数据库中。

DBPedia也是早期的语义网项目。DBPedia意指数据库版本的Wikipedia,是从Wikipedia抽取出来的链接数据集。DBPedia采用了一个较为严格的本体,包含人、地点、音乐、电影、组织机构、物种和疾病等类定义。YAGO是由德国马普研究所研制的链接数据库。YAGO主要集成了Wikipedia、WordNet和GeoNames三个来源的数据。其主要特点是考虑了时间和空间维度的知识表示。YAGO是IBM Watson的后端知识库之一。WordNet是最著名的词典知识库,主要用于词义消歧等自然语言处理任务。由普林斯顿大学认知科学实验室从1985年开始开发,与谷歌知识图谱以实体关系为主不同,它主要定义词与词之间的语义关系。ConceptNet源于MIT的Open Mind Common Sense项目,由著名的人工智能专家Marvin Minsky于1999年建议创立。与谷歌知识图谱相比,ConceptNet侧重于词与词之间的关系,更加接近于WordNet,但比WordNet包含的关系类型更多。

BabelNet是多语言词典知识库,它集成了WordNet在词语关系上的优势和Wikipedia在多语言方面的优势。通过机器翻译技术,自动化地构建了目前最大规模的多语言词典知识库,目前包含了271种语言和1400万个同义词组。前面介绍的主要是英文领域的部分较为典型的知识图谱项目。在中文领域,中国中文信息学会语言与知识计算专业委员会于2015年启动了OpenKG中文开放知识图谱项目的建设,系统地收集和整理了中文领域的众多开放知识图谱,读者可以访问OpenKG官网了解。

知识图谱的演进

知识图谱并非突然出现的全新技术,而是很多相关领域不断发展融合的结果。一方面,知识图谱具有人工智能的基因,这可以追溯到1960年,人工智能领域学者提出的知识表示方法——语义网络的本质就是一种知识图谱的表示方式,如下图所示。人工智能发展历史上提出的一些典型的知识表示方法,如框架系统、产生式规则、本体论和描述逻辑等。另外一方面,知识图谱也具有很鲜明的互联网基因。互联网的发展特别是万维网的发展促进了人类知识的共享和开放领域数据如Wikipedia的众包积累,没有万维网数十年积累的开放数据,也不会有谷歌的知识图谱。此外,利用图结构的方式描述万物关系和记录事物知识的理念也来源于万维网。因此,需要从多个不同的技术视角全面地掌握知识图谱的本质内涵。

知识图谱的演进

参考文献:
[1] 陈华钧.知识图谱导论[M].电子工业出版社

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/63643.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【回答问题】ChatGPT上线了!推荐30个以上比较好的构建知识图谱源码

在此列出30个比较好的构建知识图谱的源码: Neo4j AgensGraph JanusGraph AnzoGraph Cayley GraphDB ArangoDB FlockDB OrientDB Redis Graph Virtuoso TigerGraph HyperGraphDB Titan Stardog GraphQL GRAKN.AI AllegroGraph Blazegraph Google Cloud Bigtable Apache HBase …

C盘空间不足清理方法 之 Google Chrome 浏览器用户数据迁移和Windows10 默认浏览器路径失效修复

原理分析 将原来C盘的目录拷贝到其他盘,然后用mklink建立一个联接,这里贴下ChatGPT对于三种链接的解释 # 在Windows 10中,mklink是一个命令行工具,用于创建符号链接(symbolic link)或者硬链接&#xff08…

Python中当pip安装不成功的解决办法

Python中当pip安装不成功的解决办法 pip是Windows安装三方库最简单的方式,但是有的时候可能会不成功,以下是我个人的解决办法。 1、由于网络原因,外网的下载速度较慢,一直没进展,这种情况只能换源,建议换…

【修改密码】

修改登录密码,我们根据账号,原密码,新密码还有确认密码来修改密码,如图所示: 新的密码必须要跟确认密码密码一致,如果不一致它会弹出提示框,如图: 如果修改成功,它会跳转…

手把手教你用代码画架构图

ChatGPT狂飙160天,世界已经不是之前的样子。 新建了人工智能中文站https://ai.weoknow.com 每天给大家更新可用的国内可用chatGPT资源 1. 前言 本文将给大家介绍一种简洁明了软件架构可视化模型 ——C4 模型,并手把手教大家如何使用代码绘制出精美的 C…

电子台账之自定义财务报表模板

目录 1 需求简介 2 模板文件夹位置 3 模板文件夹名称 4 模板文件 4.1 空白工作簿文件 blank.xlsx 4.2 模板工作簿文件 template.xlsx 4.3 模板名称文件 4.4 汇总模板引用参数的制作 1 需求简介 因为网络平台中的财务报表格式经常变化,所有有必要对报表模板实…

用友财务共享系统付款单全流程图文演示

财务共享实例图文演示 一、财务共享简介 财务共享不是一个新概念但大多数人对其并不熟悉,引入中国本土是在2003年,此处简单说明一下财务共享的理念,但绝不是三两段话能够说的明白的。 财务共享服务中心(Financial Shared Service…

微软用的工具,统一财务三大表及高级分析通用模板

虽然罗叔并非财务专业,但大概了解一些财务常识。例如财务报表的三大报表以及一些常见分析等。 本月《BI真经》视频课程即将就绪,后续罗叔将和大家开展更多的业务研究。 我们知道,PowerBI 在绘制某些报告时候很难,初学者根本无法实…

会计报表版本OB58 编辑功能

编辑会计报表版本FSV(ob58)有多种功能: 展开子树(expand a subtree):你能通过把光标放在需要的节点并选择展开子树(expand a subtree)展开一个节点的所有的子节点. 选中节点(select nodes):你能…

chatgpt赋能python:Python如何解密微信缓存图片

Python如何解密微信缓存图片 介绍 微信是中国最流行的社交媒体之一,其功能之一是允许用户发送和接收图片。然而,这些图像通常被缓存在设备上以便快速访问。这些缓存在设备上的图片是加密的,因此需要使用特殊的工具才能将其解密。有许多开源…

电脑卡怎么办?4招帮你解决电脑卡顿的烦恼!

你是不是也遇到过这样的情况:电脑突然卡顿,玩游戏也是卡的不行。首先我们先了解一下电脑卡顿的原理。造成这种现象的原因主要是由于 CPU、显卡等硬件性能老化或者损坏。电脑卡顿对我们来说真的非常痛苦,严重影响了工作和学习效率,…

电脑为什么这么卡?6个方法处理电脑卡顿

你是否打开电脑就卡到不行?电脑的开机速度慢,就连打开网页也在转圈圈,一直加载不出来。世界上最痛苦的事莫过于此,想要好好工作,却一直加载不出网页。你知道电脑为什么这么卡吗?其实大多数的原因都在这篇文…

数智交蓉 聚变启航 — KDD China 2023数智未来高峰论坛暨KDD China 2023 Summer School会议笔记

PPT截图版权来自微信公众号言十爱,西南交通大学计算机与人工智能学院官号 笔记按照报告类别划分而非报告时间划分,且笔记和感想仅为个人浅见 可能存在分类分得比较抓马的情况,主要是初学者搞不清细类别 目录 1. 联邦学习 1.1. 可信联邦学…

使用mutagen修改MP3音乐文件属性,也就是元数据(metadata)

Modify metadata of mp3 files using mutagen. 最近通过截取音频的方式截取了好几段音乐,想修改mp3文件的metadata,包括但不限于 artist王菲title如愿album忘了 import os import numpy as np from mutagen.easyid3 import EasyID3 filename王菲 - 如…

广告商、影视剧和晚会用的流行歌曲,版权都是怎么买的?

对影视作品来说,bgm串联的是故事,也是情感。 对于游戏而言,一首脍炙人口的流行歌曲可以增加体验感。 对广告TVC而言,流行歌曲的存在可以加深用户印象,提升品牌辨识度。 近几年,随着唱跳综艺的火热&…

号码标记查询 php,这些用户可在线查询号码标记、清除标记

IT 之家 11 月 21 日消息 许多国产手机都自带 " 号码标记 " 功能,在接到陌生来电后会显示出对方是否为广告、快递、商家或者骚扰电话。这就是许多国内手机,通过接入第三方号码认证平台来获得的共享数据。 但是部分新开通号码的用户以及商家&am…

自燃、断轴、失控,新能源车还能买吗?

来源|深燃 作者|周继凤 编辑 | 金玙璠 当自燃、断轴事件多到一定数量,新造车们终于开始承认错误了。 威马汽车近一个月内连发至少四起自燃事件,但都没能等来官方的回复和解释。直到最近发酵起来的一起自燃事件&#xf…

举报两年论文终撤稿!123页PDF实名举报985大学导师学术造假后续来了...

点击下方卡片,关注“CVer”公众号 AI/CV重磅干货,第一时间送达 转载自:考博圈 | 来源:科研大匠、解螺旋、吕翔举报信、科学网、生物学霸等 据报道,在2020年被自己已毕业4年的前学生实名举报的原天津大学化工学院张裕卿…

管理端-会议记录

本文是关于无纸化会议系统管理端会议记录的操作,本界面使用htmlcssjs进行开发,使用Vue框架和ElementUI进行辅助开发。管理员可以使用本网页查询会议记录并对会议进行操作,如将会议状态从未开始切换为即将开始,或者把即将开始的会议…

会畅通讯会议客户端分析

分析日期 2022/07/19 分析文件 会畅官网下载的文件 分析结果 zoom的oem版本 我们从会畅官网下载会畅的各个安装包,经过对比分析,发现会畅软件依然是zoom的OEM版本,下面是分析结果和部分截图。 一、会畅官网下载地址 https://passport.…