分类目录:《知识图谱从入门到应用》总目录
相关文章:
· 知识图谱的基础知识
· 知识图谱的发展
· 知识图谱的应用
· 知识图谱的技术结构
知识图谱支持语义搜索
知识图谱源于互联网,所以第一个落地的应用当然也是互联网搜索引擎。前面已经介绍过,谷歌在2012年推出知识图谱支持的新搜索引擎时,提出的口号是“Things, Not Strings!”。Web的理想是链接万物,搜索引擎最终的理想是能直接搜索万事万物,这是非常朴素且简单的理念。知识图谱支持的事物级别而非文本级别的搜索,大幅度提升了用户的搜索体验。因此,当前所有的搜索引擎公司都把知识图谱作为基础数据,并成立独立部门持续建设。
知识图谱支持智能问答
知识图谱的还可以支持智能问答智能问答,比如天猫精灵、小米小爱和百度度秘等背后都有知识图谱数据和技术的支持。智能问答本质就是一种对话式的搜索,相比普通的搜索引擎,智能问答更加需要事物级的精确搜索和直接回答。智能厨房、智能驾驶、智能家居等都需要实现这种对话式的信息获取。当前,实现智能问答功能主要有三种形式,第一种是问答对,这种实现简单的建立问句和答句之间的匹配关系,优点是易于管理,缺点是无法支持精确回答。第二种形式要求给定问句就能直接从大段文本中准确地定位答案,虽然这是终极期望的形式,但源于语言理解本身的困难,比较难于完全实用。第三种是知识图谱,相对于纯文本,从结构化的知识图谱中定位答案要容易得多,同时比起问答对形式,因为答案是以关联图的形式组织的,所以不仅能提供精准答案,还能通过答案关联,非常便利地扩展相关答案。
知识图谱支持下的推荐系统
推荐系统也是知识图谱的典型应用场景。例如,在电商的推荐计算场景中,可以分别构建User KG和Item KG。知识图谱的引入丰富了User和Item的语义属性和语义关系等信息,将大大增强User和Item的特征表示,从而有利于挖掘更深层次的用户兴趣。关系的多样性也有利于实现更加个性化的推荐,丰富的语义描述还可以增强推荐结果的可解释性,让推荐结果更加可靠和可信。
知识图谱辅助语言语义理解
知识对于正确理解语言至关重要,所以自然语言处理领域也是拥抱知识图谱最多的领域之一。正如第一个自然语言理解系统SHRDLU作者Terry Winograd指出的,当一个人听到或看到一句话时,他使用自己所有的知识和智能去理解。这不仅包括语法,也包括他的词汇知识、上下文知识,更重要的是对相关事物的理解。Winograd Schema Challenge是人工智能领域有关常识推理的竞赛。这个竞赛出了很多这种题目,在一个例子中,让机器阅读一句话,然后要求机器判断其中的it是指代the trophy还是the suitcase。此外,还要求机器把句子中的big换成反义词small之后,能够正确地选择相反的答案。这在自然语言理解中称为指代消解问题,但发现机器基本和瞎猜差不多。这是因为单纯从句子的字面意思来看,不论怎么统计、计算和匹配,都没有关于trophy和suitcase的空间大小的信息,机器自然无法做出判断。人类可以迅速地做出正确的判断,这是因为人在判断时引入了大脑中的常识知识,即:trophy通常是被装入suitcase携带的,所以suitecase肯定要比trophy大。
知识图谱扩展视觉理解的深度和广度
知识图谱对于凡是涉及语义理解的任务都有作用。除了文本语义的理解,在图像、视频等视觉理解任务中,知识图谱也能发挥作用。如下图所示,我们看到一只海鸟,图片本身所包含的信息显然是有限的。如果能引入知识图谱中关于海鸟的语义描述、关联的其他鸟等,就能大幅增强图片处理的深度和广度。比如,可以利用外源知识库中相关的鸟类信息来提升相似图片的检索效果。
知识图谱辅助IoT设备互联
语义和知识在物联网领域有很多的应用场景。OneM2M是物联网领域的一个国际联盟,它有一个独立的工作组,专门为物联网设备数据定义本体。这些物联网本体被用来封装设备数据的语义,从而提升物联设备之间的语义互操作能力。例如,一个温度可能是人的体温,也可能是一个设备的温度,进一步理解这个温度数据还需要知道是在什么时间、什么位置等,丰富的语义描述将大大提升物联设备数据的利用效率,终极的万物互联是设备通过规范化的语义实现数据层面的互联。
知识图谱支持下的大数据分析
知识图谱也在大数据分析应用中发挥重要作用。著名的情报大数据公司PALANTIR有一个核心技术叫动态本体(Dynamic Ontology),它允许数据分析人员根据自己的需要来定制构建一个本体。例如在一个反恐场景中,需要定义恐怖分子、恐怖事件和高危区域等基本概念以及它们之间的语义关系。PALANTIR再通过机器学习算法和自然语言处理技术从各种数据来源获取信息并灌入本体中。事实上,很多领域的大数据分析问题并不需要构建很复杂的算法模型,如果能根据分析的需要构建一个知识图谱,大部分大数据分析问题都可以转化为一个知识图谱上的查询问题。当然,有了图结构的数据,也可以更加容易地在知识图谱上叠加各种图算法,例如图嵌入算法、图神经网络等。这些算法利用知识图谱中存在的关系进一步挖掘和推理未知的关系,从而大幅提升数据分析的深度和广度。知识图谱技术源于互联网,最早落地应用的也是搜索引擎、智能问答和推荐计算等领域。知识图谱支持通过规范化语义集成和融合多源数据,并能通过图谱推理能力支持复杂关联大数据的挖掘分析,因此在大数据分析领域也有广泛应用。对于语言理解和视觉理解,外源知识库的引入可以有力地提升语义理解的深度和广度。
知识图谱支撑医疗
在医疗领域,为了降低发现新药的难度,Open Phacts[3]联盟构建了一个发现平台,通过整合来自各种数据源的药理学数据,构建知识图谱,来支持药理学研究和药物发现。IBM Waston通过构建医疗信息系统,以及一整套的问答和搜索框架,以肿瘤诊断为核心,成功应用于包括慢病、医疗影像、体外检测在内的九大医疗领域。其第一步商业化运作是打造了一个肿瘤解决方案(Waston for Oncology),通过输入纪念斯隆·凯特琳癌症中心的数千份病例、1500万页医学文献,可以为不同的肿瘤病人提供个性化治疗方案,连同医学证据一起推荐给医生。
知识图谱支撑投资
在投资研究领域,成立于2010年的AlphaSense公司打造了一款新的金融知识引擎。与传统的金融信息数据平台不同,这款知识引擎并不仅仅局限在金融数据的整合和信息平台的范围,而是通过构建知识图谱,加上自然语言处理和语义搜索引擎,让用户可以更方便地获取各种素材并加工再使用。另外一款非常具有代表性的金融知识引擎是Kensho。它通过从各种数据源搜集信息,构建金融知识图谱,并关注事件和事件之间的依赖,以及对结果的关联和推理,从而可为用户提供自动化语义分析、根据特定行情判断走势等功能。
知识图谱支持政府管理和安全
在政府管理和安全领域,一个具有代表性的案例是Palantir,因通过大规模知识图谱协助抓住了本·拉登而声名大噪。其核心技术是整理、分析不同来源的结构化和非结构化数据,为相关人员提供决策支持。例如在军事情报分析系统中,将多源异构信息进行整合,如电子表格、电话、文档、传感器数据、动态视频等,可以对人员、装备、事件进行全方位实时的监控分析,使调度人员第一时间掌握战场态势,并做出预判。除了协助抓住本·拉登,Palantir的另外一项赫赫有名的成就是协助追回了前纳斯达克主席麦道夫金融欺诈案的数十亿美金。
知识图谱支撑电商
在电商领域,阿里巴巴生态积聚了海量的商品和交易数据,它以商品、产品、品牌和条码为核心,构建了百亿级别的商品知识图谱,可以广泛应用于搜索、导购、平台治理、智能问答等业务,同时保持每天千万级别的恶意攻击拦截量,极大提升了消费者的购物体验。
参考文献:
[1] 陈华钧.知识图谱导论[M].电子工业出版社