文章目录
- 知识运维
- 研究现状
- 技术发展趋势
知识运维
由于构建全量的行业知识图谱成本很高,在真实的场景落地过程中,一般遵循小步快走、快速迭代的原则进行知识图谱的构建和逐步演化。知识运维是指在知识图谱初次构建完成之后,根据用户的使用反馈、不断出现的同类型知识以及增加的新的知识来源进行全量行业知识图谱的演化和完善的过程,运维过程中需要保证知识图谱的质量可控及逐步的丰富衍化。知识图谱的运维过程是个工程化的体系,覆盖了知识图谱的从知识获取至知识计算等的整个生命周期。
知识图谱的运维包括两个方面的关注点:一个是从数据源方面的基于增量数据的知识图谱的构建过程监控,另一个是通过知识图谱的应用层发现的知识错误和新的业务需求:例如错误的实体属性值、缺失的实体间关系、未识别的实体、重复实体等问题。这些运维暴露的问题会在知识图谱构建的流程、算法组合、算法调整、可新增业务知识优先级排列等方面进行修正,提升知识质量和丰富知识的内容。知识图谱运维需要基于用户反馈和专家人工的问题发现及修正、自动的运行监控、算法调整后的更新相结合,因此是一个人机协同,专家和算法相互配合的一个过程。知识运维的全过程如下图所示:
研究现状
构建知识图谱是一个持续和增量的过程,随着数据的不断更新(爬虫数据不断积累、业务数据持续更新等),如何持续地对图谱进行更新成为了一个重要的问题。普通的知识图谱增量更新包括新元素的加入(节点、边或对应的属性)、旧元素属性的更改。在更复杂的场景下可能会涉及到已有元素的删除操作。工程上高效、自动的增量更新策略对于维护一个动态更新、准确性高的知识图谱意义重大。根据不同的使用场景和不同的数据来源,主要存在以下两种增量方式: 数据从消息队列导入图谱、利用工作流引擎定时更新图谱。
如果知识运维人员要高效的进行知识图谱的运维工作,需要对知识图谱中的实体、本体、属性、关系进行统计,掌握目前的知识图谱的规模和状况,也可以对图谱中的知识进行上传或者下载操作,方便进行图谱内知识的管理。同时系统需具备对图谱运行中间产生的各种异常情况进行集中的展示、问题提醒等功能,报告知识图谱中出现的问题,方便运维人员及时进行修正。
按照业务的正确率的要求程度、数据的量级等角度考虑,需要对知识图谱有明确的新增知识入库的标准和流程。对于准确率要求高的知识图谱支撑应用,对新识别的实体、变更的实体属性、实体或关系冲突等,需要通过明确的列表的方式呈现并由有相关知识背景的专家来进行审核确认后方能入库,审核入库过程要有记录。对已经构建好的知识图谱需要有可以直接增、删、改的途径。此外由于知识图谱中非事实型的行业知识往往具有模糊性,在构建和运维图谱的时候需要有套冲突检测以及多人协同编辑的功能,如果系统自动检测到冲突点或者不同的知识运维人员运维同一知识点产生认知的不一致,那么需要系统提供多人协同工作讨论确定对知识的统一认知和编辑加入知识图谱。
在知识图谱的管理中,可以引入版本概念,按照知识的更迭进行管理,可以设置当前对外服务的知识版本,可以对历史的知识版本进行作废或者回滚处理。基于版本的知识图谱运维可以实现知识图谱的升级切换,方便线上应用业务的平滑升级,也可以在新版本知识图谱上线出现问题情况下快速切换回原有版本,降低对业务的冲击,同时避免误操作后的知识丢失。
知识图谱在构建的过程中往往倾向于将各种不同来源的数据进行融合构建成为一个完整的知识体系,这样的好处是打破数据壁垒造成的知识缺失。融合的知识对于决策与分析价值更大,但是也减低了原始数据源中的数据访问权限的控制,带来了数据的安全风险。因此对于不同部门或者层级的人员可见或者使用的知识范围要有明确的限定,对知识的上层应用要控制开放的知识范围,降低因为知识融合产生的知识泄密风险。针对此挑战,需要引入权限管理,对维护、使用知识的人员、系统进行账号分配、权限分配,对于人员权限可能需要对接组织已经建设的统一登录和单点登录系统,将知识图谱管理和使用的权限和人员在组织内的角色有机结合,降低人员变动后的数据安全风险。在整个知识图谱的运行过程中,要有日志监控、操作记录、变更内容的记录等,便于追踪异常,堵住漏洞。
一个知识图谱可能含有上亿个节点以及上百亿的边,单台机器很明显无法存储和处理如此海量的数据,保证分布式图谱服务在某个或者某些节点失效时还能稳定可用就是知识图谱高可用的定义。一个完善的知识图谱通常拥有重大的价值,高可用只保证了服务阶段的可用性,保证在意外发生的时候图谱数据不至于完全丢失是图谱灾备需要解决的重要问题,如下图所示。
技术发展趋势
知识运维是知识图谱可以持续健康发展并且支持业务的关键,但是运维工作往往技术难度大,涉及步骤多,所有知识构建及使用人员都是参与者,各部分人员的技能有一定差异,沟通成本比较高,因此需要将知识运维纳入到整个知识图谱的构建体系中来看待,为了降低知识图谱构建的难度并提高运维的可控性,便于知识高效运维,出现了知识图谱平台化的发展趋势。通过建设知识图谱平台的方式将知识图谱构建过程中涉及的所有步骤、技术进行整合,实现知识图谱构建过程的全生命周期管理,加快知识图谱的构建速度,降低知识运维难度,同时对知识图谱的质量和扩展可控可管理。
具备知识运维能力的知识图谱平台主要功能宜包括:本体的构建,针对多种数据来源的结构化、半结构化、非结构化的数据类型在不同的技术下的知识获取,实体识别、关系识别、实体链接、实体属性抽取的实现,基于本体概念和实体知识图谱间的验证,构建流程与运维过程的监控,对知识图谱构建过程中的各种异常情况的记录和反馈,对入库知识图谱的人工审核。此外,通过在知识图谱平台的知识库以版本的形式进行管理,避免知识运维中因为新知识的错误发布对现有业务的影响,提供给运维人员上线发布前的质量检测方法,并将经过严格测试验证的知识图谱版本正式生效上线,最终保证知识图谱全生命周期各环节的数据质量。
此外,面向按照不同领域和范围下多个知识图谱的构建和运维,有待开发一套完备的平台对多个不同知识应用提供支撑。该平台本身需具备完整的安全管控及权限管理,并可满足动态本体的多人协同构建、冲突检测及讨论确定统一的版本的机制及功能,最终可对外开放给上层应用,提高应用的智能化。同时,通过应用的使用记录及问题反馈带动知识图谱的运维优化,形成闭环全周期的多知识图谱间的运维管控。