阿里副总裁玄难:藏经阁计划研发大规模知识构建技术首次披露

导读:2018年4月,阿里联合清华大学、浙江大学、中科院自动化所、中科院软件所、苏州大学等五家机构,联合发布藏经阁(知识引擎)研究计划,同时还宣布打算用一年时间初步建成首个开放的知识引擎服务平台,服务社会。

在全国知识图谱与语义计算大会(CCKS)上,阿里巴巴集团副总裁、藏经阁计划阿里负责人墙辉(玄难)宣布藏金阁计划首次在阿里应用落地,以及首次披露研发大规模知识构建技术,从三方面进行了解读。

这里写图片描述

AI应用背后的海量知识

伴随着过去近19年的发展,阿里生态下,消费者、卖家、品牌商、运营等各种角色参与其中,每天都产生着海量的数据。

以商品相关的数据为例,阿里有近百亿级别的实体,例如品牌、产品、条码等,实体之间又有百亿级别的关系边。以百科数据为例,阿里有近千万级别的实体,例如人物、地点、公司等,实体之间有十亿级别的关系边。

这些数据来源非常广泛,有来自国家的数据,例如GS1编码中心的条码数据,有阿里电商生态的数据,例如线上如淘宝、天猫、盒马,有不同业务形态的数据,例如高德、UC等。

但对于阿里来说,这些宝贵的资产要求数据具备很高的完整度和确定性,多源数据要把冗余度降低,数据无冲突,并彼此链接。最终目的是把数据变成知识,能够支撑着上层的AI应用,主要是三个方向:业务中台商业能力的智能化升级、搜索推荐、智能交互。

除了这些事实类的知识之外,阿里还有大量的形式化知识。

形式化知识对于垂直知识图谱很重要,构建知识图谱和知识图谱服务都要用到这些知识。例如商品知识图谱生成标签的画像知识,商品分类的场景知识,生成关系边的链接知识:判断商品-产品的关系,生成属性值的知识。还有大量的业务知识,例如管控业务和跨市场商品体系的联通,帮卖家把国内商品自动发布到国外。

海量的数据和知识,使我们在众多领域可以建立完善的知识引擎,但同时也面临很多挑战:

• 阿里业务涉及很多垂直领域,如何快速搭建各个领域的知识图谱?
• 如何把各个领域的知识图谱快速联通?
• 如何管理海量的知识(事实类知识和形式化知识),如何更新这些庞大的知识图谱?
• 如何面向搜索推荐、智能交互、商业能力智能化等多种应用做统一的知识表示?
• 最终如何实现认知与感知的结合,实现类脑的推理能力?

研发大规模知识构建技术首次披露

面对这些挑战,我们在今年4月,联合清华大学、浙江大学、中科院自动化所、软件所、苏州大学等五家机构,联合发布藏经阁(知识引擎)研究计划。

整个计划依赖阿里强大的计算能力(例如Igraph图数据库),和先进的机器学习算法(例如PAI平台),把知识引擎分为五个模块:包括知识建模、知识获取、知识融合、知识推理计算和知识赋能。

这五个模块可以提供从数据、信息、知识到知识服务一整套技术平台化服务,同时,特定领域知识图谱可插拔,特定领域知识图谱加载后,可以提供特定领域的知识服务。

如今,知识引擎这五大技术模块技术研究有重要进展。

  • 知识融合&知识获取算法大规模扩展

知识引擎提供通用的服务就会面临很多领域的知识图谱的构建和不同的业务。知识融合&知识获取算法要具备良好的扩展性。良好的扩展性需要快速获取训练数据,所以需要引入众包。

但是,众包数据质量参差不齐。不同的标注者把iPhone X和苹果iPhone X标成产品词,这种不一致样本会成为训练的噪音。

我们通过对抗学习,对抗学习的优化目标是分类器分不标注者。从而隐层网络能学习出标注者之间的共性特征,然后把这个共性特征拼接到识别模型中。从而提高识别的精度。

  • 提高知识获取模块实体关系抽取的精度

文本的句法信息对实体关系的识别非常重要。例如A和B创建了公司C。我们挖掘出公司C的创始人是A。通过A和B的并列关系的句法信息我们就可以知道公司C的创始人还有B。 所以我们设计了基于树结构来表示一个实体,从而能够把句法的层次信息表示进深度学习网络。

  • 逻辑推理与深度学习结合的推理框架

这个推理引擎,通过一阶逻辑霍恩子句能够表示我们知识图谱中的百万级的形式化知识,使得这些知识可沉淀、可复用、可执行。形式化知识实时执行可以补全知识图谱的属性值,补全实体关系,生成画像标签,知识放大支持查询。

我们的创新点在于:整个推理引擎支持确定性推理,例如基于形式化知识的推理和基于深度学习推理,例如基于深度学习的关系补全。同时推理引擎支持算法、词库、垂直知识图谱的可插拔,例如查找产地为中国的食品:用到词林的信息,产地和原产地是同义词;用到地理知识图谱,天津属于中国;用到算法模块-同款商品算法,这样找到的商品量会增加百倍。

藏经阁计划首次应用落地

藏经阁计划涉及商品知识图谱、旅游知识图谱、客服体验知识图谱、安全知识图谱,如今,该计划首次在安全知识图谱和旅游知识图谱应用落地。

我们用知识引擎为城市大脑提供服务,安全知识图谱全要素搜索上线,能够让你的城市更安全,让每个人在一个城市里面过的更开心。

旅游业务是一个知识密集型的业务,消费者要对一个旅游目的地的知识做到快速获取和使用。知识引擎提高旅游景点信息质量、自动把游记攻略等内容结构化,和旅游知识的联通,极大提高用户的旅游体验。

我们希望一年内基于这些知识图谱沉淀通用的知识引擎服务包括:1)本体半自动化构建算法及管理工具;文本自动结构化算法;多源知识库融合算法与工具;基于形式化知识的推理及工具; 2)自然语言、逻辑语言、数据库语言查询服务。

各类垂直领域知识图谱,提炼和发现领域知识,为上层业务提供知识服务,实现商业创新,最终使各个垂直知识图谱关联互通,建成全领域知识图谱,为社会服务。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/69527.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

互联网券商行业公司

中国券商在向互联网金融方向的拓展呈现了百花齐放的特点。对各个券商来说,在互联网证券业务方面在一定程度上尚缺乏或未来需要比较明确的长远目标。或者说,目前大家还都在摸着石头过河。但是,在中国大市场和互联网经济推动下,前途…

1元体验京东云服务器

1元体验京东云服务器 在大神鸿洋和郭霖的微信公众号推送文章发现了这个好消息,第一时间注册了账号,申请下了订单,毕竟数量有限。尽管两位大神讲的很详细,无奈没有接错过CentOS、Ubuntu、WindowsServer这些服务器系统的小白&#…

java简单代码运行内存图

java中主要的三块内存空间: 1.栈内存(stack):在方法别调用时,栈内存会给方法分配内存(压栈),主 要存储的是局部变量。方法调用结束后,该方法所占用的内存释放&#xff…

大厂程序员能力修炼手册,从筑基到化神要多久?

刚入行: 就是干 入行两年:熟知各种设计模式,信手拈来 入行三年:阅码无数,心中已无设计模式 入行五年:就是干 大家好,我是安酱。今天来跟大家聊聊程序员的能力进阶道路。 相信许多小伙伴都知道…

我的周刊(第001期)

我的信息周刊,记录这周我看到的有价值的信息,主要针对计算机领域,内容主题极大程度被我个人喜好主导。这个项目核心目的在于记录让自己有印象的信息做一个留存以及共享。 项目 image-to-latex[1] 可以将数学公式截图然后自动解析成LaTex输出&…

程序性能优化入门锦集--设计+代码+JVM调优+数据库优化策略

关于优化是一项很大的内容。本文结合菜鸟结算项目优化点分析以及书籍《JAVA程序性能优化》阅读心得,给出个人觉得可供参考的优化思路,共涉及四个方面,分别是:设计篇、代码优化篇、JVM内存调优和数据库操作优化。若文中理解有误之处…

阿里巴巴藏经阁,快来学习起来

阿里巴巴藏经阁 其中约有七千多本作品供大家免费下载,在线阅读! 地址 https://developer.aliyun.com/ebook/?spma2c6h.26392459.ebook-detail.2.5ea12039WsHOsc

[导入]文章藏金阁

在网上用www.gougou.com订阅了很多RSS,但RSS保存功能又非常弱,我保存下来的文章全部统统放到一个目录下去了,时间长了,里面乱七八糟的.删除了吧...突然哪天想起原来看过一篇文章,却寻觅不着.用365key吧,我又经常用firefox.郁闷了郁闷了...先暂时自己建个文章藏金阁吧~~ 数据…

知乎高赞:java初学者如何通过自学快速找到第一份工作?

大家好,我是威哥,《RocketMQ技术内幕》一书作者,荣获RocketMQ官方社区优秀布道师、CSDN2020博客执之星Top2等荣誉称号。目前担任中通快递技术平台部资深架构师,主要负责全链路压测、消息中间件、数据同步等产品的研发与落地&#…

源码分析RocketMQ与运维实战

RocketMQ是笔者当前最突出的亮点,正是由于在CSDN中连载RocketMQ,最终促成了《RocketMQ技术内幕》一书的出版,也凭借此专栏的高质量,最终成为CSDN2020年年度博客之星TOP2。 RocketMQ专栏目前已经输出48篇文章,并且被阿…

知乎高赞:如果一个程序员工作5年后还没成为大牛,是不是该考虑别的路子了?

我觉得这个问题非常适合我,我的职业生涯前5年即没有大厂背景,也无好的学历背书,但后面痛定思痛寻找了一条通过技术分享实现逆袭的道路,而且我的成功的经验可以复制。 职业生涯的前5年是我们奋斗的黄金时期,如果此时还…

《阿里工程师的修养》:探究他们修的是什么

前言 最近有空闲的时候会在阿里藏金阁看书,偶然看到一本《阿里工程师的修养》,两眼放光,彷佛周星驰里面那个老伯对着一个拿着棒棒糖🍭流鼻涕的小孩讲:我看你骨骼惊奇,我这里有本书适合你。 没错&#xff0…

外汇交易的技术为什么有效?量化藏金阁

外汇交易的逻辑很简单,只要在时间内成功预判汇价的走势方向即可成功获利,我们都知道如果随便猜那么成功的概率只有50%,是无法获利的,因此必须透过技术分析的手段交易,今天就跟大家聊聊为什么这些外汇技术有效。 1统计与…

mysql5.5不能远程_SQLServer2005不允许远程连接解决方法-数据库-藏金阁

刚刚安装的数据库系统,按照默认安装的话,很可能在进行远程连接时报错,通常是错误:"在连接到 SQL Server 2005 时,在默认的设置下 SQL Server 不允许进行远程连接可能会导致此失败。 (provider: 命名管道提供程序, error: 40 …

OCR二次开发宝典:飞桨联合多家企业和高校发布《OCR产业范例20讲》

文字识别(Optical Character Recognition,OCR)作为AI领域发展较成熟的一种技术方向,已经在各种产业场景得到落地应用。除了文档电子化、卡证识别等典型的应用场景,还存在大量长尾场景,如工业场景的PCB文字识…

程序员学炒股(3) 个股和大盘的关系之二

有了前一节的基础,这一节就简单多了,无非就是把所有股票遍历一下,我这里为了代码简单起见,就没有考虑停牌天数的影响。 下面就直接上代码了,我这里只是计算了一下沪市所有股票与上证指数的关系。 using System; using …

干货-任正非号召华为员工学习:认识5G,发展5G

华为创始人任正非近日签发的一份电子邮件号召华为全体员工学习一份名为《认识5G,发展5G》的PPT,该PPT是根据王喜文博士的文章缩编的,而王喜文博士是国内第一本“工业4.0”方面专著的作者。 该PPT主要围绕以下几个方面展开: 什么…

任正非号召华为员工学习的一份5G PPT(附下载)

今天,华为创始人任正非签发的一份邮件曝光。该邮件公布了一份名为《认识5G,发展5G》的PPT,号召供公共关系、接待经理、非市场与技术人员学习。 原来,这份PPT就是根据我们之前分享给大家的来自王喜文博士的《5G为人工智能与智能制造…

干货!任正非对话美国科技思想家,都说了些什么

https://www.toutiao.com/a6703424788846608903/ 2019-06-17 17:11:48 2019年6月17日下午2点,华为创始人兼CEO任正非在深圳与数字时代三大思想家的其中两位,《福布斯》著名撰稿人乔治吉尔德和美国《连线》杂志专栏作家尼古拉斯内格罗蓬特(也…

华为又收天才少女,进华为的标准是什么?

昨天在华为官网刷到一个蛮有意思的事情,华为官网显示年仅 22 岁的瓦莱里娅 里亚布奇科娃,已正式加入华为俄罗斯下诺夫哥罗德研究所,任职高级工程师,从事智能计算应用加速技术方面的研究。行外的朋友可能不了解,这个女…