图观 | ChatGTP是如何通过知识图谱回答问题的?

文/Emma Z

1950年,图灵发表了具有里程碑意义的论文《计算机器与智能》(Computing Machinery and Intelligence),提出了一个关于机器人的著名判断原则——图灵测试,也被称为图灵判断,它指出如果第三者无法辨别人类与AI机器反应的差别, 则可以论断该机器具备人工智能

2008年,漫威《钢铁侠》中的AI管家贾维斯,让人们知道了AI是如何精准地帮助人类(托尼)解决丢过来的各种事务的……

图1:AI管家 贾维斯(图片来源网络)

2023年初,以2C的方式从科技界火爆破圈的免费聊天机器人ChatGPT浪翻全球。

据瑞银的研报,其月活用户在1月份就达到了1亿,目前还在增长着,它已成为史上增长最快的消费者应用。此外,其东家OpenAI继前期发布了每月42美元的专业版Pro后,马上就要推出Plus版,据说每月20美元左右。

当一件新事物,月活上亿,流量上来,并且开启商业变现之后,你是否对它背后的各种技术感到好奇?比如,聊天机器人是如何处理和查询海量数据的?

体验过ChatGPT的朋友都有同感,它显然比天猫精灵或小爱童鞋要更加智能——是一个“有着无敌话术”聊天机器人,一个自然语言处理工具,一个大型语言模型,也是一个人工智能应用。它可以根据提问素材的上下文与人类互动,可以进行推理和创作,甚至还会拒绝(它认为)不当的问题,不只是完成拟人化的交流。

虽然目前对它的评价褒贬不一,但从技术发展的视角来说,它甚至有可能通过图灵测试。试问,在我们与它交流的时候,其(对于小白而言)广博的知识,可甜可油的回答,如果在我们完全不知情的前提下,是很难辨别出对方是人类还是机器(或许这才是它危险的地方——ChatGPT 的内核依然是属于深度学习范畴,存在大量黑盒与不可解释性!)。

那么,聊天机器人是怎么做到将来自3000 亿单词的训练语料库和 1750 亿的参数,快速地进行整理和输出的呢,同时还能做到结合上下文,根据它“掌握”的知识,自由应对与人类的交流的呢?其实,聊天机器人也有大脑,它跟我们人类一样,需要学习+训练。

图2:ChatGPT 学习训练图(来源官网)

它将海量的文本、图片等等非结构化的文件,通过NLP(自然语言处理)、目标识别、多模态识别等,按其语义结构化成知识图谱,这个知识图谱就是聊天机器人的大脑了。

图3:以医疗为例,人工智能将多来源的数据转化在问答、搜索、药物研发等场景的知识图谱中

知识图谱是由什么组成的呢?它是由(实体)和(关系)组成的,能够将人、事、物等相关信息进行整合,形成一个全面的图,如下图。

图4:由人物的点和属性边构成的图谱(子图)

当提问“OpenAI 的创始人是谁呀?”,聊天机器人的大脑就开始迅速地在自己的知识库里搜索、查找,先从用户的问句中,锁定目标“penAI”,再根据用户的提问,连锁出另一个——创始人“山姆·阿尔特曼”。

图5:从点“OpenAI”通过一条边连接到另一个点“山姆·阿尔特曼”

其实,当我们在提“OpenAI的创始人是谁"的时候,聊天机器人就会在自己的知识库中,把所有围绕该的图都关联出来。所以,当我们问及相关问题的时候,它其实早已预判了我们的预判。比如当我们问:“马斯克是OpenAI的创始团队成员吗?”仅仅一个命令的发出,它已经将所有的成员都查询了(举千反一),见下图。

图6:由点“OpenAI”关联到其他人物

此外,在它的库里如果还收录过其他的“学习资料”,那么在其的“大脑”中还会关联着诸如“人工智能机器人的产品有哪些?”等相关的图,如下图。

图7:常见的AI机器人产品图谱

当然,聊天机器人和人一样,回答问题会受到自身知识储备的局限,如见下图:

我们知道,决定一个人大脑快不快、聪明不聪明的判断是什么呢?从人类的视角来看,最简单的一个标准就是是否具备举一反三的能力。

子曰:“不愤不启,不悱不发,举一隅不以三隅反,则不复也。”——论语·述而篇

早在两千年前,孔子就强调过善于举一反三、由此及彼、触类旁通的重要性。而对于聊天机器人来说,其答案的质量取决于构建知识图谱的算力

我们知道,通用的知识图谱的建设在很长一段时间内都着重在 NLP和可视化呈现等方面,但忽略了计算时效性、数据建模灵活性、查询(计算)过程与结果可解释性等问题。尤其是在整个世界从大数据时代向深数据时代转型的当下,过去传统的基于SQL或 NoSQL构建的图谱的缺陷,已无法高效去处理海量、复杂、动态的数据的能力,更何谈进行关联、挖掘和分析的洞察力?

那么,传统知识图谱面临的挑战都有什么特性呢?

一是,低算力(低效)。采用SQL 或 NoSQL 数据库系统构建的知识图谱底层架构效率低下,无法高速地处理高维数据。

二是,灵活性差。基于关系型数据库、文档数据库或低性能图数据库构建的知识图谱通常受制于底层架构而无法高效地还原实体间的真实关系。诸如,它们有些只支持简单图,录入多边图数据时要么信息容易丢失,要么花高代价来构图。

三是,徒有其表。在2020 年之前, 极少有人真正关注底层算力,几乎所有的知识图谱系统建设,都仅仅是围绕 NLP 和可视化这两部分。而没有底层算力支撑的知识图谱,只是在本体与三元组的抽取和构建,并不具备解决深度的查询、速度和可解释性等问题的能力。【注:在这里,我们不展开讲传统关系型数据库与图数据库之间的性能对比,感兴趣的读者可阅读:图数据库与关系型数据库的区别?和 图数据库解决了什么问题?】行文至此,我们已经从聊天机器人的智能知识图谱话题,聊到了另一个前沿技术——图数据库(图计算)技术领域了。

图数据库【见参考资料1】是一种应用图理论,可以存储实体的属性信息和实体之间的关系信息,在定义方面,(Graph)是以节【见参考资料2】和【见参考资料2】定义的数据结构。

图是知识图谱存储与应用服务的基础,拥有强大的数据关联及知识表达能力,因此倍受学术界和工业界的推崇。

图8:图数据库与知识图谱在市场营销、犯罪调查、金融监管、教育生态、公共卫生和能源等领域中的应用场景

如上图所示,我们看到,在实时图数据库(图计算)引擎的帮助下,产业界可以实时地在不同数据间找到深度关联的各种关系,甚至可以找到最优的、人脑都无法企及的智能途径——这就是源于图数据库的高维性。何为高维性?图不仅仅作为一种符合人类大脑思维习惯、能对现实世界进行直观建模的工具,同时能够建立起深刻的洞察(深图遍历)力。诸如大家都知道“蝴蝶效应”,就是在海量的数据和信息的中,去捕捉看似毫无关系的两个以上的实体之间的微妙关系,这从数据处理架构的角度来看,如果没有图数据库(图计算)技术的帮助是极难实现的。【注:对图数据库与图计算到底如何区分的话题,此处不展开,感兴趣的朋友可阅读:来自“图”的挑战是什么?如何区分图数据库与图计算? 一文速解】

图9:过去40年来,数据处理技术的发展趋势是从关系型到大数据再到图数据

风控就是典型的场景之一。2008年的金融危机,其导火索仅仅是美国第四大投行雷曼兄弟倒闭了,但谁也没有料到,一家拥有158年历史的投行的倒闭,会引起国际银行业后续的一系列倒闭风潮……其影响之广、范围之大,让人始料未及;而实时图数据库(图计算)技术,就可以找到关于风险的所有关键的节点、风险因子,风险传播路径……进而对整个金融风险进行提前预警。

图10:雷曼兄弟(Lehman Brothers)破产传播路径以及风险客群图谱

【注:以上构图,均在Ultipa Manager上完成。愿意进一步学习和探索的朋友,可以阅读系列文章之一: 走进 Ultipa Manager之高可视化】

需要指出的是,时下,尽管很多厂家都可以构造知识图谱,但现实是每 100 家图谱公司中,用(高性能)图数据库来做算力支撑的不足 5 家(低于 5%)。Ultipa嬴图数据库是目前全球唯一的第四代实时图数据库,通过高密度并发、动态剪枝、多级存储计算加速等创新性的专利技术实现了对任意量级数据集的超深度实时下钻。【感兴趣的朋友可扩展阅读:为什么选择 Ultipa?以及专家观察 | 高并发图数据库系统如何实现?】

一是,高算力。以查找企业最终受益人(又名实际控制人、大股东)为例。此类问题的挑战在于,现实世界中,最终受益人与被检查公司实体之间,经常相隔许多节点(空壳公司实体),又或者多个自然人或公司实体之间通过多条投资、参股路径对其它公司进行控制。传统的关系型数据库或文档数据库,甚至多数的图数据库,都无法实时解决这类图谱穿透问题。Ultipa嬴图实时图数据库系统解决了以上诸多挑战。其高并发数据结构和高性能计算与存储引擎,相较于其他图系统能以 100 倍甚至更快的速度进行深度挖掘,实时(微秒级以内)找到最终受益人或发现一个庞大的投资关系网络。另一方面,微秒级的时延意味着更高的并发性和系统吞吐量,相比于那些宣称毫秒级延迟的系统,这是 1000 倍的性能提升!以现实场景为例,原中信银行行长孙德顺利用开设多个“影子公司”的方式,借助金融手段来完成利益输送。

图11:孙德顺设计了结构极为复杂的重重“防火墙”,多层影子公司层层嵌套,以规避监管,获取利益

图12:关联:孙德顺——中信银行——企业老板——(空壳公司)投资平台公司——孙德顺

如上图所示,孙德顺利用中信银行的公权力为企业老板批贷款;与此对应,企业老板们或以投资名义或送上优质的投资项目、投资机会等等方式;双方通过各自成立的空壳公司完成直接交易;或者企业老板将巨资注入孙德顺实控的投资平台公司,然后平台公司再用这些资金投到老板提供的项目内,从而以钱生钱,大家共同获利分红,最终形成利益共同体。

Ultipa嬴图实时图数据库系统,通过白盒穿透的方式,挖掘出层层错综的人与人、人与企业、企业与企业之间的复杂关系,并实时锁定最终的幕后人。

二是,灵活性。图谱系统的灵活性可以是个非常广泛的话题,大体包含数据建模、查询与计算逻辑、结果呈现、接口支持、可扩展性等几个部分。

数据建模是所有关系图谱的基础,与图系统(图数据库)的底层能力息息相关。例如,基于ClickHouse 这种列数据库构建的图数据库系统,根本无法承载金融交易图谱,因为交易网络最典型的特征就是两个账户间存在多次转账,但 ClickHouse 倾向于将多次转账合并为一,这种不合理的做法会导致数据混淆(失真)。有些基于单边图理念构建的图数据库系统,则倾向于用顶点(实体)来表达交易,结果是数据量被放大(存储浪费),并且造成图谱查询的复杂度指数级增大(时效性变差)。

接口支持层面则与用户体验相关。举个简单的例子,如果一个生产环境下的图系统仅支持CSV格式,那么所有的数据格式都要先转换为CSV格式才能入图,效率显然太低,然而这在很多图谱系统中却是真实存在的。

查询与计算逻辑的灵活性又如何呢?我们仍以“蝴蝶效应”为例:图谱中任意两个人、事或物之间是否存在某种冥冥中的因果(强关联)效应?如果只是简单的 1 步关联,任何传统的搜索引擎、大数据 NoSQL 框架甚至关系型数据库都可以解决,但如果是深度的关联关系,例如牛顿和成吉思汗之间有什么关联关系,这又该如何计算呢?

Ultipa嬴图实时图数据系统,可以提供不止一种方法来解决以上问题。比如点到点的深度路径搜索、多点间的组网搜索、基于某种模糊搜索条件的模板匹配搜索,还有类似于Web搜索引擎的面向图谱的模糊文本路径搜索。

图13:某大图中实时组网的可视化结果(形成子图)搜索深度≥ 6跳

图谱上还有其它很多必须依赖高灵活性与算力才可以完成的工作,比如依据灵活的过滤条件寻找点、边、路径;模式识别,社区、客群发现;寻找节点的全部或特定邻居(或递归地发现更深的邻居);找到图中具有相似属性的实体或关联关系……总之,没有图算力支撑的知识图谱就像是没有灵魂的躯壳,空有其表。无法完成种种具有挑战性、深度搜索能力的事务。

三是,低代码,所见即所得。图谱系统除了上面提到的高算力与灵活性以外,还需要有白盒化(可解释性)、表单化(低代码、无代码)以及以所见即所得的方式赋能业务的能力。

图14:零代码一键查找,仅需填入搜索范围的数值即可,且2D、3D 、列表、表格甚至是异构数据融合的多种可视模式灵活转化

在Ultipa嬴图实时图数据库系统中,开发人员只需敲1句 Ultipa GQL就可以完成操作,而业务人员则是使用预置的表单化插件通过零代码的方式就可以实现对业务的查询。这种方式,极大地助力员工提高了工作效率,同时赋能机构降低了运营成本,并打通了部门之间的沟通壁垒。

综上所述,知识图谱与图数据库的结合将会帮助各行各业加速实现数据中台的业务建设,但诸如金融行业这种需要专业性、安全性、稳定性、实时性、精准性的行业,采用关系型数据库来支撑上层应用并不能提供良好的数据处理性能,甚至无法完成数据处理任务,因此只有实现具有实时、全面、深度穿透、逐笔追溯、精准计量的监测和预警性能的图数据库(图计算)技术,才可能赋能组织更好地运筹帷幄且决胜千里!

行文至此,突然想起了热播的《三体》,其中提到了一个非常有意思的点——智子锁死。大概意思是说,三体文明为了防止地球科技超过它,就通过锁死人类基础科学的方式进行各种阻碍。因为人类文明的飞跃,取决于基础科学的发展和重大突破,锁死人类的基础科学就等于堵塞住了地球提升文明等级的道路……当然,笔者想告诉大家的是,图技术就属于人工智能的基础设施之一,准确的说是图技术=增强智能+可解释 AI,它是 AI 与大数据发展过程中融合的必然产物。

图15:图数据库(图计算)技术,属于人工智能基础设施

[1] 图数据https://www.ultipa.cn/document/ultipa-graph-query-language/basic-concepts/v4.0库;

[2] 什么是点; https://www.ultipa.cn/document/ultipa-graph-query-language/basic-concepts/v4.0

[3] 什么是边:https://www.ultipa.cn/document/ultipa-graph-query-language/basic-concepts/v4.0

{4]《图数据库原理、架构与应用》; 孙宇熙,嬴图团队;2022-8;机械工业出版社.

《图数据库原理、架构与应用》是国内第一本全面系统地详解有关图数据库、图计算技术的专著。全书围绕8大维度以帮助技术爱好者、从业者及高校师生快速实现对图数据库技术的入门、认知与实践指导。

·专家观察 | 高并发图数据库系统是如何实现的?

·图数据库知识点 | 图数据库与关系型数据库的区别

·专家观察 | 图计算引发银行流动性风险管理变

·文库 | 为什么选择 Ultipa?

·嬴图系列之一:走进 Ultipa Manager之高可视化

·CNBC专访 | Ultipa Graph,构建全球主流图数据库市场的底层系统


关于嬴图数据库(Ultipa Graph)

嬴图实时图数据库是第四代图数据库产品。通过一系列技术创新实现了对动态、海量数据的深下钻、科学计量、多维度归因分析。数据加载、更新、查询、分析、聚合、计算等维度,通过构建应用产品,深度赋能客户。相比与传统的关系型数据库或数仓、数湖产品,嬴图数据库在数据建模的灵活性、计算时效性、充分满足业务需求等多个维度。更多关于嬴图数据库的探索,请关注www.ultipa.cn

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/9079.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Java程序员摸鱼技巧,推荐这9个 !

小编给大家推荐几个优质的公众号 他们都是各领域的资深主理人 他们的每一个公众号都值得你关注 简说Python RECOMMEND 推荐理由: 关注「简说Python」遇见老表,AI与数据分析的探索者!Python学习路上的伙伴,原创文章超200篇。涵盖P…

LLM探索:环境搭建与模型本地部署

1前言 最近一直在炼丹(搞AIGC这块),突然发现业务代码都索然无味了… 上次发了篇AI画图的文章,ChatGPT虽然没法自己部署,但现在开源的LLM还是不少的,只要有一块差不多的显卡,要搞个LLM本地部署还…

超越诺奖?生物界「ChatGPT」首次实现从零合成全新蛋白,登Nature子刊!喂了2.8亿种氨基酸序列...

新智元报道 编辑:好困 Aeneas 【新智元导读】这家成立三年的小初创公司,首次利用深度学习语言模型合成出了自然界中不存在的全新蛋白质,引爆蛋白质设计革命。 人工智能的应用,已经极大地加速了蛋白质工程的研究。 最近&#xff…

【R】Mac如何配置R和RStudio

前言 本篇文章将讲述如何在Mac上配置R和RStudio,惯例是先看看chatgpt会怎么回答这个问题: miniconda配置R和RStudio( Mac m系列芯片暂不适用) 安装R 在终端中执行一下命令 conda search -c conda-forge r-base # 备注-c conda…

深度学习实战26-(Pytorch)搭建TextCNN实现多标签文本分类的任务

大家好,我是微学AI,今天给大家介绍一下深度学习实战26-(Pytorch)搭建TextCNN实现多标签文本分类的任务,TextCNN是一种用于文本分类的深度学习模型,它基于卷积神经网络(Convolutional Neural Networks, CNN)实现。TextCNN的主要思想是使用卷积操作从文本中提取有用的特征,并…

写在2023年年中

写在2023年年中 收拾旧山河再出发 很久没有写规划了,博客也很少写,着实是太懒了。想想自己年纪也不小了,加上程序员的环境越来越不好,总得想想自己的出路不是。 目标 提升系统设计能力保持算法刷题能力(一般面试需要)知识输出能…

英语学习-29190410雅思图表作文写作--bar grapgh

主要参考来源:https://www.bilibili.com/video/av23014883?p2 Simon雅思 搜狐 http://www.sohu.com/a/130635097_372408 注意事项 开头语不能照抄题干中的句子,阅卷老师不会评估照抄的句子,所以你抄上去只是在浪费时间 请注意时态&…

四六级作文模板对提高写作成绩是否有用?让人工智能给我这套用模板的文章打分看看

最近的四六级考试又又又要开始啦,这里更新一下作文模板,来自B站大表哥的高级四六级通用模板; 原视频链接:【【救命抢分】四六级写作全能超强模板!(2022)| 四级672六级674 | 四六级作文模板】 ht…

雅思作文模板.html,【雅思备考外国视角】雅思大作文discuss both views模板

编者按:这是从国外一个考官的的博客里搬过来的一篇关于雅思大作文discus both views型的大作文改如何作答的一些结构上的归纳,有一些借鉴意义,特分享给大家。 A Task 2 questions often ask you to Discuss both views and give your own opi…

汉字无法被计算机替代作文,雅思大作文范文:老师会被电脑替代吗

新东方在线雅思频道特为大家收集整理了雅思大作文范文:老师会被电脑替代吗,供大家阅读参考。认真研读一定的雅思范文及作文模板可以帮助我们检验自己的写作水平,并能很好地吸收和应用优秀范文里的优秀内容~更多雅思报名官网的最新消息&#x…

托福改革后的Academic Discussion如何拿高分?

这次托福改革最大的变化当属写作部分。原来的Task 2独立写作取消,替换成了一篇10分钟长度的Academic Discussion。写这篇小短文之前是需要考生先阅读一小段文章,是关于一个教授引出的一个课堂讨论的话题以及两位持不同观点的学生给出的自己的想法。 我们…

雅思作文未来计算机的应用,9分考官级雅思大作文范文之电脑技术的忧虑

9分考官级雅思大作文范文之电脑技术的忧虑 2017年08月07日15:24 来源:小站整理 参与(10) 阅读(29402) 摘要:本文出自考官级作者之手,two part题型,讨论人类对电脑技术的过度依赖。对于这种级别的雅思写作范文,大家可以…

你真的会使用雅思写作模板吗?

中国国际教育网讯:在教学过程中,经常有学生问及:“我要背范文吗?”,“ 老师,多给点实用范文,让我能确保6分。”笔者在教学实践中发现,机械地背诵范文对任何考生而言都无太大意义,只…

Cursor

一、什么是Cursor 官网:Cursor | Build Fast Cursor是一个开源的AI编程编辑器。开源地址 https://github.com/pricing 目前在国内是可以不需要其他东西,可以直接访问的。而且目 「下面是官方的介绍:」 Cursor 是一个为 AI 编程而做的编辑…

大语言模型技术原理

在今天这个时代,人们的工作和生活已经离不开数据访问,而几乎所有平台背后的数据存储和查询都离不开数据库。SQL作为一种数据库的查询和处理语言历史悠久,最早由IBM于上世纪70年代初研究关系数据模型时提出,后续发展为一种广泛使用…

2023年AI十大展望:GPT-4领衔大模型变革,谷歌拉响警报,训练数据告急

新年伊始,大模型的话题热度不减。2022年11月底,ChatGPT展现的惊人能力将大模型研究和应用热度推向高潮,人们激烈讨论着这个高级“物种”的推出意味着什么,比如是否会颠覆搜索引擎市场格局。踏入2023年,这不禁让我们对G…

和ChatGPT大战多个回合,我知道了这些真相

最近,ChatGPT在国内外社交平台上可谓是火出圈了。作为一款人工智能语言模型,它可以和人类以对话的方式进行互动,比你早已熟知的Siri,小度还有小爱同学要更加智能与专业。因为它除了回答问题外还能进行创作,比如写小作文…

香港攻略 之 首次初次第一次去香港需要注意什么准备什么(仅供参考)

香港攻略 之 首次初次第一次去香港需要注意什么准备什么(仅供参考) 目录 香港攻略 之 首次初次第一次去香港需要注意什么准备什么(仅供参考) 一、简单介绍 二、可提前准备或者注意事项 1、根据去香港的目的,旅游、…

香港服务器哪家好?香港机房前十排名

香港服务器哪家好?香港那么多的机房,香港服务器哪个机房最好呢?香港本地的机房最好,如果是大陆的最好找一级代理机房,除此以外,别无其他!一般现在阿里云香港云服务器或腾讯云香港云服务器所处的香港机房都很正规,毕竟…

psn注册什么服务器,怎么注册PSN港服账号?PSN港服官网注册教程

PSN港服和国服的区别 在购置PS4的时候,很多人都会优先考虑港版。价格便宜是一回事,主要是港服可玩的游戏比国服多,这才是玩家最关心的。这是因为审查制度不同,所以很多带有暴力成分的游戏(也就是许多玩家偏爱的那种类型的游戏)都不…