技术动态 | ChatGPT 下的知识图谱审视:一次关于必然影响、未来方向的讨论实录与总结...

转载公众号 | 老刘说NLP


近日,两位知识图谱领域专家刘焕勇老师和王昊奋老师一起就 ChatGPT 会对知识图谱造成什么影响、两者之间的关系以及未来发展这个话题进行了讨论,其中的一些观点具有一定的参考和指引性,整理出来与大家一同思考。

一、关于chatgpt带来的kg研究与落地影响的讨论

下面是讨论的全程实录(对话中的观点仅供参考):

刘:有个问题想咨询下您的观点:chatgpt会对知识图谱造成什么影响呢?两者之间的关系是怎样的,未来发展是怎样的?想听听您的看法。

王:我觉得ChatGPT或LLM的出现其实本质来说,对于是否我们需要完全结构化(符号)表达的传统图谱会有反思。甚至很多传统的KG任务,比如知识抽取,知识融合,知识推理与计算,以及上层的问答、搜索、推荐其实都会受到影响,就和早年大家在针对PTM(还不算LLM)的时候,大家就说PTM就是Knowledge base,包含了大量如Knowledge probing等任务来分析和理解。

刘:嗯嗯,是形式化知识和参数化的知识区别

王:所以可能整个KG的lifecycle的任务都需要考虑在有了LLM的情况下该如何做,这点对于如百科类为主的通用知识图谱的构建与应用产生了更大的影响,可能短时间就不要做了。对于垂直领域的KG,我觉得构建与应用的范式也需要发生变化。其实这次ChatGPT或LLM出现之后,在语言理解NLU方面,以及各种任务上的表现,都达到了一个前所未有的高度,而且是达到了能用(还没有到好用的程度)。

刘:两者如何去结合呢?

王:两者的结合还是有很多可以去做的。1. 结合其在推理(常识和领域推理),业务系统交互,超自动化,时效性内容的接入和更新等方面,有不少可以做的。2. 各种图谱任务的text generation映射,以及prompt engineering。3. retrieval augmented DL的实现,这里retrieval的库包含大的KG,这样对选择example,对于约束prompt,对于提升推理能力都有可以做。4. KG本身往更多适合符号来做的,包括数值计算,包括规则推理等方向去做深,因为这块对于LLM来说,其实是相对薄弱,或者说学习效率太低了;5. KG作为一个meta ontology来进行各种AI特别是Maas的编排和整合,形成更加完整的链条,这也是在1里面提到的hyper automation

刘:也可以比如用kg来约束cahtgpt推理

王:我最近在琢磨做LKM(Large Knowledge Model),他一定不能是纯的DL的,会是神经符号结合的。在AutoPrompt, 在各种LLM的probing以及模块化组合,以及在检索增强,推理辅助(目前decision making还有很多值得做,因为这些对于准确性,对于可解释性等要求更高),决策支持等功能,以及数据系统治理与接入等方面做更多工作

刘:我有种直觉,不知是否对:知识图谱离应用端链路太长,成本很高。Chatgpt为代表的llm,端到端,很直接。

王:你的直觉是完全对的,我觉得KG的问题就和早年的NLP一样。pipeline很齐全,但是要完整的完成一个可落地的项目太费劲。门槛太高,另外,ops很难做,也没有tensorflow或pytorch这样的工具。

刘:王老师,您说对kg的影响,在应用端会对哪些场景影响较大呢?

王:我觉得基本上搜索、问答、推荐都基本上要重新来一遍了。图可视分析还好,因为都是离散的。决策这块因为不是well defined的任务,所以可能还会持续一段时间,有人用LLM(转化为各种判别任务),有人继续用传统的KG那一套,这个的拐点应该在于大家对于领域(业务+规则+流程)的推理突破了那层纸之后就会形成范式的转移和变化。

刘:细分领域用kg,非文本数据和已经图化的数据用kg。

王:这个其实也未必了,看看text-davinci-002都整合了code,其实都可以变成LLM的input

王:KG构建的话,如果还需要定义schema,这个和LLM怎么结合呢?

刘:这是个好问题,用LLM挖schema?或者用LLM来建schema下的instance

王:LLM做schema induction以及做knowledge extraction已经有一些最新工作了,其实是如果schema还是按照传统的来定义建模,那么这里如何和LLM结合呢?是schema2prompt来做knowledge population么,还是怎么样?这里的prompt其实也包括machine readable或trainable的prompt,我觉得X2prompt是一块大活,然后X2Text或2Sequence也是一个大活。

王:这次LLM最令我吃惊的是,他的emergent ability,主要这些是trigger的,无论是通过in-context learning还是通过zero shot的prompt(包括CoT),因为传统我们都是以为是做knowledge injection的。

王:这点就导致我们外部的这点点小知识(相比LLM的规模来说),还有啥用呢?

刘:看过研究说是说不清的逻辑,到达一定参数量就出来了。

王:其实还是因为见过,以及long context的建模和组合泛化,这个对于transformer的induction head的同层和跨层协同机制的调研,大家得到了一点点结论。目前我们觉得因为chatGPT还是在语言层面,他没有和物理世界交互,所以无论是机器人还是什么最近大家提倡的具身智能。

刘:到物理交互,输入的数据形态就要更多了。

王:这里有一块KG可以做的事情就是坐symbolic grounding。设想一下,如果我们对于喂给LLM的各种数据,做了entity linking等任务,这样等于是一个KG corpus + text corpus的二部图的组合,中间的link就是从KG到text的某个sentence或segment,这样能学到更好的模型么?或者有一个KG-input的LLM,有一个text-input的LLM,有一个KG-text linking的LLM作为bridge,三个LLM的协同是否比我喂给一个LLM的效果如何呢?这点很重要,如果可以用多个module来近似一个,那么就使得我们可以训练多个相对小的模型(目前根据scaling law, 10B是产生涌现的下界),可能更多人可以根据需求做自己的模型。

王:另外一块,KG可以做的,其实是类似我们之前做领域KG的时候,可能会希望从通用或百科的KG种抽取一个domain specific subset,然后再结合业务数据进行针对性enrichment,那么这个是否可以将通用KG替换为LLM呢?原来的DAPT或TAPT等adapation pre-trained model是否可以重现呢?

王:纯属瞎想,我觉得这个不是一个人可以做完的,要有一群人一起做,KG和NLP都要做改变,原来前几年NLU里面做out of domain intent detection这种比较fancy的任务,现在根本不需要做了,summarization等也是很多人担心的。

刘:您觉得,kg这套跟chatgpt这套,各自的优势和弱势分别是什么呢?

王:KG我觉得优势还是在于方便debugging,人可理解,图结构表达能力强。chatGPT就是any data, any task, 无所不能,不够简单,现在是非科研人员通过prompt(而且是align人的想法的,不像text2image等,都是人伺候机器的)就可以做很多事情。打个比方,KG在专家系统时代是Web1.0(可能当时弄一个网站都费劲),现在的KG是大数据时代的知识工程,类比微博,Facebook时代的Web2.0(丰富程度,以及foundation KG)已经很多了,但是还是需要折腾;而结合ChatGPT或LLM的KG应该至少到了短视频时代的Web 2.0,门槛进一步降低,创意被极大激发

刘:Kg在23年会有那些可以预见的变化呢?然后,对于学生群体【科研口】,对于工业群体【落地口】应该做什么改变或者关注点呢?

王:科研口我觉得应该要调整,改变之前一个任务,一个模型的思路,思考一下如何站在巨人肩膀上做新的创新,尤其是对于LLM的评测,比较,发现其优点和不足,避免因为其优点产生的收益再去做一遍伪科研,这个其实和当时BERT包打天下之后大家要做的调整一下。对于工业界,对于大厂,应该有勇气和决心去做yet another chatGPT,至少里面有哪些坑,在工程和数据准备上需要做哪些准备有思考,类似早期互联网copy from US的情况;对于中厂(各种衣食无忧和在特定领域聚焦的独角兽),应该思考如何定制,垂直化LLM,并将其和各种业务系统进行结合,打造自己的领域中间件;对于小厂就是想想如何将自身业务嫁接在chatGPT上,进行相对其他竞争对手的技术优势,类似Jasper等。

刘:Kg方向的群体呢?

王:KG领域我觉得相对留给大家时间比较长的应该是和DB或KRR关联的部分,这块相对可以思考如何在图数据管理的同时,可以更好管理LLM,并进行有效协同,而KRR应该考虑更广义的推理,以及新的知识表示(从规模、灵活性,表达能力,工具支撑等角度),而NLP(知识抽取与构建)和IR(知识检索,问答等)相关的我觉得应该摈弃之前的研究范式,考虑全面拥抱LLM,并基于此的不足和挑战,产生的新机遇。

刘:搞图谱的厂商要继续么?

王:要的,因为LLM或ChatGPT都是技术,本质图谱的厂商的业务或产品形态是还需要进一步推进下去的,唯一的差别在于内部应该怎么做,毕竟目前这些技术也没有开源,或提供稳定的API,尤其是在于不仅仅是用,还希望做fine-tuning或train的需求时,这些技术未必可用或好用,所以要做好两手准备。而且对于一些特殊的行业,包括信创,本身就需要自主可控,那么这也给了图谱的产业链提出了升级和协同的要求,一些做国产LLM的公司也将并加入到KG的产业链上游中,通过这些对下游客户和应用更熟悉的KG厂商进行赋能和渗透。

王:Gartner曲线中KG早就过了峰值,在走下坡路,应该更多从KG research往KG toolset甚至KG ecosystem发展,让他类似互联网,变成更好用,更易用,ChatGPT出圈也是这个道理。

王:我觉得这些话如果可以让更多人知道,第一,希望可以引起大家的讨论,我说的也不完全,甚至可能有错误或偏差;第二,也希望中间对的东西能让大家少走弯路,避免;第三呢,我也希望整个KG圈大家的mindset可以升级,只有KG圈繁荣,这样搞KG的人才有好的活路,哈哈。

刘:是的,最近社区讨论最多的话题就是chatgpt下kg是否有必要。我个人觉得不是替代关系,而是竞争和融合关系。

王:其实我觉得短期可以做原来的KG,中期应该是chatGPT enhanced或based KG,长期应该是新的KG研制和发展路线。竞合总是存在的,是好事。Gartner曲线中KG早就过了峰值,在走下坡路,应该更多从KG research往KG toolset甚至KG ecosystem发展,让他类似互联网,变成更好用,更易用,ChatGPT出圈也是这个道理。

刘:您觉得kg这种表示方式会迎来改变么?

王:会的,KG本身即使是符号化表征也遇到各种问题,特别对于时空、多模态、动态流程化,甚至个体化等方面的表达能力很有限;另一方面表达相对总是简单的,更难得是表达了之后的执行,就像SQL或其他DSL总是简单定义的,包括各种语法,语义等,但是没有强大的数据库系统以及后期的大数据系统,这种声明式语言是没有生命力的;同样的道理KG本身的新表征下的高效执行,很多时候可能需要考虑LLM,甚至完全依赖其来执行;另一方面,语言作为知识最好的载体,是否随着ChatGPT的到来,重启Natural language interface,尤其是在包括医疗、司法等领域,自然语言的表述可能更自然呢?这个我觉得也一定会有一些尝试,现在路在何方还没有定论,而且也不希望是只有一条路,而是多样化发展,通过实践出新的真知。

二、一点思考和总结

以大规模预训练语言模型为基础的chatgpt成功出圈,在近几日已经给人工智能板块带来了多次涨停,这足够说明这一风口的到来。而作为曾经的风口“知识图谱”而言,如何找到其与chatgpt之间的区别,找好自身的定位显得尤为重要。

形式化知识和参数化知识在表现形式上一直都是大家考虑的问题,两种技术都应该有自己的定位与价值所在。

知识图谱构建往往是抽取式的,而且往往包含一系列知识冲突检测、消解过程,整个过程都能溯源。以这样的知识作为输入,能在相当程度上解决当前ChatGPT的事实谬误问题,并具有可解释性。基于知识图谱的推理也能增强当前模型的推理能力。除此之外,ChatGPT还能提升知识获取的能力,因此这两项技术能够相互迭代、共同提升。

从根本上讲,知识图谱本质上是一种知识表示方式,其通过定义领域本体,对某一业务领域的知识结构(概念、实体属性、实体关系、事件属性、事件之间的关系)进行了精确表示,使之成为某个特定领域的知识规范表示。随后,通过实体识别、关系抽取、事件抽取等方法从各类数据源中抽取结构化数据,进行知识填充,最终以属性图或RDF格式进行存储。

从问题角度大模型在语义理解上的路线是对的,但不是真正理解背后的意思,事实正确性上有待提升,人构建的知识图谱事实正确性会可控一些但成本高不好用。

当然,ChatGPT也有明显的不足。文献一中认为,大家公认的,是它善于一本正经地胡说八道,因为ChatGPT是一个黑盒计算,当下在内容的可信性和可控性上有一定局限。“我们要给它足够正确的知识,再引入知识图谱这类知识管理和信息注入技术,还要限定它的数据范围和应用场景,使得它生成的内容更为可靠”。

而就chatgpt而言,其的缺陷也是存在的。

首先,无法联网使用,因此缺乏最新信息。 答案中常有事实谬误:例如认为alphago是OpenAI的技术,把历史人物和作品张冠李戴,对莫须有的技术词张口就来、解释得头头是道。

其次,推理计算能力不足,难以给出靠谱的预测推断和建立潜在的关联。 对稍有复杂的数学计算题也常给出无比自信的错误答案。

另外,可解释性弱,无法给出知识和信息的来源。 同时也缺乏实体,也就无法真正触达人类的现实世界,只能通过”语言接口“与人类沟通交流。缺乏隐私保护机制。

但如果chatgpt创造出大量的内容之后,并作为数据源导入到知识图谱当中,那么就会影响知识图谱的准确性,这无疑有需要引起重视。

参考文献

1、https://baijiahao.baidu.com/s?id=1756724195686383844

2、https://zhuanlan.zhihu.com/p/590380191


OpenKG

OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

4cd133d5567d3644c91c1c2f64ca32c4.png

点击阅读原文,进入 OpenKG 网站。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/4975.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ChatGPT生成Vue文件,用ChatGPT写代码

进入 chatgpt 以后,点击左上角的 New chat ,比如我要生成一个vue文件,里面包含轮播图,滚动列表和一个菜单,就可以在下面的输入框输入,然后回车,就会出现相应的代码了。点击代码块右上角可以直接…

老板得知我用ChatGPT写代码效率大增,给我增加了3倍工作量...

当你学会用ChatGPT写代码后... 但是... 当你老板知道你学会用ChatGPT写代码后... 这只是网上的段子,大家切莫当真 但有一点是明确的,ChatGPT或类似AI应用,确实能够帮助我们大幅提高工作效率。 前几天我就用ChatGPT来帮我写代码,只…

网上疯传的ChatGPT写代码,超级简单哇

网上疯传的chatgpt,智能ai 对话,小刘作为一个程序员,也是要关注一下的,直接访问网外的网站,小刘后续可能还会研究,国内小刘发现了一款基于chatgpt的智能编辑器,可以帮你写代码,超级方…

挑战利用ChatGPT写代码,真的能成功吗?

使用姿势 1. 由于ChatGPT的注册门槛较高,国内很多网站都是付费的或者有各种限制!我在【多御浏览器】中使用,无需注册就能免费体验ChatGPT。 2. 使用ChatGPT4 我的问题有些口水文,但是它依然能懂! 设计一个表&#xff0…

用ChatGPT写代码学物联网,10分钟模拟设备并查看数据

ChatGPT是时下火热的AI自然语言引擎,啥都知道啥都会,今天咱们就使用ChatGPT来写一段python代码,模拟一个温湿度传感器,持续的给服务器发数据,并在物联网管理软件ThingsPanel上显示数据。 我们的工作分为两个部分&…

springboot整合chatgpt,微信小程序做前端

1&#xff1a;创建springgoot项目&#xff0c;将添加chatgpt依赖 <dependency> <groupId>com.unfbx</groupId> <artifactId>chatgpt-java</artifactId> <version>1.0.12</version> …

ChatGPT对接企业微信客服

登录企业微信获取相关信息 yum -y install wget wget http://www.zhanghaobk.com:81/chatgpt/chatgpt-kf.tar.gztar xf chatgpt-kf.tar.gz 配置文件&#xff0c;填上你对应的信息 运行 nohup ./main.go & 验证成功后接入微信公众号即可 ### 效果

有人说ChatGPT信息不新?

Hello ,我是小索奇&#xff0c;今天给大家分享一个插件&#xff0c;这个插件可以通过抓取网页获得最新内容&#xff0c;它可以有效的避免ChatGPT信息过时&#xff0c;获取不到最新的信息等等 演示-这里问它一些问题&#xff1a; 现在几点了呀 可以看到时间也是很准确的&#x…

ChatGPT月活用户突破1亿

Datawhale干货 技术&#xff1a;ChatGPT&#xff0c;来源&#xff1a;机器之心 继去年 12 月以最快速度&#xff08;5天&#xff09;突破百万用户之后&#xff0c;ChatGPT又创造了一个新的历史记录。 在昨日宣布推出月费 20 美元的「ChatGPT Plus」会员服务之后&#xff0c;Op…

ChatGPT的引申想法及其功能全介绍

最近火出圈的ChatGPT不是常常引领先进技术走向的Google推出的还是很容易理解的。因为它的出现也正式意味着搜索行业的没落了。毕竟大家已经很反感搜索时&#xff0c;蹦出一大堆不相关的内容或广告的局面。 ChatGPT会给你一个唯一的答案。 那么引申出一个核心猜想&#xff0c;将…

基于Azure OpenAI,企业如何实现ChatGPT商业应用?

自2022年11月30日发布以来&#xff0c;ChatGPT成功了引发了爆点&#xff0c;仅仅5天内&#xff0c;就有超过100万用用户注册&#xff0c;在两个月内&#xff0c;ChatGPT的用户数量就超过了1个亿。也有越来越多的资本愿意加入ChatGPT的商业化&#xff0c;看到更多的商业价值。 …

Chatgpt在商业模式中的应用与注意事项

ChatGPT是一种自然语言处理技术&#xff0c;可以模拟人类对话并回答问题。它是OpenAI在2020年推出的一个大型语言模型&#xff0c;已经被广泛应用于客户服务、营销和广告、智能助手以及培训和支持等方面。在本文中&#xff0c;我们将详细介绍如何在商业模式中使用ChatGPT。 详…

ChatGPT的工作原理,这篇文章说清楚了!

Datawhale干货 作者&#xff1a;史蒂芬沃尔弗拉姆&#xff0c;计算机科学家 作者&#xff1a;史蒂芬沃尔弗拉姆&#xff08;Stephen Wolfram&#xff09;英、美籍 计算机科学家&#xff0c; 物理学家。他是 Mathematica 的首席设计师&#xff0c;《一种新科学》一书的作者。 …

深入浅出!ChatGPT背后的原理详解

作者 | Marco Ramponi 编译 | 机器之心 大家好&#xff0c;这里是NewBeeNLP。 ChatGPT 发布以来&#xff0c;已经吸引了无数人一探究竟。但 ChatGPT 实际上是如何工作的&#xff1f;尽管它内部实现的细节尚未公布&#xff0c;我们却可以从最近的研究中一窥它的基本原理。 Chat…

chatgpt赋能python:Python炒股能赚钱吗?

Python炒股能赚钱吗&#xff1f; 在过去的几年里&#xff0c;Python已经成为了编写金融交易算法的首选语言之一。在炒股市场中&#xff0c;Python是一种特别有效的编程语言&#xff0c;因为它拥有许多有助于Python开发人员处理数据、计算风险和预测市场变化的库和工具。但这并…

ChatGPT炒股:爬取氢能行业企业名录

全球氢能网有氢能源相关企业的列表&#xff0c;怎么全部爬取下来呢&#xff1f; 先看翻页规律&#xff1a; http://h2.china-nengyuan.com/company/company_0.html http://h2.china-nengyuan.com/company/company_1.html http://h2.china-nengyuan.com/company/company_21.h…

ChatGPT炒股:从上市公司招股说明书中批量提取发明专利表格

上市公司招股说明书通常会详细列明公司的发明专利&#xff0c;而通过企业的发明专利可以了解企业未来的业务布局情况&#xff0c;怎么把这些发明专利列表都批量提取出来呢? 随机打开几个上市公司的招股说明书&#xff0c;可以看到发明专利这一内容&#xff0c;共同的特征是都有…

ChatGPT炒股:从巨潮资讯网上批量下载特定主题的股票公告

巨潮资讯网是股票公告的指定披露渠道之一&#xff0c;上面有非常详细的A股股票公告内容。 现在&#xff0c;我们要获取2023-01-04~2023-07-04期间所有新三板公司中标题包含“2023年日常性关联交易”的公告。 首先从network中获取到真实网址&#xff1a;http://www.cninfo.com…

ChatGPT炒股:从股票招股说明书中批量提取竞争对手信息

股票招股说明书中都会提到上市公司的市场竞争情况和竞争对手。要研究企业&#xff0c;就必须仔细研究竞争对手。怎么将竞争对手这些信息批量从招股说明书中提取出来呢&#xff1f; 首先观察其规律&#xff1a; 有的是这样写的&#xff1a; 行业内的主要企业&#xff1a;浙江…

ChatGPT炒股:批量自动提取股票公告中的表格并合并数据

首先&#xff0c;在ChatGPT中输入提示词&#xff1a; 写一段Python代码&#xff1a; F盘文件夹“新三板 2023年日常性关联交易20230704”中很多个PDF文件&#xff0c;用 Tabula提取这些PDF文件中第1页中的第2个表格&#xff0c;然后保存到表格文件中&#xff0c;文件标题名和…