ChatGPT有用到知识图谱吗?| 文末送最新《知识图谱实战》书籍

文末留言点赞前五名送书,截止时间2023.4.2(本周日) 20:00

进NLP群—>加入NLP交流群(备注nips/emnlp/nlpcc进入对应投稿群)

从搜索引擎到个人助手,我们每天都在使用问答系统。问答系统必须能够访问相关的知识并进行推理。通常,知识可以隐式地编码在大型语言模型(LLMs)中,例如ChatGPT、T5 和LaMDA 等大型语言模型,这些模型在未结构化文本上进行预训练,或者显式地表示在知识图谱(KGs)中,例如OpenKG和ConceptNet,其中实体表示为节点,它们之间的关系表示为边。

最近,预训练的LLMs在许多问答任务中取得了显著的成功。该领域瞬息万变,算法的进步正在产生非常重大的影响。那不经产生疑问,目前备受关注的ChatGPT训练过程中有使用到知识图谱吗?ChatGPT在不同时间(2月份和3月份)给出了不同的答案:

d59825905a6b266cde40c20ca6f20dd9.png

图1 询问时间2023.02

956ecc15c6910ef9c6ee82bd0077889f.png

2 询问时间2023.03

那么,ChatGPT的成功是不是只是高概率语言模式的再现?为什么要使用知识图谱?简单来说仅靠数据驱动是不够的,但知识驱动的组织可以在充分的背景下做决定,并对他们的决策充满信心。

首先我们了解一下关于ChatGPT你应该知道的事。

01

大型语言模型

在过去几年中,大型语言模型 (LLM) 已经发展出惊人的生成人类语言的技能。如下图展示了流行的LLMs在人类认知能力方面的得分情况,

70643a6538a628e3fadc3626c01ada7c.png

LLMs在人类认知能力方面的得分情况(来源:自2021年以来对约40万个人工智能相关的在线文本进行语义分析)

语言模型使用文本生成解决问答任务。根据训练数据集,语言模型可以分为:(i)通用模型,例如PaLM,OPT和GPT-NeoX-20B;以及(ii)特定领域模型,例如Galactica,SciBERT和BioMegatron。更先进的对话型AI(Conversational AI)模型从最近的语言模型进展中受益,创造出能够在与用户对话中回答问题的聊天机器人。例如,基于OpenAI的聊天机器人ChatGPT 受到了大量的关注。GPT代表Generative Pretrained Transformer,是一种 AI 算法,可以基于摄取大量文本和数据并推导语言规则和关系来创建新内容。为响应输入而生成的文本可以非常微妙和富有创意,给人一种正在与人交谈的印象。与搜索引擎不同,它不是简单地检索信息,而是根据通过算法处理的大量数据导出的规则和关系生成信息。那ChatGPT的成功又得益于一系列技术和数据,下面展开介绍:

02

Transformer有什么用?为什么这么受欢迎?

Transformers被用于多种自然语言处理(NLP)任务,例如语言翻译、情感分析、文本摘要、问答等等。最初的Transformer模型是专门为语言翻译设计的,主要用于将英语翻译成德语。然而,已经发现该架构可以很好地适用于其他语言任务。这种趋势很快被研究社区所注意到。接下来的几年月里,几乎所有与语言相关的机器学习任务的排行榜都被Transformer架构的某个版本所主导。因此,Transformers非常受欢迎。Huggingface是一家初创公司,迄今已经筹集了超过6000万美元,几乎完全围绕商业化他们的开源Transformer库这一想法。

下面用三张图首先直观感受下Transformer家族模型的关系、时间线以及大小。第一张图旨在突出显示不同类型的Transformer及它们之间的关系。

c980dc2d3ba4689754b70ec1a8dc0a33.pngTransformer家族关系

第二张图时间线视图是一个有趣的角度,可以将目录中的Transformer按发布日期排序。在这个可视化中,Y轴仅用于聚类相关的家族Transformer。

7100e264ccbcbcd6afe1a14ad66dd334.pngTransformer家族时间线

在下一个可视化图中,Y轴表示模型大小,以百万参数为单位。

3b4746b79c5a47e00ed94bdd940a5566.pngTransformer家族模型大小

Transformers之所以能够迅速占领大多数自然语言处理排行榜的关键原因之一是它们具有快速适应其他任务的能力,也就是迁移学习。预训练的Transformer模型可以非常容易和快速地适应它们未被训练过的任务,这带来了巨大的优势。

03

Transformer取得成功的一个重要概念

Transformer取得成功的一方面是语言模型中的RLHF (Reinforcement Learning with Human Feedback,人类反馈强化学习)。RLHF已成为人工智能重要组成部分,这个概念早在2017年就已经在论文“Deep reinforcement learning from human preferences”中提出了。然而,最近它已经被应用于ChatGPT和类似的对话系统,如BlenderBot3或Sparrow。其思想非常简单:一旦一个语言模型被预训练,我们就可以生成不同的对话响应,并让人类对结果进行排名。

在ChatGPT训练过程中,OpenAI 从字面上让人类与自己进行角色扮演——通过称为人类反馈强化学习 (RLHF) 的过程既充当 AI 助手又充当其用户。然后,在构建了足够多的对话之后,它们被馈送到GPT-3.5。在充分接触对话之后,ChatGPT 应运而生。

a7694fe5684667f51b8a7ec821827bae.png

下面举例说明如何理解RLHF?

想象一下,您有一个名叫 Rufus 的机器人,它想学习如何像人一样说话。Rufus 有一个语言模型可以帮助他理解单词和句子。首先,Rufus 会使用他的语言模型说些什么。例如,他可能会说“I am a robot”。

然后,一个人会听 Rufus 说的话,并就这听起来是否像人类会说的自然句子给他反馈。人类可能会说,“这不太对,Rufus。人类通常不会说‘I am a robot’。他们可能会说‘I’m a robot’或‘I am a machine’。”

Rufus 将接受此反馈并使用它来更新他的语言模型。他将尝试使用他从人类那里收到的新信息再次说出这句话。人类会再次倾听并给 Rufus 更多反馈。这个过程将一直持续到 Rufus 可以说出人类听起来自然的句子为止。

随着时间的推移,Rufus 将学习如何像人一样说话,这要归功于他从人类那里收到的反馈。这就是使用 RL 和人类反馈来改进语言模型的方式。

9373de2d011e95e396319c730aa57740.png

04

训练数据

下面通过对比OpenAI的ChatGPT和谷歌的Bard来说明训练数据。ChatGPT和Bard 都有独特的训练风格。具体来说,ChatGPT 在 GPT-3.5 模型上运行,而Bard在LaMDA2上运行。我们可以将GPT-3.5视为 ChatGPT 的“大脑”,而 LaMDA2 则是Bard的。它们之间的主要共同点是它们都建立在Transformer之上。但据目前所知,这就是共同点结束的地方。

现在差异来了,主要是他们阅读的内容不同。OpenAI一直对 GPT-3.5 训练的数据集保密。但我们确实知道 GPT-2 和 GPT-3 都至少部分地在 The Pile数据集上进行了训练——一个包含多本完整小说和非小说书籍、来自 Github 的文本、所有维基百科、StackExchange、PubMed等。这个数据集非常庞大,原始文本超过825 GB。

但这就是问题所在:对话语言与书面语言不同。一个作者可能文字非常有激情,但在一对一的谈话中却显得生硬。因此,OpenAI不能仅仅以别名“ChatGPT”发布 GPT-3.5 就此收工。相反,OpenAI 需要在对话文本上微调 GPT-3.5 以创建 ChatGPT,以语言服务模型 InstructGPT 为基础。

这就是有些人可能认为Bard有优势的地方。LaMDA 没有接受过 The Pile 的训练。相反,LaMDA 从一开始就专注于阅读对话。它不读书,它以谈话的节奏和方言为模式。结果,Bard捕捉到了将开放式对话与其他交流形式区分开来的细节。

换句话说,ChatGPT的大脑在学会如何进行类似人类的对话之前,首先学会了阅读小说、研究论文、代码和维基百科,而Bard只学会了对话。

Typical chatbot(Bert)

GPT-3

LaMDA

在特定主题的数据集上

未标记的文本数据集

未标记的文本数据集

只从训练数据中提供答案

1750亿参数,基于维基百科、小说等数据

1370亿参数,基于对话数据,无主题

有限的对话流

有限的对话流

开放式对话

05

训练本地化ChatGPT需要哪些资源?

(1)训练硬件:使用拥有约 10,000 个 GPU 和约 285,000 个 CPU 内核的超级计算机。也可以像 OpenAI 对微软所做的那样,花费他们 10 亿美元 (USD) 来租用它。

(2)人员配备:2016 年,OpenAI 每年向首席科学家 Ilya Sutskever支付 190 万美元 (USD),他们拥有一支 120 人的团队。第一年的人员配置预算可能超过 2 亿美元。

(3)时间(数据收集):EleutherAI 花了整整 12-18 个月的时间来同意、收集、清理和准备 The Pile 的数据。

(4)时间(训练):预计一个模型需要 9-12 个月的训练,如果一切顺利的话。您可能需要多次运行它,并且可能需要并行训练多个模型。(参见 GPT-3 论文、中国的 GLM-130B 和 Meta AI 的 OPT-175B 日志)。

总结来说,需要相当强大的计算机和研发人力资源。

06

如何写一个提示(promot)?

在像ChatGPT 这样的大型语言模型 (LLM) 中,提示可以包含从简单的问题到带有各种数据的复杂问题 (请注意,您甚至可以将原始数据的 CSV 文件作为输入的一部分)。它也可以是一个模糊的陈述,比如“给我讲个笑话,我今天情绪低落。”

Promot可以由以下任一组成部分包括:Instructions、Question、Input data、Examples。基本的组合例子如下:

Instructions + Input data:我毕业于清华大学,职业是算法工程师,做过很多关于NLP的任务,可以帮忙写一个简历吗?

875cb02700c07d46543c1034dd5f000e.png

042b5d87b37e72215011b456681f773b.png

Question + Examples:我喜欢看《傲慢与偏见》,你还可以推荐类似的书籍吗?

305f54a1e366013338478e51275596e9.png

Instructions + Question:ChatGPT可以在哪些方面进行改进?

325a195863ce3a2943c0fccb85005842.png

将大型语言模型与知识图谱结合也是目前一个新的改进方向。通过将知识图谱集成到对话型人工智能系统中,ChatGPT可以利用图谱中表示的结构化数据和关系来提供更准确和全面的响应。知识图谱可以作为领域特定知识的来源,这些知识可以用来丰富ChatGPT的响应,并使其能够处理需要深入领域专业知识的复杂用户查询。

参考文献:

1.《Transformer models: an introduction and catalog》;

2.《ChatGPT versus Traditional Question Answering for Knowledge Graphs: Current Status and Future Directions Towards Knowledge Graph Chatbots》;

3. https://blog.deepgram.com/chatgpt-vs-bard-what-can-we-expect/。

本文作者:李雅洁  华中科技大学应用统计硕士,在知识图谱、自然语言处理、大数据分析与挖掘、机器学习等领域有丰富的研究和开发经验。精通Python、R语言以及Spark等大数据框架,擅长自然语言处理及知识图谱构建。《知识图谱实战:构建方法与行业应用》作者。

105786be0cae1ff9f10ff6177da0ac4f.jpeg

延伸阅读

《知识图谱实战:构建方法与行业应用》

于俊 李雅洁 彭加琪 程知远 著 

文末留言点赞前五名送书,截止时间2023.4.2(本周日) 20:00

推荐语:科大讯飞专家撰写,国内多位专家联袂推荐,一书掌握知识图谱的构建方法与主流应用!详解知识图谱构建7个核心步骤,剖析CCKS近年问答评测任务方案,拆解8个行业综合案例的设计与实现

内容简介:

这是一本综合介绍知识图谱构建与行业实践的著作,是作者多年从事知识图谱与认知智能应用落地经验的总结,得到了多位知识图谱资深专家的推荐。

本书以通俗易懂的方式来讲解知识图谱相关的知识,尤其对从零开始构建知识图谱过程中需要经历的步骤,以及每个步骤需要考虑的问题都给予较为详细的解释。

本书基于实际业务进行抽象,结合知识图谱的7个构建步骤,深入分析知识图谱技术应用以及8个行业综合案例的设计与实现。

全书分为基础篇、构建篇、实践篇,共16章内容。

基础篇(第1章),介绍知识图谱的定义、分类、发展阶段,以及构建方式、逻辑/技术架构、现状与应用场景等。

构建篇(第2~8章),详细介绍知识抽取、知识表示、知识融合、知识存储、知识建模、知识推理、知识评估与运维等知识图谱构建的核心步骤,并结合实例讲解应用方法。

实践篇(第9~16章),详细讲解知识图谱的综合应用,涵盖知识问答评测、知识图谱平台、智能搜索、图书推荐系统、开放领域知识问答、交通领域知识问答、汽车领域知识问答、金融领域推理决策

07

直播预告

AIGC拉开新AI时代的巨幕,NLP与ChatGPT的碰撞

ChatGPT如何与小模型联合发力?ChatGPT如何提效软件工程?

预约观看直播!直播间好书五折,更有福袋抽好礼~

3a51280f9e6e41981022ec1db0876347.jpeg

文末留言点赞前五名送书,截止时间2023.4.2(本周日) 20:00

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/28161.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ChatGPT的诞生

这就是为什么ChatGPT 不可能在中国出现的原因 自欺欺人在家里玩可以,但是 你只是这世界的1/6而已,不可能 欺骗其他5/6的人类 最后还是自己傻比了

51 种 AI 工具,生活、编程、内容创建都应该使用它

AI 正在席卷全球 🔥🔥🔥 它具有无限的潜力,并将改变我们的生活,让生活变得更美好。这项技术将迅速改进,您今天可以使用许多工具来提高您的工作效率,帮助您完成工作,为您提供有关许多…

SpringBoot+Vue+Uniapp搭建的Java版本的ChatGPT智能Ai对话系统

chatgpt-java-system 介绍 SpringBootVueUniapp搭建的Java版本的ChatGPT智能Ai对话系统,小程序和H5包含智能Ai对话、精美Ai壁纸、知识付费商城、积分、会员、分享等公功能;后端管理包括系统管理、智能对话、基本设置、系统监控、代码生成、壁纸管理和商…

chatgpt赋能python:Python解决找零问题--极简演示

Python解决找零问题 – 极简演示 在日常生活中,我们经常需要进行找零计算。如果使用笔和纸来手动计算,则会浪费很多时间和精力。但是Python作为一种高级编程语言,可以轻松地解决这个问题,省去人工计算的烦恼。 什么是Python找零…

九龙证券|远离资本市场噪音的四种方法

我们都知道人是自我完成的群体,自我完成便是便是有方案有目的辅导自己的行为,目标或预期在很大程度上决定着人们的取得感,就好像以下公式所表现的相同:取得感所得/预期,那么股市中的预期是什么?怎么进行预期…

Redis漏洞导致ChatGPT重大故障,OpenAI公布技术细节

因公众号更改推送规则,请点“在看”并加“星标”第一时间获取精彩技术分享 点击关注#互联网架构师公众号,领取架构师全套资料 都在这里 0、2T架构师学习资料干货分 上一篇:ChatGPT研究框架(80页PPT,附下载)…

ChatGPT4 给出数据库开发者最容易犯的10个错误和解决方案

昨天 ChatGPT4 刚刚发布,迫不及待体验了一把。 ChatGPT 4 目前是付费使用,使用次数也有限制,门槛更高,API 调用费用是ChatGPT 3.5 的15倍,官网网站也经常登录不上。 我让 ChatGPT4 列举出【数据库开发者最容易犯的10个…

小白学习chatgpt

很明显,chatgpt的能力超出了人们过往对人工智能的认知,在使用过程中他的能力让我吃惊,而且具有通用性(AGI),这一点在以往的人工智能中表现得比较少,具体在GPT-4的早期实验报告中有更多的说明。可…

解密Prompt系列8. 无需训练让LLM支持超长输入:知识库 unlimiformer PCW NBCE

这一章我们聊聊有哪些方案可以不用微调直接让大模型支持超长文本输入,注意这里主要针对无限输入场景。之前在BERT系列中我们就介绍过稀疏注意力和片段递归的一些长文本建模方案长文本建模 BigBird & Longformer & Reformer & Performer,不过…

3DTrans: 首个支持自动驾驶室外点云迁移学习的代码库

本文将为大家介绍上海人工智能实验室交通平台组ADLab的3DTrans代码库–首个自动驾驶室外3D点云迁移学习的代码库。此外3DTrans代码库还是Uni3D(CVPR-2023)和Bi3D(CVPR-2023)的官方实现代码库。 Code Link: https://github.com/PJ…

文心一言 VS chatgpt (21)-- h264编码一帧数据的流程是怎样的?

h264编码一帧数据的流程是怎样的? 文心一言: H.264编码将一帧数据分成多个块,其中每个块可以单独进行编码。编码的过程包括预测、变换和量化等步骤。 具体流程如下: 1.帧内预测:对一帧视频进行编码,首先…

chatgpt赋能python:用Python计算AIC:一种常用的信息标准

用Python计算AIC:一种常用的信息标准 介绍 AIC(赤池信息准则)是一种用于模型选择的信息理论标准,旨在平衡模型复杂度和拟合准确度的权衡。在统计学和机器学习中,模型选择是一项关键任务,因为正确选择模型…

chatgpt赋能python:Python中如何产生0到1包括1的随机数

Python中如何产生0到1包括1的随机数 Python作为一种高级编程语言,被广泛运用于各种程序开发领域,尤其得到了数据科学、数据分析和机器学习领域的青睐。在Python中,实现随机数的生成是很平凡的,下面我将会给大家介绍如何使用Pytho…

chatgpt赋能python:Python的UUID是什么?

Python的UUID是什么? Python的UUID是一种广泛使用的标识符生成器,全称是“通用唯一标识符”。UUID可以帮助你在使用Python编程时生成唯一的ID。无论你在哪个项目中使用Python,UUID都会非常有用。 使用Python编程的开发者一定会碰到需要生成…

股价狂跌超70%,特斯拉到底怎么了?

​在2022年的尾声,曾在新能源汽车领域盛极一时的特斯拉即将取得上市以来最糟糕的年度表现,直接跌出全球上公司市值前10名。目前特斯拉已连续第7个交易日下跌,截至2022年12月28日,跌超11%,创八个月最大跌幅,…

如何查询外文文献?

作为专业的科研人,不具备搜索外文文献的技能怎么能行呢?!今天,我就为大家汇集了各类的外文文献下载途径,内容干货满满,还不快快收藏!一、EBSCOhost 网址:http://search.ebscohost.co…

基于深度学习的人脸面部表情识别方法研究

开发工具(eclipse/idea/vscode等):python tensorflow keras 数据库(sqlite/mysql/sqlserver等): 功能模块(请用文字描述,至少200字):以python为变成语言,使用pycharm进行开发。使用深度学习框架TensorFlow和keras。了准…

基于Python的人脸表情管理系统

人脸表情识别是深度学习领域的研究热点。在现实场景中,人脸图像的采集很容易受到外界不可控因素的影响,使表情图像出现轻微形变和局部位移的问题,导致表情识别率下降,难以满足实际需求。因此本设计针对静态人脸表情进行识别分类&a…

基于Python的面部表情识别分析系统

资源下载地址:https://download.csdn.net/download/sheziqiong/85660758 面部表情识别 练习技能: 爬虫数据清洗计算机视觉(图片基本处理,信息提取)深度学习 图像识别技术文档 一、项目概述 项目名称:面部…

【人脸表情识别】基于图片的人脸表情识别,基本概念和数据集

大家好,欢迎来到我们人脸表情识别的专栏,这是专栏的第一篇文章,今天我们讨论的问题是关于表情识别的基本概念和数据集。 作者&编辑 | Menpinland 在较早之前,有三AI已经有一篇《人脸表情识别研究》的文章,里面已经…