你知道ChatGPT中的数据模型是什么吗?

本文将为你揭开ChatGPT和GPT-4中使用的以数据为中心的人工智能技术的秘密。
在这里插入图片描述
人工智能在改变我们的生活、工作和与技术互动的方式方面取得了令人难以置信的进步。最近,一个取得重大进展的领域是大型语言模型(LLM)的开发,如​​GPT-3​​、​​ChatGPT​​和​​GPT-4​​。这些模型能够以令人印象深刻的准确性执行语言完成翻译、文本摘要和问答等任务。

虽然很难忽视大型语言模型不断增加的模型规模,但同样重要的是要认识到,它们的成功很大程度上归功于用于训练它们的大量高质量数据。​

在本文中,我们将从以数据为中心的人工智能角度概述大型语言模型的最新进展,参考我们最近的调查论文(末尾文献1与2)中的观点以及GitHub上的相应​​技术资源​​。特别是,我们将通过以数据为中心的​​人工智能​​的视角仔细研究GPT模型,这是数据科学界日益增长的一种观点。我们将通过讨论三个以数据为中心的人工智能目标——训练数据开发、推理数据开发和数据维护,来揭示GPT模型背后以数据为核心的​​人工智能概念​​。

大型语言模型与GPT模型​

LLM(大型语言模型)是一种自然语言处理模型,经过训练可以在上下文中推断单词。例如,LLM最基本的功能是在给定上下文的情况下预测丢失的令牌。为了做到这一点,LLM被训练来从海量数据中预测每个候选令牌的概率。
在这里插入图片描述
GPT模型是指OpenAI创建的一系列大型语言模型,如​​GPT-1​​、​​GPT-2​​、​​GPT-3​​、​​InstructGPT​​和​​ChatGPT/GPT-4​​。与其他大型语言模型一样,GPT模型的架构在很大程度上基于转换器(Transformer),它使用文本和位置嵌入作为输入,并使用注意力层来建模令牌间的关系。
在这里插入图片描述
后来的GPT模型使用了与GPT-1类似的架构,只是使用了更多的模型参数,具有更多的层、更大的上下文长度、隐藏层大小等。
在这里插入图片描述

什么是以数据为中心的人工智能?


以数据为中心的人工智能是一种新兴的思考如何构建人工智能系统的新方式。人工智能先驱吴恩达(Andrew Ng)一直在倡导这一理念。​

以数据为中心的人工智能是对用于构建人工智能系统的数据进行系统化工程的学科。——吴恩达

过去,我们主要专注于在数据基本不变的情况下创建更好的模型(以模型为中心的人工智能)。然而,这种方法可能会在现实世界中导致问题,因为它没有考虑数据中可能出现的不同问题,例如不准确的标签、重复和偏置。因此,“过度拟合”一个数据集可能不一定会导致更好的模型行为。​

相比之下,以数据为中心的人工智能专注于提高用于构建人工智能系统的数据的质量和数量。这意味着,注意力将集中在数据本身,而模型相对来说更固定。以数据为中心的方法开发人工智能系统在现实世界中具有更大的潜力,因为用于训练的数据最终决定了模型的最大能力。​

值得注意的是,“以数据为中心”与“数据驱动”有根本不同,因为后者只强调使用数据来指导人工智能开发,而人工智能开发通常仍以开发模型而非工程数据为中心。​
在这里插入图片描述

总体来看,以数据为中心的人工智能框架由三个目标组成:​

1.训练数据开发是收集和产生丰富、高质量的数据,以支持机器学习模型的训练。​
2.推理数据开发是为了创建新的评估集,这些评估集可以为模型提供更精细的见解,或者通过工程数据输入触发模型的特定能力。​
3.数据维护是为了确保数据在动态环境中的质量和可靠性。数据维护至关重要,因为现实世界中的数据不是一次性创建的,而是需要持续维护的。

为什么以数据为中心的人工智能使GPT模型如此成功?​

几个月前,人工智能界大佬Yann LeCun在其推特上表示,ChatGPT并不是什么新鲜事。事实上,在ChatGPT和GPT-4中使用的所有技术(Transformer和从人类反馈中强化学习等)都不是新技术。然而,他们确实取得了以前的模型无法取得的令人难以置信的成绩。那么,他们成功的动力是什么呢?
在这里插入图片描述
首先,加强训练数据开发。通过更好的数据收集、数据标记和数据准备策略,用于训练GPT模型的数据的数量和质量显著提高。​

GPT-1:​​BooksCorpus数据集​​用于训练。该数据集包含4629MB的原始文本,涵盖了冒险、幻想和浪漫等一系列流派的书籍。
没有使用以数据为中心的人工智能策略。​
训练结果:在该数据集上应用GPT-1可以通过微调来提高下游任务的性能。​

采用了以数据为中心的人工智能策略:

(1)仅使用Reddit的出站链接来控制/过滤数据,该链接至少收到3个结果;
(2)使用工具Dragnet和Newspaper提取“干净”的内容;
(3)采用重复数据消除和其他一些基于启发式的净化方法(论文中没有提到细节)。​
训练结果:净化后得到40GB的文本。GPT-2无需微调即可实现强大的零样本结果。​

使用了以数据为中心的人工智能策略:

(1)训练分类器,根据每个文档与WebText的相似性筛选出低质量文档,WebText是高质量文档的代理。
(2)使用Spark的MinHashLSH对文档进行模糊的重复数据消除。
(3)使用WebText、图书语料库和维基百科来增强数据。​
训练结果:从45TB的明文中过滤得到570GB的文本(在本次质量过滤中仅选择1.27%的数据)。在零样本设置中,GPT-3显著优于GPT-2。​

使用了以数据为中心的人工智能策略:

(1)使用人工提供的提示答案,通过监督训练调整模型。
(2)收集比较数据以训练奖励模型,然后使用该奖励模型通过来自人类反馈的强化学习(RLHF)来调整GPT-3。​
训练结果:InstructGPT显示出更好的真实性和更少的偏差,即更好的一致性。​
GPT-2:使用​​WebText​​来进行训练。这是OpenAI中的一个内部数据集,通过从Reddit中抓取出站链接创建。
GPT-3:GPT-3的训练主要基于​​Common Crawl工具​​。
InstructGPT:让人类评估调整GPT-3的答案,使其能够更好地符合人类的期望。他们为注释器设计了测试,只有那些能够通过测试的人才有资格进行注释。此外,他们甚至还设计了一项调查,以确保注释者喜欢注释过程。​
ChatGPT/GPT-4:OpenAI未披露详细信息。但众所周知,ChatGPT/GPT-4在很大程度上遵循了以前GPT模型的设计,它们仍然使用RLHF来调整模型(可能有更多、更高质量的数据/标签)。人们普遍认为,随着模型权重的增加,GPT-4使用了更大的数据集。​
其次,进行推理数据开发。由于最近的GPT模型已经足够强大,我们可以通过在固定模型的情况下调整提示(或调整推理数据)来实现各种目标。例如,我们可以通过提供摘要的文本以及“summarize it”或“TL;DR”等指令来进行文本摘要,以指导推理过程。​
在这里插入图片描述
设计正确的推理提示是一项具有挑战性的任务。它在很大程度上依赖于启发式技术。一项很好的调查总结了目前为止人们使用的不同的提示方法。有时,即使在语义上相似的提示也可能具有非常不同的输出。在这种情况下,可能需要基于软提示的校准来减少差异。​
在这里插入图片描述
大型语言模型推理数据开发的研究仍处于早期阶段。在不久的将来,已经在其他任务中使用的更多推理数据开发技术可能会应用于大型语言模型领域。​

就数据维护方面来说,ChatGPT/GPT-4作为一种商业产品,并不仅仅是训练一次成功的,而是需要不断更新和维护。显然,我们不知道数据维护是如何在OpenAI之外执行的。因此,我们讨论了一些以数据为中心的通用人工智能策略,这些策略很可能已用于或将用于GPT模型:​

持续数据收集:当我们使用ChatGPT/GPT-4时,我们的提示/反馈反过来可以被OpenAI用来进一步推进他们的模型。可能已经设计和实施了质量指标和保证策略,以便在此过程中收集高质量的数据。​
数据理解工具:有可能已经开发出各种工具来可视化和理解用户数据,促进更好地理解用户的需求,并指导未来的改进方向。​
高效的数据处理:随着ChatGPT/GPT-4用户数量的快速增长,需要一个高效的数据管理系统来实现快速的数据采集。

数据科学界能从这一波大型语言模型中学到什么?

大型语言模型的成功彻底改变了人工智能。展望未来,大型语言模型可能会进一步彻底改变数据科学的生命周期。为此,我们做出两个预测:​

以数据为中心的人工智能变得更加重要。经过多年的研究,模型设计已经非常成熟,尤其是在Transformer之后。工程数据成为未来改进人工智能系统的关键(或可能是唯一)方法。此外,当模型变得足够强大时,我们不需要在日常工作中训练模型。相反,我们只需要设计适当的推理数据(即时工程)来从模型中探索知识。因此,以数据为中心的人工智能的研发将推动未来的进步。​
大型语言模型将实现更好的以数据为中心的人工智能解决方案。在大型语言模型的帮助下,许多乏味的数据科学工作可以更有效地进行。例如,ChaGPT/GPT-4已经可以编写可操作的代码来处理和清理数据。此外,大型语言模型甚至可以用于创建用于训练的数据。例如,最近的工作表明,使用大型语言模型生成合成数据可以提高临床文本挖掘中的模型性能。
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/5428.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【关于ChatGPT的30个问题】23、ChatGPT的模型大小是多少?/ By 禅与计算机程序设计艺术

23、ChatGPT的模型大小是多少? 目录 23、ChatGPT的模型大小是多少? ChatGPT的模型大小

2023 网页chatgpt 最新模型 可自定义api

最新网页版chatgpt 支持自定义api 国内服务器,虚拟主机都支持搭建 chatgpt 最新模型 自定义api入口:域名/adminkey.php 直接把源码放到根目录即可运行

反代出现502 Bad Gateway问题解决(反代ChatGPT API接口)

反代出现502 Bad Gateway问题解决(反代ChatGPT API接口) 1.前面写了一个教程《宝塔反代教程,ChatGPT网站系统实现国内服务器访问openai官网接口(使用宝塔反代openai官方的API接口教程)》 但是可能会显示502 Bad Gateway 主要原因是SSL证书的…

ChatGPT 使用 拓展资料:吴恩达大咖 Building Systems with the ChatGPT API 输出检查

ChatGPT 使用 拓展资料:吴恩达大咖 Building Systems with the ChatGPT API 输出检查 在本视频中,将重点检查系统生成的输出。在向用户展示输出之前检查输出对于确保质量非常重要,提供给他们的响应的相关性和安全性,或者使用自动化或学习如何使用Moderation API。 Moderati…

Chatgpt,ThinkPHP6使用openai api示例

TP6自行安装,本文只介绍openai api接口 *国内服务器必须配置代理才能访问成功. 1.composer安装open-ai composer require orhanerday/open-ai 2.命名空间引入 use Orhanerday\OpenAi\OpenAi; 3.请求接口 OPENAI_API_KEY申请地址 $question $this->request-&…

如何实现基于ChatGPT API的C#接入?

今年开年,最火的莫过于ChatGPT的相关讨论,这个提供了非常强大的AI处理,并且整个平台也提供了很多对应的API进行接入的处理,使得我们可以在各种程序上无缝接入AI的后端处理,从而实现智能AI的各种应用。ChatGPT的API可以…

2023AIGC/ChatGPT保险行业应用白皮书

《白皮书》详细拆解了AIGC技术在保险业未来可应用的33个具体的落地环节。其中,在产品营销过程中,AIGC技术可以快速生成制作文案内容、视觉设计等各类营销素材,从原本需要3天的制作周期缩短到仅需3小时。在客户服务环节,AIGC技术可…

浅谈ChatGPT的关键技术与落地发展

分享嘉宾 | 刘焕勇 文稿整理 | William 1、从大规模语言模型看ChatGPT的起源与本质 ChatGPT可以拆开分为Chat和GPT去理解,前一个表示一种应用形式,后一个是生成式的模型。在百度百科里面定义为ChatGPT是人工智能技术驱动的自然语言处理工具&#xff0c…

ChatGPT落地场景探索-数据库与大模型

目录 openGauss介绍 openGauss介绍 数据库与大模型 openGauss介绍 大模型与数据库 大模型为数据库带来的机遇 大模型解决数据库问题的挑战 数据库为大模型带来的价值 大模型大模型的发展趋势 趋势产品:Chat2DB 简介 特性 生产应用:基…

ChatGPT 火了,一大批开源平替也来了

ChatGPT 凭一己之力让全球为 AI 沸腾,引发了科技巨头之间的聊天机器人军备竞赛。 众所周知,ChatGPT 的背后技术是 GPT(Generative Pre-trained Transformer)模型。GPT 是一种基于 Transformer 模型的自然语言处理模型,由 OpenAI 公司开发。它…

【关于ChatGPT的30个问题】27、ChatGPT何时开源?/ By 禅与计算机程序设计艺术

27、ChatGPT何时开源? 目录 27、ChatGPT何时开源? ChatGPT开源:自然语言处理领域的重大突破 1. 什么是ChatGP

最希望ChatGPT开源,一半开发者参与过开源贡献,63%的人在用爱发电|中国开源开发者现状...

作者 | 何苗 出品 | CSDN(ID:CSDNnews) 2022年是中国开源发展极速狂飙的一年。中国开源在加速拥抱全球化的同时,也逐渐成为全球开源软件的主要使用者和核心贡献者。AIGC、ChatGPT 的出现将 AI 发展推向新高潮,也引…

标书可以由谁来写?

在招投标中,写标书是一项非常重要的工作。在公司,会有专门的部门人员来编制标书,但是对于那些中小企业来说,可能一年也就投个几次标,如果专门成立一个部门的话,资金人力耗费过大,那么&#xff0…

标书怎么写?

制作标书 一般标书的结构分为: (1)商务部分;(2)技术部分;(3)报价部分 (但招标文件特殊要求格式除外) 商务部分: 一般包括投标人说明…

超快速,使用ChatGPT编写回归和分类算法

本文将使用一些 ChatGPT 提示,这些提示对于数据科学家在工作时非常重要。 微信搜索关注《Python学研大本营》,加入读者群,分享更多精彩 以下是一些示例ChatGPT 提示的列表以及数据科学家的响应。 ChatGPT 提示 为决策树回归算法生成 python…

114个ChatGPT全网最热话题

前言 当你使用ChatGPT时,你可能有很多问题需要回答。ChatGPT是一个非常强大的自然语言处理工具,可以用于许多不同的任务,包括聊天机器人、智能客服、文本生成和语言翻译等。 在这篇博客中,我将介绍一些关于如何问ChatGPT的技巧和…

复旦发布中国版ChatGPT:MOSS开启测试冲上热搜,服务器挤爆

不知道这个人工智能,有没有获得完整的一生。 ChatGPT 是最先进的 AI,也是最热门的应用 —— 自去年 11 月底发布以来,它的月活跃用户两个月超过一亿,轻松拿到了全球互联网史上用户增长速度的第一。 它也是一种门槛很高的技术。由于…

企业级 Azure OpenAI ChatGPT 服务发布(国际预览版)

(本文翻译自微软全球技术博客) 今天,我们很高兴地宣布,基于 Microsoft Azure 的企业级 Azure OpenAI ChatGPT 服务发布(国际预览版)。借助 Azure OpenAI 独家服务,Azure 用户可以使用全球业界领…

ChatGPT AI使用成本

LLM “经济学”:ChatGPT 与开源模型,二者之间有哪些优劣权衡?谁的部署成本更低? 太长不看版:对于日均请求在 1000 次左右的低频使用场景,ChatGPT 的实现成本低于部署在 AWS 上的开源大模型。但面对每天数以…

告别手忙脚乱!用ChatGPT搞定论文,轻松成为学术圈“状元”!

哎呀!难道你还在为论文苦恼、熬夜刷论文,困得连眼睛都睁不开?别怕!我们的大救星——ChatGPT已经来了!听说它能帮你快速写出高质量的论文,并最终狂虐学术圈对手,并让你成为同行大佬们羡慕的对象。…