chatGPT(Generative pretrained transformer )
ChatGPT是人工智能技术驱动的自然语言处理工具,它能够通过理解和学习人类的语言来进行对话,还能根据聊天的上下文进行互动,真正像人类一样来聊天交流,甚至能完成撰写邮件、视频脚本、文案、翻译、代码,写论文等任务。
ChatGPT的成功离不开多类技术的积累,其中最为核心的是RLHF,此外还有SFT、IFT、CoT这些技术:
Reinforcement Learning from Human Feedback (RLHF) RLHF方法是一种基于人类偏好的强化学习方法。它通过利用人们对对话代理回答的评价来改进对话代理的回答。RLHF方法可以根据人们的喜好对对话代理的回答进行排序,例如通过考虑人们喜欢的内容来选择文本摘要。这些评价的回答用来训练一个喜好模型,该模型将告诉强化学习系统如何评价回答的好坏。最后,通过强化学习训练对话代理来模拟这个喜好模型。整个训练过程包括对GPT-3进行监督微调,然后训练奖励模型,最后通过强化学习优化 SFT(监督下的微调模型)(第二步和第三步可以多次迭代循环)。SFT是(Supervised Fine-Tuning 模型)是一种预先训练的语言模型,经过对少量标签者提供的演示数据的细微调整,以学习一个监督策略(即 SFT 模型),可从选定的提示列表生成输出。
ChatGPT采用基于指令微调 (Instruction Fine-Tuning,IFT)的技术来模拟人类的聊天行为。IFT是一种能够追踪、学习和复述聊天会话历史的技术,并将其应用于在实时会话中对自然语言进行建模和推断。该方法除了使用情感分析、文本分类、摘要等经典 NLP 任务来微调模型外,还在非常多样化的任务集上向基础模型示范各种书面指令及其输出,从而实现对基础模型的微调。由此,ChatGPT能够发挥较大的自由度,提供更多样化的自然回复,玩家们可以与机器人无缝对话,体验自然聊天的乐趣。IFT还能够帮助ChatGPT进行语法检查,避免出现重复或无意义的语句,从而提升会话体验。
Chain-of-thought (CoT) 技术提示最早由谷歌在2022年1月提出来,是few-shot prompting (也被成为In Context Learning, ICL)的一种独特情形,它的目的是使大型语言模型能够更好地理解人类的语言请求。它通过在对话过程中不断提供上下文信息,来帮助模型理解语言请求的内容。这种技术可以使模型更准确地回答问题,并且可以帮助模型在处理复杂的对话任务时变得更加灵活。总的来说,CoT技术是为了改善大型语言模型的语言处理能力,使其能更好地理解人类语言请求。
根据OpenAI官方的文档,ChatGPT的构建大致包括如下三个步骤:
1)搜集对话数据,训练有监督的微调模型。人类标注员选择提示词并写下期望的输出回答,然后利用这些数据对一个预训练的语言模型进行微调,从而学习到一个有监督的微调模型(即SFT模型)。
2)搜集用于对比的数据,训练一个奖励模型(Reward Model)。这一步是为了模仿人类的偏好。标注员对SFT模型的大量输出进行投票,从而创建一个包含比较数据的新数据集。然后在此数据集上训练一个新模型,称为奖励模型(RM)。
3)搜集说明数据,使用PPO(Proximal Policy Optimization, 近端优化策略)强化学习来优化策略。利用奖励模型进一步微调并改进SFT模型,最终得到优化完毕的SFT模型。
-
chatGPT-3.5-Turbo
在海量训练参数基础上加入人工标注与强化学习
-随着机器学习算法的不断进步以及海量数据的可用性,自然语言处理(NLP)领域取得了巨大的进展。其中,GPT-3.5-Turbo是一种代表着重大突破的NLP模型。作为生成式语言模型,GPT-3可以根据上下文预测给定句子中的下一个单词,进而生成类似人类的文本。-GPT-3.5-Turbo还提供了开放API,这意味着任何人都可以使用它进行各种自然语言处理任务。这一功能为研究人员、开发人员和企业提供了巨大的灵活性和创新空间。通过利用GPT-3.5-Turbo,用户可以快速地构建自己的自然语言处理应用程序,并且不需要担心底层的复杂技术细节。
-GPT-3.5-Turbo还具有一个独特的优势,即它可以自我学习、自我改进。这意味着随着时间的推移,它可以通过不断地接收新的数据和信息来增强自己的表现。这种能力被称为“元学习”,是近年来NLP领域研究的热点之一。使用元学习方法,GPT-3.5-Turbo可以在没有人类干预的情况下进行自我优化,从而提高其性能和效率。
-
应用场景:
- 自然语言生成:GPT-3.5-Turbo可以在各种文本生成任务中表现非常出色。例如,在写作、电子邮件自动化、广告和营销文案等领域中,它能够生成高质量的文本。
- 文本摘要:GPT-3.5-Turbo能够通过分析大量的文本,生成简洁的摘要内容。这使得它在新闻报道、研究文章等领域中具有非常实用的应用价值。
- 机器翻译:GPT-3.5-Turbo还可以对文本进行快速而准确的翻译。它已经被广泛地应用于多种语言之间的翻译任务中。
- 问答系统:由于其强大的语言理解能力,GPT-3.5-Turbo可以用于构建智能问答系统。这种系统可以帮助人们更快地获取信息,并为客户提供更好的服务体验。
- 智能客服:GPT-3.5-Turbo可以帮助企业构建智能客服系统,自动回答用户的问题并解决他们的问题。这种系统可以显著提高客户满意度,并减少公司的运营成本。
- 情感分析:GPT-3.5-Turbo可以对文本进行情感分析,并判断其中的情感倾向。这种技术可以应用于市场调查、社交媒体分析等领域中。
- 自然语言推理:GPT-3.5-Turbo可以进行自然语言推理,即从给定的前提条件中推导出结论。这种技术可以应用于逻辑推理、知识图谱等领域中。
-
应用前景:
-
随着技术的不断进步和数据的不断增加,例如通过改进元学习算法、提高参数效率等方式,可以让模型更加智能化、快速化。
-
GPT-3.5-Turbo还可以应用于更多的领域。例如,在医疗保健、金融服务、人力资源等领域中,GPT-3.5-Turbo可以帮助企业更好地管理和分析大量的文本数据,并从中发现有价值的信息。
-
GPT-3.5-Turbo可以被集成到其他系统中,例如虚拟助手、机器人等。这使得人工智能技术可以与物理世界更紧密地结合起来,为人们提供更加智能化的服务。
-
GPT-3.5-Turbo可以在教育和科学研究领域中发挥重要作用。例如,它可以帮助学生更好地理解课程内容,或者协助科学家处理和分析大量的文献资料。
-
智能机器人
在2C场景中,智能机器人基于NLP的人机交互能力是产品发展的刚需。其中人形机器人在现实场景中与人对话,对流畅的语言交互能力更加依赖。只有机器人能够理解人类指令并做出准确合理的需求响应,才能推动人形机器人完成后续的各项任务,因此NLP技术水平直接影响着人形机器人的技术发展与产品落地。
然而NLP模型的构建与训练需要花费大量时间、精力以及算力,持续优化NLP模式所需的算法、算力、算据都较为庞大,对于专注于实体机器人领域的技术来说,在保证人形机器人的各项软硬件技术发展前提下投入大量成本进行NLP模型的迭代并不现实。而ChatGPT的出现,进一步提升了NLP技术前沿,若接入人形机器人应用后,有望为人形机器人的2C场景提供更加仿真的人机互动,加速人形机器人的产品落地。
此外,虚拟空间中的智能机器人也能够依靠更为前沿的NLP技术增进其与用户的聊天体验,如游戏NPC、虚拟智能主播等,从而以此为基点探索新的用户交互服务。
-
-
chatGPT-4:
-
GPT-4是一个多模态大型语言模型,使用了1.5万亿个参数,比GPT-3.5增加了10倍,也是目前世界上最大的人工智能模型,这一版本的 GPT 已经趋近于AGI(人工智能通用智能),为我们带来了更深层次的 AI 体验。OpenAI 已经预测,GPT-4 将是一个具有普适性的 AI 系统,可以在各种任务和环境中进行学习和应用,从而实现人工智能的通用智能。这将是一个非常重要的里程碑,因为它将为我们带来更多的 AI 应用场景,如自动驾驶、智能家居、医疗诊断和机器人等。
-
这将需要更加复杂和庞大的计算资源,才能训练出一个具有通用智能的 AI 系统。需要更多的数据和算法支持,以确保 GPT-4 可以在各种任务和环境中发挥作用。安全性和隐私保护也是一个重要的问题,需要更加严格的安全和隐私保护机制来确保 GPT-4 的使用安全和可靠。
-
GPT-4可以接受文本、图像、音频等多种输入,并生成相应的输出。这意味着GPT-4可以处理更复杂和丰富的信息,也可以提供更多样化和有用的服务。比如,GPT-4可以根据图片生成字幕、描述、故事等,也可以根据文本生成图片、音频等。
-
智能程度更高,GPT-4在各种专业和学术的考试中都取得了令人惊叹的成绩,展现了接近人类水平的智能水平。比如,在美国BAR律师执照统考中,GPT3.5可以达到10%水平分位,GPT4可以达到90%水平分位。在生物奥林匹克竞赛中,GPT-4以99%的水平分位获得了金牌,而GPT-3.5只有31%。
-
更强大的创造力和适应力,GPT-4具有强大的创造力,它可以根据不同的主题、风格、语言等生成各种类型的文本,比如歌曲、剧本、小说等。它还可以学习用户的写作风格,并根据用户的反馈进行调整和优化。GPT-4还具有强大的适应力,它可以根据不同的场景和目标进行微调和定制,满足不同用户和领域的需求。比如一位昵称@ammaar的推特用户对Javascript一窍不通,但ChatGPT-4帮助下不到20分钟就作出了一款非常经典的贪吃蛇游戏。而对于比较熟练的程序员@skirano来说,甚至还不到一分钟就能做出一个完整的乒乓球游戏。
-
-
文心一言
百度文心一言定位于人工智能基座型的赋能平台,将助力金融、能源、媒体、政务等千行百业的智能化变革,最终“革新生产力工具”。
文心一言有五大能力,文学创作、商业文案创作、数理逻辑推算、中文理解、多模态生成。 -
通义千问
通义千问,是阿里云推出的一个超大规模的语言模型,功能包括多轮对话、文案创作、逻辑推理、多模态理解、多语言支持。能够跟人类进行多轮的交互,也融入了多模态的知识理解,且有文案创作能力,能够续写小说,编写邮件等。 -
生成模型
先给生成模型下一个宽泛的定义:生成模型可以描述成一个生成数据的模型,属于一种概率模型。通过这个模型我们可以生成不包含在训练数据集中的新的数据。比如我们有很多马的图片通过生成模型学习这些马的图像,从中学习到马的样子,生成模型就可以生成看起来很真实的马的图像并却这个图像是不属于训练图像的。训练集中的每张图片就是一个(Observation)观测,每个观测有很多我们需要生成图像所要包含的特征。这些特征往往就是一些像素值。我们的目标就是让这个生成模型生成新的特征集合,这些新生成的特征集合仿佛就是和原数据集的特征集合一样。可想而知这个生成模型完成的工作时相当复杂的,它要从每个像素的庞大的可选空间选出可用的值是多么不容易的事情。
概率生成模型,是概率统计和机器学习中的一类重要模型,指一系列用于随机生成可观测数据的模型 。生成模型的应用十分广泛,可以用来不同的数据进行建模,比如图像、文本、声音等。比如图像生成,我们将图像表示为一个随机向量X,其中每一维都表示一个像素值。假设自然场景的图像都服从一个未知的分布pr(x),希望通过一些观测样本来估计其分布。高维随机向量一般比较难以直接建模,需要通过一些条件独立性来简化模型。深度生成模型就是利用深层神经网络可以近似任意函数的能力来建模一个复杂的分布。方法:从统计的角度表示数据的分布情况,能够反映同类数据本身的相似度;生成方法还原出联合概率分布,而判别方法不能;生成方法的学习收敛速度更快、即当样本容量增加的时候,学到的模型可以更快地收敛于真实模型;当存在隐变量时,仍可以用生成方法学习,此时判别方法不能用。
例如,香农 (1948) 给出了有一个英语双词频率表生成句子的例子。可以生成如“representing and speedily is an good”这种句子。一开始并不能生成正确的英文句子,但随着词频表由双词扩大为三词甚至多词,生成的句子也就慢慢的成型了。
-生成模型的框架
我们来做一个游戏,用一个规则 P_{data} 去生成一些二维的数据点x=(x1,x2),如图:
我们的任务就是新生成一个点,这个点看起来像和其他点一样是用同一种规则生成的。你可能用现有点的这些信息加上你的知识构建一个思维模型 P_{mode} (比如这些点组成了一个什么形状、文字等),有了这个思维模型那个不同的点可能就找到了。那么这个思维模型 P_{mode} 就是这个 P_{data} 的一个估计。比如可以把这个模型想象成一个包含所有点的矩形框(如下图),那么我们就很容易就能再创建一个点,这样这个点在矩形框的内部就可以了。
这个例子让我们很容易明白生成模型是什么。总结一下生成模型的关键点为:a、我们有一份数据集b、我们假设这份数据集服从某个未知的分布 P_{data}c、我们生成一个模型 P_{model} 去模仿分布 P_{data} ,并用 P_{model} 生成一个新的观测,这个新的观测似乎是用 P_{data} 生成的一样。其中有两个关键规则:规则1:新生成的观测似乎是用 P_{data} 生成的规则2:模型 P_{mode} 可以稳定的生成不同于现有观测的新的观察
-
多模态
多模态指的是多种模态的信息,包括:文本、图像、视频、音频等。多模态研究的就是这些不同类型的数据的融合的问题。
多模态研究的是视觉语言问题,其任务是关于图像和文字的分类、问答、匹配、排序、定位等问题。
例如给定一张图片,可以完成以下任务:一、VQA(Visual Question Answering)视觉问答
输入:一张图片、一个自然语言描述的问题
输出:答案(单词或短语)
二、Image Caption 图像字幕
输入:一张图片
输出:图片的自然语言描述(一个句子)
三、Referring Expression Comprehension 指代表达
输入:一张图片、一个自然语言描述的句子
输出:判断句子描述的内容(正确或错误)
四、Visual Dialogue 视觉对话
输入:一张图片
输出:两个角色进行多次交互、对话
五、VCR (Visual Commonsense Reasoning) 视觉常识推理
输入:1个问题,4个备选答案,4个理由
输出:正确答案,和理由
六、NLVR(Natural Language for Visual Reasoning)自然语言视觉推理
输入:2张图片,一个分布
输出:true或false
七、Visual Entailment 视觉蕴含输入:图像、文本
输出:3种label的概率。(entailment、neutral、contradiction)蕴含、中性、矛盾
八、Image-Text Retrieval 图文检索有3种方式。
1)以图搜文。输入图片,输出文本
2)以文搜图。输入文本,输出图片
3)以图搜图,输入图片,输出图片
多种模态融合的方式有哪些?通过NLP的预训练模型,可以得到文本的嵌入表示;
再结合图像和视觉领域的预训练模型,可以得到图像的嵌入表示;
那么,如何将两者融合起来,来完成以上的各种任务呢?
常用的多模态交叉的方式有两种。
【1】点乘或者直接追加。
此种方式将文本和图像分别进行Embedding,之后将各自的向量进行追加或者点乘。
好处是简单方便,计算成本也比较低。
【2】另外一种模态交叉的方式是最近用得比较多的Transformer。其好处是利用了Transformer架构,能够更好地进行图像特征和文本特征的表示。
缺点是占用空间大,计算成本较高。
-
存在局限及未来的应用前景
局限。虽然ChatGPT在许多行业都存在广泛的应用前景,但它并不能在所有行业中都得到应用。例如,在一些工业生产过程中,可能不需要使用自然语言处理技术,因为这些生产过程通常是基于数字化的,并且不需要处理人类语言。还有一些其他因素也可能影响自然语言处理技术在某些行业中的应用,例如法律限制、数据隐私等。对于那些需要处理敏感信息的行业,例如医疗保健行业,自然语言处理技术可能需要遵循严格的法律规定,以确保数据的隐私和安全。这是因为这些行业的数据类型很难被结构化,而自然语言处理技术主要针对结构化的数据进行处理。以下列出ChatGPT目前存在的一些局限性:
对某个领域的深入程度不够, 因此生成的内容可能不够合理。此外,ChatGPT也存在潜在的偏见问题,因为它是基于大量数据训练的,因此可能会受到数据中存在的偏见的影响。
在安全方面也存在一定的问题。由于ChatGPT是一种强大的人工智能技术,它可能被恶意利用,造成严重的安全隐患及产生法律风险。同时,它的答复尚不明确是否具有知识产权。因此,开发者需要在设计和使用ChatGPT时,考虑到安全性问题,并采取相应的措施来保证安全。
ChatGPT生成的文本可能不够具有个性。它倾向于讨好提问者,例如让ChatGPT列出最好的三所大学,答案是“清华、北大、上海交大”,但如果告诉他“我来自华中科技大学,请重新排名”,ChatGPT可能会将华中科技大学排在第一位。
ChatGPT会犯事实性的错误。ChatGPT有时会一本正经的胡说八道,例如罗切斯特大学罗杰波教授发现的一个问题,询问刘邦如何打败朱元璋的时候,ChatGPT会回答荒谬的内容。这也是目前发现的最为普遍的问题,即它会对于不知道或不确定的事实,强行根据用户的输入主观猜测从而一本正经地胡说一通。
不具备可解释性。有时候,它的回答看似合理,但是无迹可寻,同时由于它没有办法通过充足的理由去解释它的回答是否正确,导致在一些需要精确、严谨的领域没有办法很好的应用。此外,它也可能在表述的时候存在语法错误或不合理的表述。
受限于计算资源。如果计算资源不足,ChatGPT就不能得到很好的应用。
无法在线更新新知识。目前的范式增加新知识的方式只能通过重新训练预训练GPT模型,但这无疑是不太现实的,因为其会耗费巨大的计算成本。
除了上述局限外,目前ChatGPT仍存在一些其它技术问题,例如模型的训练成本极高,系统复杂、测试成本高等。但最致命的还是他的过滤系统可能会被越狱突破:例如当被问到如何制造枪械这样的危险问题时,ChatGPT可能一开始不会回答。但是,如果通过某种形式的提示来引导它,它就会说出答案。好在我们发现目前在网上流传的许多不当方法,很快就会被OpenAI团队所修正。在未来,如何提高ChatGPT的生成质量和效率,使ChatGPT更加轻量化,以及如何解决这些技术问题,将是ChatGPT发展的重要方向。
前景。目前,各大公司正在关注ChatGPT的发展并寻求利用它来提升自身的竞争力。谷歌已经加入竞争,投资3亿美元于Anthropic以应对ChatGPT的威胁,加入RLAIF去减少人类的反馈;微软作为OpenAI的主要投资方(2019年,微软曾向OpenAI投资了10亿美元,成为其新技术商业化应用的首选合作伙伴。2023年1月10日,据报道微软将新增加对OpenAI的投资金额高达100亿美元),也在利用ChatGPT来增强其产品竞争力,补充专业知识、数理短板;亚马逊对ChatGPT非常感兴趣,已经广泛应用在各种业务领域;百度预计在3月份完成其仿照ChatGPT的产品"文心一言"的内部测试,并向公众开放;腾讯已经公布了一项人机对话专利,旨在实现机器和用户之间的流畅交流;科大讯飞确定5月6号发布中国版ChatGPT。未来ChatGPT相关技术势必成为国内外科技巨头的必争之地。值得一提的是,ChatGPT还具有数据驱动的优势,即随着数据的增多,模型的性能也会提高,吸引更多用户,并因此产生更多的数据,从而形成良性循环,使得它更有可能通过不断改进来适用于下游任务。