ChatGPT 背后的核心技术

架构师指南

我们都是架构师!
架构未来,你来不来?

24377ce890213084b1b6081ac302acf0.png

缘起

71d283caba15edf81646e9e63540c462.png

输入几个简单的关键词,AI能帮你生成一篇短篇小说甚至是专业论文。作为上知天文下知地理对话语言模型,最近大火的ChatGPT在邮件撰写、视频脚本、文本翻译、代码编写等任务上强大表现,让埃隆·马斯克都声称感受到了AI的“危险”。

最近大火的ChatGPT的计算逻辑来自于一个算法名字叫Transformer。它来源于2017年的一篇科研论文《Attention is all your need》。本来这篇论文是聚焦在自然语言处理领域,但由于其出色的解释性和计算性能开始广泛地使用在AI各个领域,成为最近几年最流行的AI算法模型,无论是这篇论文还是Transformer模型,都是当今AI科技发展的一个缩影。

这也是我想在这里给大家分析这篇文章的核心要点和主要创新的初衷。

但我非AI(数学,计算机)专业,只是梳理并分享自己学习的体会和思考,与大家一起讨论,欢迎各位多提宝贵意见;所述并不专业,各位大牛可以绕行。

从Transformer提出到“大规模预训练模型”GPT(Generative Pre-Training)的诞生,再到GPT2的迭代标志Open AI成为营利性公司,以及GPT3和ChatGPT的“出圈”;再看产业界,第四范式涉及到多个重要领域比如生物医疗,智能制造纷纷有以Transformer落地的技术产生。在这个浪潮下,我的思考是:

一是,未来很长一段时间在智能化领域,我们都将经历“科研、算力、基础架构、工程、数据、解决方案”这个循环的快速迭代;流动性、创新性短期不会稳定下来,而是会越来越强。

我们很难等到科技封装好,把这些知识全部屏蔽掉,再去打磨产品。未来在竞争中获胜的,将是很好地“解决了产品化和科研及工程创新之间平衡”的团队。我们一般理解的研发实际上是工程,但AI的实践科学属性需要团队更好的接纳这种“流动性”。因此对所有从业者或者感兴趣智能化的小伙伴了解全栈知识成了一个刚需。

二是,通过对这篇论文的探讨,可以更直观地理解:在科研端发生了什么,以什么样的速度和节奏发生;哪些是里程碑?是科学界的梅西横空出世,带我们发现真理;哪些是微创新?可能方向明确了,但还有很多空间可以拓展;哪些更像炼金术?仍然在摸索,尚需要很长一段时间,或者一直会保持这个状态。

三是,在AI领域,由于技术原因,更多的论文是开源代码的,一方面,促进了更多人参与进来改进迭代;另一方面,科研跟工程实现无缝连接,一篇论文可以拉动从核心代码到平台,到具体应用很大范围的价值扩散。一篇论文很可能就是一个领域,一条赛道,甚至直接驱动业务价值和客户价值的大幅提升。

四是, AI技术发展有很多领域(感知,认知,感知又分图像、语音、文字等,认知也可以分出很多层次),之前这些领域的算法逻辑存在很大差别,Transformer的出现有一定程度上推动各个领域汇聚的迹象,介绍清楚这篇文章,对把握整体,可能有些作用。另外ChatGPT属于现象级应用,大家更有直观感受,未来这类应用的体验提升和更新速度只会更快,理解了其背后的逻辑,更有助于我们把握这个趋势。

fb854f3c230fdb05b47e3fd5f786d559.png

论文介绍

4fe0700a1ddc7e3ff83989f1f5888e27.png

下面步入正题,开始介绍这篇论文,会涉及一些技术细节及公式,可能还需要仔细看一下,相信一旦看进去,你会对AI的理解加深很多。

总体把握

这篇论文的结构非常精炼,提出问题,分析问题,解决问题,给出测试数据。顶刊文章讲究言简意赅,有描述,有代码,有结果;其中最核心的是以下这张图,作者团队提出Transformer的核心算法结构:

383559fb1db536ebbb9bad4683f4179a.jpeg

整篇文章就是围绕这张图来进行解释的,由于篇幅所限,我们聚焦在一条主线上:1、文章想解决主要问题是什么;2、如何解决的;3、从文章提出的解决方案作为一个案例来引发整体思考,因此我们将内容简化,主要关注核心部分。

c811ce1b242c09ce69260167140eab61.jpeg

这张图表达的内容如果理解了,那基本上你掌握了这篇论文85%的内容,也是最关键的部分。

《Attention is all your need》在编写时主要是为了考虑NLP任务,是由几个Google的科研人员一起完成的,其中一个背景是Google也在推广自己的并行计算芯片以及AI TensorFlow开发平台。平台主要功能特点是并行计算,这篇文章的算法也是在最大限度的实现并行计算。我们就以一个简单的例子来把这个算法串一遍。

核心内容

需求是我们需要训练一个模型,进行中文到英文翻译。

背景知识:这个需求要把“翻译:我爱你 to I love you”转置成一个y=f(x)问题,x代表中文,y是英文,我们要通过训练得到f(),一旦训练成功f(),就可以实现翻译。大家拼的就是谁的训练方法更准确,更高效,谁的f()更好用。

之前自然语言处理主要的算法叫RNN(循环神经网络),它主要的实现逻辑是每个“字”计算之后将结果继承给第二个字。算法的弊病是需要大量的串行计算,效率低。而且当遇到比较长的句子时,前面信息很有可能会被稀释掉,造成模型不准确,也就是对于长句子效果会衰减。这是这篇文章致力于要解决的问题,也就是说这篇文章有训练处更好的f()的方法。联想一下ChatGPT可以做论文,感受一下。

在Transformer里,作者提出了将每个字与句子中所有单词进行计算,算出这个词与每个单词的相关度,从而确定这个词在这个句子里的更准确意义。(这句话要是理解了,后面其实可以不看了。)

在此处,要开始进入一些技术细节,在开始之前,我们有必要再熟悉一下机器学习领域最核心的一个概念——“向量”。在数字化时代,数学运算最小单位往往是自然数字。但在AI时代,这个最小单元变成了向量。这是数字化时代计算和智能化时代最重要的差别之一。    

举个例子,比如,在银行,判断一个人的信用额度,我们用一个向量来表示:

b90d9009d7949c950852b9d014cea099.jpeg

向量是一组数据的集合,也可以想象成在一个超高维度空间里的一个点。一个具体的信用额度向量,就是在8个特征组成的高维空间的一个点。数据在高维空间将展现更多的数学性质比如线性可分,容易让我们抓住更多隐藏的规律。

向量的加减乘除是计算机在进行样本训练是最主要的计算逻辑。第四范式一直强调的高维,实时,自学习,其中高维就是把企业信息拉升到一个非常高维的空间,变成向量。

Transformer模型的主要意义就是找到了一个算法,分成三步把一个词逐步定位到了一个高维空间,在这个过程中赋予这个单词比其它算法更优的信息。很多情况下这个高维空间有着不同的意义,一旦这个向量赋予的信息更准确更接近真实情况,后面的机器学习工作就很容易展开。还拿刚才信用额度向量举例子:

7cf5265bdbdf86f50ee3ae7954ed151e.jpeg

a16f57d594722f42b9c7e772768ad323.jpeg

这两个向量存在于两个不同的向量空间,主要的区别就是前者多了一个向量特征:“年薪”。可以思考一下如果判断一个人的信用额度,“年薪”是不是一个很重要的影响因子?

以上例子还是很简单的,只是增加了一个特征值,在Transformer里就复杂很多,它是要把多个向量信息通过矩阵加减乘除综合计算,从而赋予一个向量新的含义。

好,理解了向量的重要性,我们看回Transformer的三步走,这三步走分别是:1、编码(Embedding);2、定位(Positional encoding);3、自注意力机制(Self-Attention),这个真的大名鼎鼎。

举个例子,比如,翻译句子Smart John is singing到中文。

首先,要对句子每个词进行向量化。

我们先看“John”这个词,需要先把“John”这个字母排列的表达转换成一个512维度的向量John,这样计算机可以开始认识它。说明John是在这个512维空间的一个点;这是第一步:编码(Embedding)。

再次,第二步,定位(Positional encoding)。利用以下公式(这是这篇文章的创新):

070ca8f5c01a45f72b0c55bd1f32447e.jpeg

微调一个新的高维空间,生成一个新的向量:

051cf3d78d059bb9c8bcf76c1056e482.jpeg

我们不用太担心这个公式,它核心意义是:在这个新的向量里面每一位由原来的0和1表示,分别取代成由sin和cos表示,这个目的是可以通过sin和cos的定律,让这个新向量不仅表示John这个单词的意义,还可以表示John在Smart John is singing这个句子的位置信息。

如果不理解,可以直接忽略,只要记住第二步是用来在“表达John这个词的向量”中,加入了John在句子中的位置信息。John已经不是一个孤立的词,而是一个具体句子中的一个词,虽然还不知道句子中其他词是什么含义。

如果第一步计算机理解了什么是John,第二步计算机理解了“* John**”。

最后,第三步,自注意力机制(Self-Attention),通过一个Attention(Q,K,V)算法,再次把John放到一个新的空间信息里,我们设为:

306710fe95c310ad13abd72f704850ec.jpeg

在这个新向量里,不仅包含了John的含义,John在句子中位置信息,更包含了John和句子中每个单子含义之间的关系和价值信息。我们可以理解,John作为一个词是一个泛指,但Smart John就具体了很多,singing的Smart John就又近了一步。而且Attention (Q,K,V)算法,不是对一个单词周围做计算,是让这个单词跟句子里所有单词做计算。通过计算调整这个单词在空间里的位置。

这种方法,可以在一个超长句子中发挥优势,而且最关键的是一举突破了时序序列的屏障,以前对于图像和NLP算法的划分,很大程度上是由于NLP有很明显的时序特征,即每个单词和下一个以及在下一个有比较明显的时序关系。但Transformer这种算法打破了这种束缚,它更在意一个单词跟句子中每个单词的价值权重。这是Transformer可以用到everywhere的主要原因。

d35427fe33338dd5c5fff813301ca83b.png

计算过程

如果不感兴趣,可以跳过这一部分介绍,直接进入启发收获部分。

具体的计算过程,用翻译句子“我爱你”到“I love you”举例(这句更简单一些)。首先进行向量化并吸收句子位置信息,得到一个句子的初始向量组。

04bb743f1a79af503a60d374481091f3.jpeg

由于样本每个句子长短不同,所以每个句子都会是一个512*512的矩阵,如果长度不够就用0来代替。这样在训练时,无论多长的句子,都可以用一个同样规模的矩阵来表示。当然512是超参,可以在训练前调整大小。

接着,用每个字的初始向量分别乘以三个随机初始的矩阵WQ,Wk,Wv 分别得到三个量Qx,Kx,Vx。下图以“我”举例。

5f7f774f0812bafcd48ce392b197d0b4.jpeg

然后,计算每个单词的attention数值,比如“我”字的attention值就是用“我”字的Q我分别乘以句子中其他单词的K值,两个矩阵相乘的数学含义就是衡量两个矩阵的相似度。微信搜索公众号:架构师指南,回复:架构师 领取资料 。然后通过一个SoftMax转换(大家不用担心如何计算),计算出它跟每个单词的权重,这个权重比例所有加在一起要等于1。再用每个权重乘以相对应的V值。所有乘积相加得到这个Attention值。

d9c1356c7b4e67e2a7596604faedf229.jpeg

这个attention数值就是除了“我”字自有信息和位置信息以外,成功的得到了这个句子中每个单词的相关度信息。

大家可以发现,在所有注意力系数的计算逻辑中其实只有每个字的初始矩阵WQ,Wk,Wv是未知数(这三个矩阵是所有文字共享的)。那么我们可以把这个Transformer简化成一个关于输入,输出和这个W矩阵的方程:其中X是输入文字信息,Y是翻译信息。

a4fe5b03f1750e95b92c41d3a8b5acaa.jpeg

这里有必要再介绍一下机器学习的基础知识:Transformer算法本质上是一个前馈神经网络模型,它的计算基础逻辑,不去管复杂的隐藏层,就是假设Y=f(x)=wx,(目标还是要算出一个f())然后随机设置一个w0,开始计算这个y=w0x的成本函数,然后再把w0变成w1,计算y=w1x的成本函数,以此类推计算出无数w(不是无数哈,也会收敛的),然后比较哪个w的成本函数最小,就是我们训练出来的f()。那么在Transformer里,这三个初始矩阵就是那个w0。

再回到Transformer,在计算Attention之后,每个单词根据语义关系被打入了新的高维空间这就是Self-attention(自注意力机制)。

但在Transformer里,并不是代入了一个空间,而是代入了多个高维空间,叫做多头注意力机制。

a8b41d3202ca4bc19392248404e27d22.jpeg

文章中没有给出更清晰的理论支持,为什么是多头。

微信搜索公众号:架构师指南,回复:架构师 领取资料 。

主要原因是在训练时效果很好。这也是AI科研论文的一个特点,常常凭借非常高的科研素养和敏感性,发现一些方向,并且通过测试确实有效,但不一定可以给出很完美的理论支撑。这往往也给后续研究者一些可以进一步完善的空间。

事实证明,如何提升Attention(Q,K,V)效率是Transformer领域迭代最快的部分。之后的Bert算法提出预训练机制成为了主流,后面会做进一步介绍。

当然,事后我们可以理解是把这个句子中的逻辑关系放到不同的高维空间去训练,目的就是希望抓取更多的信息,这一部分可以更加深刻理解科研人员对空间的应用。

除了以上内容,还有一些技术点比如Mask机制、layer norm、神经网络激函数饱和区控制等,由于篇幅关系以及属于技术细节就不一一介绍了。

如果大家理解了多头自注意力机制,基本已经85%掌握了这篇论文的重要内容,也对还在快速扩展影响力的Transformer模型有了一个比较直观的认识。

d12b15f42bcdce4f0bbc79a746332acd.png

启发收获

45c09885a77554572019cb9478831e49.png

从理论科研进步的角度看

Transformer打破了时序计算的逻辑,开始快速出圈,多个AI原本比较独立的领域开始在技术上融合。再往里看,Transformer能打破时序很重要一点是并行计算的算力模式给更复杂的计算带来了性价比上的可能性。算力的进一步提高,必将在AI各细分领域带来融合,更基础设施级别的模型,算法仍将不断推出。AI领域在图像,NLP;感知认知领域的专业分工也会慢慢变模糊。

AI科研确实具有一些实验性质。除了核心思想,确实还有很多技术点的解决方向已经明确,但还有很大的提升空间,可以预见围绕Transformer周边的微创新会持续加速繁荣。

《Attention is all your need》在业内大名鼎鼎,但你要是细看,会发现很多内容也是拿来主义,比如最重要的Attention(Q,K,V)中Query,Key,Value是互联网推荐系统的标配方法论;整个Transformer算法也是一个大的神经网络,算法是在前人基础上一步一步迭代发展,只是这个迭代速度明显在加快。

从理论、算法、架构、工程的角度看

AI算法科研领域正经历算法、开源代码、工程、算力的增长飞轮。

f4ab3b041b0b3ea3e201b25bfb72ea6c.jpeg

下图是顶级刊物上的学术论文中,开放源代码的论文比例,这个数据在这几年以更快的速度在增长。科研过程与工程过程产生越来越大的交集。开源社区和开源文化本身也在推动算法和工程的快速发展。

ebb717ac7a246b488c23facd1ebe787e.jpeg

更多人参与,更多领域的人参与进来,进入门槛随着算力成本、AI基础架构和代码、知识分享的开源逐渐降低,科研与工程的边界也变得模糊,这个就像足球运动的规律,除了足球人口增多,天才球员梅西出现的概率也会增大。

从数据和后续方案发展的角度看

ChatGPT的成功同大量的数据训练功不可没,但除了简单对话互动或者翻译,大篇幅回答甚至论文级别的答案还是极其缺乏样本数据(算法训练需要的样本数据需要清晰度X和Y)。

而且Transformer的算法相比其他算法需要更大的数据量,原因在于它需要起始阶段随机产生三个矩阵,一步一步进行优化。除了Transformer以外,另一个技术Bert也是技术发展非常重要的现象级算法。其核心是一个简化的Transformer,Bert不去做从A翻译到B,它随机遮住X里面的一些单词或句子让算法优化对遮住部分的预测。这种思路使得Bert成为了Transformer预训练最好的搭档。

3e437dab22b65e374dc05cb9d46c7f66.jpeg

如果通过Bert进行预训练,相当于给矩阵加入了先验知识(之前训练逻辑没有给机器任何提示,规则后者基础知识),提高了正式训练时初始矩阵的准确度,极大地提升了之后Transformer的计算效率和对数据量的要求。

在现实中,举例来说,如果我想训练国家图书馆图书,之前需要每本书的信息和对这本书的解释,或者中文书对应的英文书。但现在我们可以大量只是训练内容,不需要打标签,之后只需要通过Transformer对样本数据进行微调。这就给ChatGPT很大的进步空间,而且可以预见,更多这类大模型会雨后春笋一般快速出现。

由于Transformer是更高级的神经网络深度学习算法,对数据量有很高要求,这也催生了从小数据如何快速产生大数据的算法,比如GAN对抗网络等。这是AIGC领域的核心技术。解决数据量不足问题,除了更高效率抽象小数据的信息,也多了把小数据补足成大数据的方法,而且这些方法在快速成熟。

我们发现在机器学习算法中有大量的超级参数,比如在Transformer里多头机制需要几头N,文字变成向量是512还是更多,学习速率等都需要在训练之前提前设置。由于训练时间长,参数复杂,要想遍历更优秀的计算效果需要非常长的摸索时间。

这就催生出AutoML,第四范式在这个领域研究多年,拿Transformer举例,就要很多个路线进行自动化机器学习;比如贝叶斯计算(找到更优参数配置概率);强化学习思路(贪婪算法在环境不明朗情况下迅速逼近最优);另外还有寻求全新训练网络的方法(Transformer,RNN,MLP等联合使用排列组合)等。

科研发展强调参数化,工业发展强调自动化,这两者看似统一,但在现实实操过程中往往是相当痛苦矛盾的。这也是开篇说的产品化和科研流动性相平衡的一个重要领域。

如喜欢本文,请点击右上角,把文章分享到朋友圈

因公众号更改推送规则,请点“在看”并加“星标”第一时间获取精彩技术分享

·END·

相关阅读:
  • ChatGPT可能马上取代你!这是它能做的十个工作

  • ChatGPT 又迭代:这下连你老婆也不好使了 !

  • 卧槽,ChatGPT成功通过了谷歌的面试

作者:James Pei

来源:智能化学习与思考

版权申明:内容来源网络,仅供分享学习,版权归原创者所有。除非无法确认,我们都会标明作者及出处,如有侵权烦请告知,我们会立即删除并表示歉意。谢谢!

架构师指南

我们都是架构师!

73912c10774e70cccb8f631c5a889546.jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/8002.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

TOM VIP至尊邮|商务人士必用的个人邮箱

商务人士在普通人眼里是可以被一眼区分的,他们都是西装革履造型精致,每天好像有忙不完的合作谈不完的生意,分分钟都是千万大单。所以商务人士也逐渐成为一个独立的商品名词,所有和商务人士沾边的商品都是非常有价值和值得使用的。…

TOM VIP邮箱,化繁为简,在微信里收发邮件

你还在用电子邮箱吗?随着移动互联时代的大火,近几年涌入了众多移动产品。特别是自微信推出新玩法—微信企业号后,更是在移动应用市场掀起了一场巨浪。为增加用户在使用时的便捷性,TOM VIP邮箱于2016年率先推出了“随心邮”服务,整…

网易邮箱大师代收gmail

设置网易邮箱大师, 代收 gmail邮件 1, 登录gmail, 启用POP 2, 启用IMAP, 保存更改 3, 在网易邮箱大师上登录, 要代收的邮箱, 即可 测试了一下 qq网页端, 不支持代收gmail, 手机端qq邮箱可以 阿里云邮箱, 添加其他邮箱gmail, 没成功 有时间再了解一下POP和IMAP协议, 好像…

谷歌邮箱SMTP Password:SMTP授权码如何获得

谷歌邮箱怎么开通查看使用设置第三方客户端密码(授权码)? 第 11 步:你可以看到“应用专用密码”的附加选项,请单击此处设置 ▼ 第 12 步:需要再次登录Gmail邮箱 ▼ 第 13 步:添加应用密码&…

如何应对ChatGPT这一波AI浪潮

最近我在写一系列文章,其中包括《ChatGPT 实战系列》和《WPS Office AI实战系列》。想通过这些文章提供实践指导,既自己动手实践了,也能与大家分享我的实践结果,这是一个学习的过程。在实践过程中,我发现有些实用的方面…

ChatGPT的出圈与大佬们的焦虑

点击文末“阅读原文”即可收听本期节目 剪辑、音频 / 朱峰 编辑 / SandLiu 卷圈 监制 / 姝琦 文案 / 朱峰 产品统筹 / bobo ChatGPT这次出圈了,似乎每个人都在讨论这个AI产品给我们未来生活带来的改变,除了我们普通人以外,一些大佬也纷…

行业报告 | 人工智能时代的营销新趋势

原创 | 文 BFT机器人 01 科技推动时代发展进步 随着电子计算机的发明和使用,打开了人类知识的全方位信息时空,人类由此从工业文明走进信息文明,渐渐地网络成为了人们进行社会活动的基本平台。 智能手机的出现将人们剩余的碎片化时间也连接到了…

《微SaaS创富周刊》第6期:2023年你应该了解的10个生产力工具 | Product Hunt

导读: 大家好!第6期《微SaaS创富周刊》问世啦!本周刊面向独立开发者、早期创业团队,报道他们主要的产品形态——微SaaS如何变现的最新资讯和经验分享等。所谓微SaaS,就是“针对利基市场的SaaS”,特点是一般…

致敬2202年,这些优秀的裁缝们

文 | 鹰钩鼻涕虫 2202年过去了,不知道小伙伴们是否和我一样,绝大多数时间处于迷茫之中,除去其他因素不谈,在最后一个月到来之前,NLP 学界的表现似乎不如前几年那样“精彩”,甚至可说是“寡淡”,…

用 AudioGPT 输入自然语言,可以让 ChatGPT 唱歌了?

夕小瑶科技说 原创 作者 | 智商掉了一地 借助 ChatGPT 强大的理解与生成能力,结合基础语音模型,集成模型 AudioGPT 诞生了! 最近基于 ChatGPT 的二创如雨后春笋一样冒出,上周我们一起看了黑客松优秀作品大赏,这周又有…

第二次报告(软件需求规格说明最终版)

软件需求规格说明 1. 引言 1. 1目的 1. 2文档约定 1. 3预期的读者和阅读建议 1. 4产品的范围 1. 5参考文献 2. 综合描述 2.1产品的前景 2.2产品的功能 2.3用户类和特征 2.4运行环境 2.5设计和实现上的限制 2.6假设和依赖 3. 外部接口需求 3. 1用户界面 3. 2硬件…

Telnet登录提权

一、实验环境 目标主机: Metasploit2虚拟机 192.168.20.143 攻击主机: Kali2虚拟机 192.168.20.133 二、实验过程 1.msf登录telnet 详情参考Telnet暴力破解_Myu_wzy的博客-CSDN博客此文章 2.msf连接shell下载exploit 在本地下载exploit,…

在飞书搞了个机器人,我让ChatGPT帮忙写算法

一、前言 环境: 系统:Windows 11 64位 Python版本:Python 3.9 注:本文不讲怎么实现,只讲实现的效果和一些思考。大家感兴趣再考虑去配置相关机器人。 先来问问ChatGPT两个问题: 1、ChatGPT是什么&#xff…

ChatBI- ChatGPT的垂直领域思考

声明:本文将从技术角度对比几款商用BI产品的AI辅助功能。鉴于个人的认知水平,所描述的内容,若有不妥,请斧正。 BI之痛 从事大数据工作十余年,近两年负责制造业BI工作,总结了一些痛点问题: 技术…

Cursor——ChatGPT的替代品【笔记】

Cursor——ChatGPT的替代品【笔记】 前言推荐Cursor——ChatGPT的替代品下载登录使用高级另外 最后 前言 2023-3-31 22:00:44 以下内容源自《笔记》 仅供学习交流使用 推荐 什么? 你还没用过 Cursor? 智能 AI 代码生成工具 Cursor 安装和使用介绍 C…

ChatGPT可以替代人类做哪些工作?

随着时代不断发展,人工智能技术正在日益发展,越来越多的人工智能技术正在改变人们的生活。其中,Chat GPT(Generative Pre-trained Transformer)也是一种新型的机器学习技术,可以替代人类做一些繁琐的工作。…

全网最详细中英文ChatGPT-GPT-4示例文档-从0到1快速入门多语种翻译应用场景——官网推荐的48种最佳应用场景(附python/node.js/curl命令源代码,小白也能学)

List item 从0到1快速入门多语种翻译应用场景 Introduce 简介setting 设置Prompt 提示Sample response 回复样本API request 接口请求python接口请求示例node.js接口请求示例curl命令示例json格式示例 其它资料下载 ChatGPT是目前最先进的AI聊天机器人,它能够理解图…

DeepSpeed ZeRO++:降低4倍网络通信,显著提高大模型及类ChatGPT模型训练效率

点击蓝字 关注我们 关注并星标 从此不迷路 计算机视觉研究院 公众号ID|计算机视觉研究院 学习群|扫码在主页获取加入方式 计算机视觉研究院专栏 Column of Computer Vision Institute 大型AI模型正在改变数字世界。基于大型语言模型 (LLM) 的 Turing-NLG…

让你的类ChatGPT千亿大模型提速省钱15倍,微软开源 DeepSpeed-Chat

作者 | 微软 DeepSpeed 开源项目组 来源 | 开源社(中文版授权开源社首发) 概述 近日来,ChatGPT 及类似模型引发了人工智能(AI)领域的一场风潮。这场风潮对数字世界产生了革命性影响。ChatGPT 类模型具有惊人的泛用性&a…

ChatGPT和 dalle2 配合生成故事绘本

和 dalle2 配合生成故事绘本 在之前章节中,我们已经尝试过让 ChatGPT 来生成一些故事情节,不管是影视剧还是小说还是游戏都可以。这时候,自然而然的可以联想到:那我们可不可以一步到位,把 ChatGPT 编出来的故事情节&a…