Claude 2 解读 ChatGPT 4 的技术秘密:细节:参数数量、架构、基础设施、训练数据集、成本...

 解密 ChatGPT 4的模型架构、训练基础设施、推理基础设施、参数计数、训练数据集组成、令牌计数、层数、并行策略、多模态视觉适应、不同工程权衡背后的思维过程、独特的实施技术。


‍‍‍‍

e8a852327091c0f845dd237544d524b2.png

01

最近偶然看到一份文档《GPT-4 Architecture, Infrastructure, Training Dataset, Costs, Vision, MoE》,内容是国外研究人员根据收集的信息,推测的 ChatGPT 4 的技术细节,应该八九不离十。

原作者认为:OpenAI 拥有令人惊叹的工程技术,他们构建的东西令人难以置信,但他们得出的解决方案并不神奇。这是一个优雅的解决方案,具有许多复杂的权衡。做大只是战略的一部分。OpenAI 最持久的护城河是他们拥有最真实的使用情况、领先的工程人才,并且可以通过未来的模型继续领先于其他人。

我们从许多来源收集了大量有关 GPT-4 的信息,今天我们想分享一下。这包括模型架构、训练基础设施、推理基础设施、参数计数、训练数据集组成、令牌计数、层数、并行策略、多模态视觉适应、不同工程权衡背后的思维过程、独特的实施技术以及它们如何减轻一些问题他们最大的瓶颈与巨型模型的推理有关。

正好前两天 Claude 2 开放了网页版本,还支持阅读 PDF。Claude 2 体验! 免费使用,生成代码,逻辑推理提升,对话记忆更长。

作为 AI 重度患者,这个功能自然要用起来,把 PDF 文档上传上去。‍‍‍‍‍‍

a81d589593714071c69cda5b881ce07c.png

上面的小字提示:“上传一次最多支持5个文件,每个最大10M,接受 pdf,txt, csv,等等”。从上传对话框显示的文件类型显示,这个“等等”里还支持 doc,docx,ppt。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍


上传图标转了一会儿,上传完成,让 Claude 2 帮助我总结文档中心思想。

77ea910d9dddf0a6c38c9b5000111a77.png

GPT-4采用混合专家(MoE)架构,有约180亿参数,120层。每次前向传播只使用约280亿参数,大大减少了推理成本。

  1. 训练数据集包含约130万亿个token,其中代码数据有4轮epoch。数据集获取仍是主要瓶颈。

  2. 训练成本约为6300万美元,采用了8路tensor并行和15路流水线并行。推理成本比GPT-3大约高3倍。

  3. 推理采用了16路混合专家(MoE),每次前向传播选择2个专家。最大批量可达4k+,但利用率较低。多查询注意力机制可降低内存需求。

  4. 视觉编码器是单独的,但有交叉注意力。下一代GPT-5将从头训练视觉和音频模块。

  5. 主要工程权衡包括混合专家数量、批量大小、推理延迟等。未来可能使用推测性解码加速推理。

  6. 多家公司有能力在近期训练类似规模的模型,但OpenAI由于大规模应用拥有持久优势。

文档作者表示:OpenAI 保持 GPT-4 架构的封闭性并不是因为对人类存在一些生存风险,而是因为他们构建的东西是可复制的。事实上, Google、Meta、Anthropic、Inflection、Character、腾讯、字节跳动、百度等在短期内都将拥有与 GPT-4 一样强大的模型。

要想读懂上面的内容,有些名词需要搞清楚,咱们一个一个来。‍

02

Token

Token

在人工智能领域,token是一个非常重要的概念,主要有以下几点含义:

自然语言处理中的词元。一个句子可以被分割成一个一个的词元,每个词元就是一个token。

预训练语言模型中,token通常指字元(character)或者子词(subword)。像BERT和GPT等模型都是以token为基本单位进行预训练的。

token也可以表示任意符号。例如在代码中,一个token可以是一个运算符、标点符号、括号等。

在transformer类模型中,token是嵌入层的基本单位,每个token会被映射为一个向量。

在词向量中,一个词被映射为一个词向量,这个词向量也可以称为该词的token。

在块链中,token代表加密货币中的一个基本单位。

在自然语言生成模型中,token表示每个生成步骤的输出,可以是词也可以是子词。

总结一下,token可以理解为一个符号序列中一个基本的离散的可区分的最小单位。它常用于表示语言和语义的基础元素,是构建预训练语言模型的核心对象。选择恰当的token化方式对提高模型性能非常重要。

在ChatGPT 4 API 的计费中,就是按 token 个数收费。而且不能简单的理解中文一个字、词,英文一个单词就是一个token。API 里有一个免费的接口专门计算一段话的 token 个数。

03

epoch

epoch

机器学习中常用的一个概念,指的是训练集上的一次完整遍历

在训练神经网络模型时,我们通常不会只用训练集训练一遍,而是多次反复训练同一个训练集,每次完整地遍历一遍训练集就称为一个epoch。原因有以下几点:

多轮训练可以使模型更加稳定和收敛,提高 generalization。单轮训练常常会过拟合。

早期epochLoss下降快,后期epochLoss下降慢。多轮训练可以继续优化loss。

每轮参数更新的步长(learning rate)可以不同,早期步长大,后期步长小,这样既保证快速收敛又不会震荡。

多轮训练可以查看loss曲线,判断过拟合或欠拟合并相应调整模型。

数据集较大时,单轮无法载入全部数据,多轮训练可以充分利用数据。

多轮训练还可以进行一些增强技巧,如打乱数据顺序,采样subnet等。

所以在实际训练中,我们一般设置多轮epoch,每个epoch遍历一次全部训练数据。epoch数设置过小会欠拟合,过大又容易过拟合。一般通过观察loss曲线来动态确定epoch数。

generalization 泛化能力

指模型在训练集之外的数据集(通常是验证集和测试集)上的表现。

一个模型在训练集上表现很好(损失很低,准确率很高),但在测试集上表现不佳,就属于过拟合(overfitting),表示模型的 generalization 能力较差。

一个模型希望有好的 generalization 能力,即在训练集以外的数据上也能保持较好的性能。

提高 generalization 的方法有:

  • 增加训练集数据量和多样性

  • 使用正则化技术(L1,L2正则化、Dropout等),减少过拟合

  • 采用批正则化、早停等技术,避免过度训练

  • 使用数据增广,减少过拟合

  • 选择合适的模型大小,不要过大过复杂

  • 多轮训练,早期过拟合,后期提高泛化

  • 采用ensemble技术

  • 在验证集上评估和选择模型

generalization 泛化能力指的是模型能够在训练数据之外的新数据上得到良好表现的能力。这反映了模型真正学习到的数据分布规律,而不是简单地记住训练样本。

具体来说,泛化能力强的模型有以下特点:

  • 不会过度依赖训练数据,不会严重过拟合。

  • 可以推广应用到更广泛的任务上,不会局限在训练任务中。

  • 在不同的测试集上表现稳定,不会出现大幅度波动。

  • 面对新数据时,可以提取关键信息,做出合理预测。

  • 学习到的是真正的数据分布规律,而不是简单记忆训练数据。

  • 在遇到新情况时,可以做出柔性响应,而不是死板应用已学模式。

  • 模型大小合适,既有足够表示能力,又不至于过于复杂。

综上,“泛化能力”体现了一个强AI系统针对新任务、新环境的适应能力,是人工智能追求的重要目标之一。

epoch Loss 

指的是机器学习模型在每个epoch(每个训练集轮次)结束时的损失函数值。

通常训练一个神经网络模型要进行多个epoch。在每个epoch中,模型会遍历训练集一次,然后计算一次损失函数,反向传播更新参数。

那么每个epoch结束时计算出的这个损失函数的值,就是epoch Loss。

监测epoch Loss的变化曲线可以判断模型的训练情况,主要可以观察以下几个方面:

epoch Loss是否在持续下降。如果出现明显的上升,可能是出现了过拟合。

下降速度快慢。前期epoch Loss下降明显,后期epoch Loss下降很缓慢,这通常是正常的。

Loss数值的大小。如果Loss数值过大,说明模型仍处于训练初期,效果不佳。

抖动情况。训练初期抖动大,后期抖动小是正常的。过度抖动可能需要调整学习率或者正则化。

观察过拟合。如果验证集上Loss上升,训练集Loss继续下降,说明出现过拟合。

所以观察每个epoch的Loss变化趋势,可以帮助我们判断训练情况,及时优化模型和训练 hyperparameters。

04

MoE

MoE:稀疏门控制的专家混合层,又叫混合专家。

Moe,是Mixture-Of-Experts的缩写,可以在保证运算速度的情况下,将模型的容量提升>1000倍。

动机

现在的模型越来越大,训练样本越来越多,每个样本都需要经过模型的全部计算,这就导致了训练成本的平方级增长。

为了解决这个问题,有人提出了一种方式,即将大模型拆分成多个小模型,对于一个样本来说,无需经过所有的小模型去计算,而只是激活一部分小模型进行计算,这样就节省了计算资源。

那么如何决定一个样本去经过哪些小模型呢?这就引入了一个稀疏门机制,即样本输入给这个门,得到要激活的小模型索引,这个门需要确保稀疏性,从而保证计算能力的优化。

在前面的文章中:为什么对ChatGPT、ChatGLM这样的大语言模型说“你是某某领域专家”,它的回答会有效得多?(二),介绍了 ChatGPT 是一个神经网络的数学化版本,上面的细节显示 ChatGPT 采用了 MoE 的架构。

往期热门文章推荐:

AI人工智能大模型失守!ChatGPT、BARD、BING、Claude 相继被"提示攻击"攻陷!

Bard!谷歌对 ChatGPT 的最强反击,悄咪咪的支持中文了!

为什么对ChatGPT、ChatGLM这样的大语言模型说“你是某某领域专家”,它的回答会有效得多?(二)

希望体验ChatGPT 微信机器人的朋友可扫下面的群二维码进群(7月24日前有效): @ ChatGPT智能助手,跟着想的问题即可。

217a496d1c3cfea04b071306258a62e5.png

拥抱未来,学习 AI 技能!关注我,免费领取 AI 学习资源。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/69301.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Window的创建

Window的创建 上一篇说到了Window和WindowManager的关系并且讲述了WindowManager如何添加Window与Window内部的三个方法的实现 这篇主要讲几个常见的Window的创建比如Activity,Dialog和Toast 其中Activity属于应用Window Dialog属于子Window Toast属于系统Window z-order…

密码验证 长度八位包含字母数字特殊字符

View Code 1 #region 密码验证2 if (tbPassword.Text "")3 {4 CommonFunction.ShowMessage(this.Page, "密码不能为空");5 return;6 }7 …

smart计算机英语作文,关于科技的英语作文(精选5篇)

关于科技的英语作文(精选5篇) 在平平淡淡的日常中,大家都跟作文打过交道吧,写作文可以锻炼我们的独处习惯,让自己的心静下来,思考自己未来的方向。一篇什么样的作文才能称之为优秀作文呢?下面是小编精心整理的关于科技…

华为鸿蒙的科技话题作文800字,科技的发展作文800字4篇

科技的发展作文800字4篇 科技改变生活,可以说没有科技的高速发展就没有今天的我们。那么以下是小编为大家整理的科技的发展作文800字,欢迎大家阅读! 科技的发展作文800字(一) 随着科学技术的高度发展,科技是利是弊成了人们热议的话…

计算机未来的发展英语作文,关于科技发展英语作文(通用10篇)

关于科技发展英语作文(通用10篇) 在平平淡淡的学习、工作、生活中,大家总免不了要接触或使用作文吧,写作文可以锻炼我们的独处习惯,让自己的心静下来,思考自己未来的方向。那么一般作文是怎么写的呢?下面是小编为大家整…

计算机技术发展作文,【推荐】科技发展作文三篇

【推荐】科技发展作文三篇 在日复一日的学习、工作或生活中,大家都写过作文,肯定对各类作文都很熟悉吧,作文是经过人的思想考虑和语言组织,通过文字来表达一个主题意义的记叙方法。相信许多人会觉得作文很难写吧,下面是…

Android混合开发快速上手掌握

目录 一 混合开发简介 二 Android-Js互调 2.1 准备自己的html文件 2.2 WebView控件的准备设置 2.3 Android调用Js代码 2.4 Js调用Android方法和传参数 三 常用的几个方法和注意点 3.1 WebViewClient中的shouldOverrideUrlLoading拦截url 3.2 WebViewClient中的onPageS…

安卓开发快速集成即时通讯聊天,只需几行代码轻松实现

信贸通即时通讯系统,一款跨平台可定制的 P2P 即时通信系统,为电子商务网站及各行业门户网站和企事业单位提供“一站式”定制解决方案,打造一个稳定,安全,高效,可扩展的即时通信系统,支持在线聊天…

IM即时通讯聊天,5分钟显示一次时间。JS

想在聊天界面想做个和微信一样的时间显示 达到下图这种效果 百度了一下,发现都是有点不全的,把网上的合并了一下组成下方的js文件 记录一下 1.建议新建一个JS文件 common.js 1.第一个方法是把时间戳转成具体时间日期 /** * 对Date的扩展,将…

GPT-4 Copilot X震撼来袭!写代码效率10倍提升,码农遭降维打击

因公众号更改推送规则,请点“在看”并加“星标”第一时间获取精彩技术分享 点击关注#互联网架构师公众号,领取架构师全套资料 都在这里 0、2T架构师学习资料干货分 上一篇:2T架构师学习资料干货分享 大家好,我是互联网架构师&…

什么是生成器 — 一篇文章让你看懂

嗨嗨,我是小圆 ~ 今天来给大家讲讲什么是生成器 生成器是 Python 初级开发者最难理解的概念之一,虽被认为是 Python 编程中的高级技能,但在各种项目中可以随处见到生成器的身影,你得不得去理解它、使用它、甚至爱上它。 提到生成器…

怎么才能大批量生成原创文章

要大批量生成原创文章并不容易。毕竟,原创文章需要花费较多地时间和精力,才能够展现出高质量、有价值地内容。以下是一些方法可以帮助您大批量生成原创文章:1. 利用关键词通过使用关键词工具,寻找与您网站或品牌相关地长尾关键词。…

新媒体必备小技能——文章生成图片

相信公众号运营大家都不陌生了,与运营和自媒体相关的工作大多都会用到图文编辑,当然好看的排版直接影响读者的阅读体验!在日常编辑推文以及制作宣传的过程中,图片是必不可少的重要组成部分!96编辑器的一键生成图片功能…

狗屁文章生成器-批量生成原创文章自动发布网站-免费下载

狗屁文章生成器,什么是狗屁文章生成器,狗屁文章生成器从字面意思都能理解出来,就是生成的文章毫无逻辑感,胡乱生成,毫无可读性。只需要输入关键词就能实现狗屁文章生成。狗屁文章生成器。火于2020年某老板喊一员工写3000字原创检讨…

AI文章生成

文章 🧐一、我们在做什么🥱二、项目详情1.前端🙂(1)基本要求😐(2)批量操作功能🙁(3)模式选择功能 😟(4)模型选…

文章生成器-原创文章生成器

在网络营销领域,优质文章是吸引新客户和保留老客户的重要工具。然而,生成高质量且符合SEO优化的文章并不是一件容易的事情。这就是为什么网站文章生成器如今备受欢迎的原因。而在众多的文章生成工具中,147GPT批量生成文章软件是一款非常出色的…

GPT关键词挖掘,自动关键词文章生成

随着互联网的发展,内容营销已成为企业营销策略中不可或缺的一环。有效的关键词文章生成可以帮助企业吸引更多的潜在客户,提高品牌曝光度和转化率,从而实现营销目标。 关键词文章生成是指根据特定的关键词和主题,使用软件工具自动生…

ChatGPT添加插件功能:开始联网集成第三方服务 渐成操作系统

雷递网 乐天 3月24日 人工智能公司OpenAI日前宣布,正为ChatGPT添加对插件的支持——将其与第三方服务集成或允许其访问最新信息的扩展。OpenAI称,正从小处着手,研究现实世界的使用、影响、安全和校准挑战。 “据我们的迭代部署理念&#xff0…

最高年薪近56万!猎聘重磅发布2023最新AIGC就业趋势大数据报告

©作者 | 编辑部 来源 | 新智元 猎聘大数据研究院重磅发布《AIGC就业趋势大数据报告2023》,招聘平均年薪已达40万,博士需求量同比增长超100%。 不用赘述,大家都知道,最近半年ChatGPT是有多么火爆。 随着ChatGPT的全球爆火&…

文心一言与GPT-4比对测试!

Waitlist了三个星期,今天下午终于拿到了百度文心一言的体验资格,于是立刻展开测试。 根据文心一言网页端信息显示,目前最新发版是4月1号的版本,版本号是v1.0.3,应该是从上个月16号发布会以后又做了两版迭代。根据文心一…