微软 CTO 断言,明年是AI社区最激动人心的一年,网友:GPT-4 要来了?

826741035daed6bf939ff597b4b6a87a.jpeg

来源:AI前线 

整理:褚杏娟 核子可乐

GPT 不出,AI 万古如长夜。

“对于人工智能,2022 年是有史以来最激动人心的一年。”微软首席技术官 Scott Stein 在近日的分享中说道,但他还自信地表示,“2023 年将是 AI 社区有史以来最激动人心的一年。”

值得关注的是,微软是 OpenAI 的主要投资者,而 OpenAI 最近 GPT-3.5 系列主力模型之一的 ChatGPT 爆火,Stein 的这次发言也牵动了网友敏感的神经:GPT-4 要来了?

生成预训练 transformer(Generative Pre-trained Transformer,简称 GPT)是一种可利用互联网数据进行训练的文本生成深度学习模型,在问答、文本摘要、机器翻译、分类、代码生成和对话式 AI 领域都有相当出色的表现。

2022 年 7 月,OpenAI 发布了最先进的文本转图像模型DALLE-2。就在几周之后,Stability.AI 推出了 DALLE-2 的开源版本,名为 Stable Diffusion。两款模型在亮相后均大受好评,也在质量和理解文字描述的能力上展现出可喜的成果。最近,OpenAI 又推出名为 Whisper 的自动语音识别(ASR)模型,带来了优于原有同类模型的稳健性和准确度。

从过往趋势来看,OpenAI 在接下来几个月内推出 GPT-4 的概率很大。市场对大语言模型有着相当迫切的需求,GPT-3 的流行已经证明大家愿意接受 GPT-4,同时也对它的准确性、计算优化、更低偏差和更高安全性充满了期待。

GPT 不出,AI 万古如长夜

在 GPT-1 之前,大多数自然语言处理(NLP)主要针对分类和翻译等特定任务进行训练,使用的也均为监督学习方法。这类学习方法有两个问题:过度依赖注释数据,而且无法实现任务泛化。

ac884c41f45d6bbbc9465c9c82d889f9.jpeg

GPT-1(1.17 亿参数)相关论文《Improving Language Understanding by Generative Pre-Training》发表于 2018 年,其中提出了一种生成语言模型,能够使用未标记数据进行训练,并在分类和情感分析等特定下游任务上进行微调。

e37e610e384d2e2d1dc4b59df92030d4.jpeg

GPT-2(15 亿参数)论文《Language Models are Unsupervised Multitask Learners》发表于 2019 年,其中使用的参数更多、训练数据集也更大,语言模型自然进一步提升。GPT-2 使用任务调节、零样本学习和零样本任务转换等方式提高了模型性能。

d0d0e2a9db1df032f0a1344594eb4e67.jpeg

GPT-3(1750 亿参数)论文《Language Models are Few-Shot Learners》发表于 2020 年,其模型参数达到了 GPT-2 的 100 倍,使用的训练数据集更大,因此能在下游任务上取得更好的效果。

GPT-3 在故事写作、SQL 查询、Python 脚本、语言翻译和摘要编写等能力上几乎能够与人比肩,效果惊艳全球 AI 界。如此出色的表现,离不开其中的上下文学习、少样本、单样本及零样本等技术设置。

GPT-4 可能是什么样子

在最近的活动中,OpenAI CEO Sam Altman 证实了 GPT-4 模型的发布传闻。下面是国外数据培训企业 DataCamp 对 GPT-4 模型大小、参数水平以及计算、多模、稀疏性及性能等方面的预测。

 模型大小

根据 Altman 的介绍,GPT-4 并不会比 GPT-3 大太多。因此,预计其参数大约在 1750 亿到 2800 亿之间,跟 Deepmind 那边的语言模型 Gopher 基本相当。

块头更大的 Megatron NLG 是 GPT-3 的三倍,参数达 5300 亿,但性能并没有更好。紧随其后的稍小版本反而性能更优,所以单纯堆体量明显不足以让性能更上一层楼。

Altman 表示,他们正努力让更小的模型获得更佳性能。大语言模型需要庞大的数据集、海量算力和更复杂的实现。对于多数企业来说,不要说训练,这类大模型就算部署起来都困难重重。

 最优参数化

大模型的优化水平往往不高,为了有效控制模型训练成本,企业必须在准确性和成本之间做出权衡。例如虽然还能改进,但 GPT-3 确实只训练过一次。由于无法承受成本,研究人员根本没办法进一步做超参数优化。

微软和 OpenAI 已经证明,如果用最佳超参数对 GPT-3 进行训练,该模型还有继续改进的空间。在调查结果中,他们发现经过超参数优化的 67 亿参数 GPT-3 模型与 130 亿参数 GPT-3 模型的性能基本一致。

他们还发现了新的参数化方法(μP),即较小模型的最佳超参数与相同架构的较大模型的最佳超参数相同。如此一来,研究人员就能以更低的成本实现大模型优化。

 最优计算

DeepMind 最近发现,训练令牌的数量对模型性能的影响也很大,甚至不亚于模型大小。自 GPT-3 面世以来,他们一直在训练具有 700 亿参数的 Chinchilla 模型并证明了这一结论。该模型只相当于 Gopher 的四分之一,但使用的训练数据反而是后者的四倍。

所以我们基本可以假设,要实现模型最优计算,OpenAI 会额外再加 5 万亿个训练令牌。就是说要想将性能损失控制在最低,GPT-4 的模型训练算力将达到 GPT-3 的 10 到 20 倍。

 GPT-4 将是一套纯文本模型

在问答当中,Altman 表示 GPT-4 不会是像 DALL-E 那样的多模模型,而是纯文本模型。

为什么这样说?与纯语言或纯视觉相比,多模模型的质量往往难以控制。将文本和视觉信息结合起来本身就是个大挑战,导致多模模型需要身兼 GPT-3 和 DALL-E 2 的双边优势,这显然很不现实。所以,GPT-4 应该不会出现什么花哨的新功能。

 稀疏性

稀疏模型使用条件计算来降低计算成本。这类模型可以轻松扩展至超过 1 万亿参数,仍不会产生高昂的计算成本。稀疏模型能帮助我们用较低的资源训练出大语言模型。

但 GPT-4 应该不会是稀疏模型。为什么?因为 OpenAI 长期以来只研究密集语言模型,所以不太可能牺牲体积换取算力节约。

 AI 对齐

考虑到 OpenAI 一直在努力解决 AI 对齐问题,所以 GPT-4 的表现应该会比 GPT-3 更好。OpenAI 希望语言模型能延伸我们的认知、坚守人类的价值观,并为此训练出了 InstructGPT。作为 GPT-3 的变体模型,其根据人类反馈接受了训练以确保遵循指令。有专家认为,该模型在多种语言基准上的表现均优于 GPT-3。

目前,GPT-4 的发布日期仍未确定。所以我们可能要到明年才能见其真容,也可能在下个月就迎来惊喜。但唯一可以肯定的是,下个版本一定能解决旧版本的某些问题,并带来更好的性能表现。

当然,目前已经出现了不少关于 GPT-4 且自相矛盾的传闻。比如说它有 100 万亿个参数,而且专门用于生成编程代码。但这些都是纯猜测,没有任何根据。我们不清楚的情况还有很多,毕竟 OpenAI 没有公布关于其发布日期、模型架构、大小和训练数据集的任何消息。

结束语

AI 模型开发领域,经历了预训练模型 - 大规模预训练模型 - 超大规模预训练模型的演进。Google 发布的 Bert 模型即是自然语言处理领域最为典型的预训练模型。OpenAI 则提出了 GPT 模型,尤其是 2020 年发布的 GPT-3 模型参数量达到 1750 亿,其在全球掀起大模型的浪潮。

根据 IDC 观察,国内大力投入大模型研发和落地的以大型云厂商为主。例如百度智能云推出了“文心大模型”,包括了 NLP 大模型、CV 大模型以及跨模态大模型等 36 个大模型;阿里达摩院则推出“通义大模型”系列,以 M6 大模型为底座,发布 Alice 一系列模型合集;华为则从框架层、算力层以及软件层面全面发力大模型,既有内部自主研发的盘古大模型,也开放华为昇思 MindSpore 框架支持业界进行大模型的训练。

随着市场对于大模型的认知逐渐理性和落地,使用大模型的价值也开始凸显,如不要求企业具备海量的数据基础、应用大模型的效果更优、降低 AI 开发门槛等。很多 AI 先行者已经在成熟度较高的场景中引入了大模型。

大模型为人工智能未来发展带来了全新的可能,未来将如何迸发出新的可能,我们拭目以待。

 参考链接:

https://www.datacamp.com/blog/what-we-know-gpt4

https://the-decoder.com/microsoft-cto-scott-stein-predicts-most-exciting-2023-for-ai-with-gpt-4-on-the-horizon/

https://www.idc.com/getdoc.jsp?containerId=prCHC49424422

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

5cb76f80b0aaa350ccdf24bfb646b676.jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/18022.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

英伟达、Google与Adobe陆续推出AI模型,未来还会有多少职业会被取代?

3月21日晚,关于GPT的热点依然在继续。 在一年一度的GTC大会上,英伟达发布了新显卡H100 NVL,它拥有双GPU NVLink与188GB HBM3内存,专为算力需求巨大的ChatGPT而设计。 Adobe Premiere的傻瓜式插件Runway Gen 2也首次披露&#xff0…

【大模型】—LangChain开源框架介绍

大模型——LangChain开源框架介绍 2023年可以说是AI大语言模型发展元年,随着OpenAI的ChatGPT和GPT-4的发布,点燃了人工智能大语言模型的发展浪潮,各大科技公司纷纷推出了自家的大语言模型产品,各国更是将大语言模型的发展作为人工…

程序员变高危职位!又一个删库跑路进去了

上一篇:中国各城市首轮感染高峰期预测! 最近又有一个同行为了泄私愤,又删库跑路了。(我为什么要加个“又”?) 一提到「删库跑路」,大众肯定最新会想到程序员群体。 没错,我们手上握着…

【电商AI工具一期】AI引领电商新风潮:20款AI电子商务工具盘点,让你实现财富增长!

注: 本文可自由转载 0. 未来百科 未来百科(https://nav.6aiq.com),是一个知名的AI产品导航网站 —— 为发现全球优质AI工具而生 。目前已 聚集全球3000优质AI工具产品 ,旨在帮助用户发现全球最好的AI工具,同时为研发AI垂直应用的…

如何使用ChatGPT帮助孩子辅导作业?

如果您对自媒体内容感兴趣,关注公众号:色宁AI,发送邮件给tiktok_top_listshsening.com即可加入邮件列表,可免费获取youtube/tiktok top100热门视频名称和链接,每天免费发送,每天免费发送,每天免…

面对ChatGPT的挑战,教育如何接招?

面对以ChatGPT为代表的AI所带来的挑战,教育必须看清未来趋势,要不然费劲心思育人,就如同埋头苦干造了一艘船,过了几十年却发现旅行目的地是沙漠一样无用。 为此,上海市教育委员会副主任倪闽景提出,教育改革…

如何借力ChatGPT辅导孩子学习和成长

ChatGPT云炬学长 公众号:云炬网络 ChatGPT不仅可以成为一名优秀的教师,甚至可以成为教育大师,让您的孩子直接与教育大师对话、学习、进步。 这在AI 2.0之前,是无论如何也无法想想的。 下面,就让ChatGPT成为下面4位…

ChatGPT对未来教育的影响:教师学生需要掌握这个新能力

美国人工智能公司OpenAI的大语言模型ChatGPT在推出约两个月后,1月已达到1亿月活跃用户,成为历史上增长最快的消费者应用程序。 目录 01.诞生过程 02.背后的技术 03.颠覆的行业 04.对教育的未来变化 01.诞生过程 2018年6月,拥有1.17亿参…

用 Python 实现 OpenAI 余额查询功能

大家开发完 OpenAI 的产品后经常需要关注费用情况,也有很多网站支持输入 api_key 查询余额。 但是,你真的敢用么? 这里教大家自己用 python 写一段查询 openai key 的代码,如下: import datetime# 用您的 API 密钥替…

关于chatGPT、AI绘画、AI提示词等AI账户积分用完获取的办法

账户余额充值教程 11、如果对应的AI工具余额不够了,只需要点击上面的RECHANGE充值对应的账户即可。例如:我这里以充值ChatGPT账户为例子。 11.1点击RECHARGE CHATGPT 11.2、点击…

2023商业版ChatGPT网页版源码V4.7.2+新增后台查KEY余额功能

正文: 4.7.2版 新增后台批量查KEY余额 修复邮箱可反复注册的BUG 优化前端UI手机端小BUG 修复SQL语句执行错误 修复数据库用户注册后密码明文显示BUG 安装教程: 搭建宝塔 解析域名 上传程序至根目录 配置数据库信息:lib/config.php 导入数据库 PHP选择:7.3 访问网…

2023最新ChatGPT余额查询网页源码+实测直接用/已配置API接口

正文: 实测可用,界面轻量级,接口已配置,直接用就可以了,有需要的可以自己拿去安装查询吧,是html的,不用上传到服务器也可以用。 程序: wweorg.lanzout.com/iLZ9K0v1fjzc 图片:

ChatGPT 余额查询接口

接口地址: http://freeapi.club:9001/openai/apikeyBilling/2/sk-xxxx 请求类型: get 参数说明:2 为最近几天的使用情况。结果中会有最近2天内各种模型使用的token数量 sk-xxxx 为你的apikey 浏览器可以直接访问,结果json格式化一下就好。 {"u…

智能优化算法:CEC23组常用测试函数公式介绍

智能优化算法性能比较:常用的23组测试函数 文章目录 智能优化算法性能比较:常用的23组测试函数1. 单模态的基准测试函数2. 多模态的基准测试函数3. 复合基准测试函数4. 测试函数代码5. 智能优化算法的性能对比5.1 对比结果在智能优化算法的性能比较过程中,经常会需要用到一些…

LaTeX 免费神器!再也不怕复杂的公式了

(给程序员的那些事加星标) 综合整理:算法爱好者(ID:AlgorithmFans) 推荐一个免费神器 Snip,能把各种公式转成 LaTeX。 下载链接: https://mathpix.com/ 简单易用 1、快捷方式启动 2、…

如何使用BBP公式直接计算π的第n位

使用BBP公式可以直接求得十六进制π的第n位而不需要计算前n位的数(讲道理,我认为是可以计算十进制的第n位的,毕竟其本身就能直接计算出十进制的π,但我没试),其优点在于可以进行分布式计算,即将一个耗时的运算拆分成若…

成功率100%的通达信指标公式,你敢相信吗?

前几天,有人问能不能把通达信副图公式改成选股公式。我把指标公式加载到副图(如上图),发现这个指标真是牛了,成功率100%,发出信号的之后两天,总是能涨。难道找到了交易的圣杯,如果按…

能正常支付的的虚拟信用卡汇总

前言 OpenAi采用的是Stripe Checkout进行付款,理论上支持大多数卡种,包括Visa、万事达和银联等。然而,由于OpenAI在Stripe中限制了部分国家的银行卡支付,因此可能会出现一些支付问题。最近您尝试使用了不少卡种,包括实…

ChatGPT专业应用:文章相似度比较

正文共 683 字,阅读大约需要 4 分钟 学术研究/编辑人员必备技巧,您将在4分钟后获得以下超能力: 文章相似度比较 Beezy评级 :B级 *经过简单的寻找, 大部分人能立刻掌握。主要节省时间。 推荐人 | Kim 编辑者 | Zara ●…