从chatgpt来说说AI大模型

      最近几乎所有的热点都被chatgpt占据,相信大家都对chatgpt已经不陌生了,最近我也看了一些,总结了一些关于大模型的资料,有些不足或者建议,欢迎大家指正。

什么是AI大模型?

      AI大模型就是Foundation Model(基础模型),指通过在大规模宽泛的数据上进行训练后能适应一系列下游任务的模型。(Foundation Model名词来源李飞飞等众学者的这篇论文On the Opportunities and Risks of Foundation Models)。

      AI大模型是人工智能迈向通用智能的里程碑技术。深度学习作为新一代人工智能的标志性技术,完全依赖模型自动从数据中学习知识,在显著提升性能的同时,也面临着通用数据激增与专用数据匮乏的矛盾。AI大模型兼具“大规模”和“预训练”两种属性,面向实际任务建模前需在海量通用数据上进行预先训练,能大幅提升AI的泛化性、通用性、实用性。

大模型发展

      AI大模型发展起源于自然语言处理领域。在2017年Transformer网络提出后,伴随着参数量的不断提升,它在自然语言处理领域慢慢成为基础性架构,并在2018年其参数量达到3亿规模,也就是我们所熟知的BERT。基于如此之大的参数量,研究者发现它能够同时出色地完成多种自然语言处理任务,这也就吸引了越来越多的人加入其中。

      在大模型研究的早期阶段,仍然主要集中在自然语言处理领域,诞生了诸如上述BERT、GPT-3等一系列代表性模型,它们的参数量从起初的几亿,快速增长为数十亿乃至千亿规模。而随之带来的就是相应能力的提升,具备了从简单的文本问答、文本创作到符号式语言的推理能力;近两年,部分研究者提出了以其他模态(如视觉等)为基础的大模型研究,希望模型也可以看懂世间万物。在这个阶段,诞生了如ViT等包含数亿参数规模的视觉模型。 上述模型分别具备了读的能力和看的能力,研究者期望将这两类能力统一起来,具备如大脑体现的多模态感知能力,这一部分的代表性模型就是CLIP、DALL·E等模型。

      更多的多模态模型介绍详见 https://zhuanlan.zhihu.com/p/460512128

 主流大模型

(1)BERT:谷歌于2018年10月发布的BERT模型是最为典型的基础模型,它利用BooksCorpus和英文维基百科里纯文字的部分,无须标注数据,用设计的两个自监督任务来做训练,训练好的模型通过微调在11个下游任务上实现最佳性能。

(2)谷歌2021年发布的视觉迁移模型Big Transfer,BiT

(3)OpenAI在2020年5月发布的GPT-3则是一个自回归语言模型,具有1750亿参数,在互联网文本数据上训练得到的这一基础模型,可以使用提示的例子完成各式各样的任务,使用描述任务(如“把英文翻译成法语:”)加一个示例(如“sea otter => loutre de mer”),再给一个prompt提示(如“cheese =>”),GPT-3模型即可生成cheese对应的法文。这类模型正在成为主流的AI范式。

      以GPT系列为例:

      1)GPT-1是上亿规模的参数量,数据集使用了1万本书的BookCorpus,25亿单词量;

      2)GPT-2参数量达到了15亿规模,其中数据来自于互联网,使用了800万在Reddit被链接过的网页数据,清洗后越40GB(WebText);

      3)GPT-3参数规模首次突破百亿,数据集上将语料规模扩大到570GB的CC数据集(4千亿词)+WebText2(190亿词)+BookCorpus(670亿词)+维基百科(30亿词)。

(4)Google 去年提出了 FLAN,一个基于 finetune 的 GPT 模型。它的模型结构和 GPT 相似。但是不同于 GPT-3 的是,它基于 62 个数据集,每个数据集构造了 10 个 Prompt 模板,也就是总共拿到 620 个模板的数据之后再进行 finetune。

    更多介绍在此链接 https://zhuanlan.zhihu.com/p/545709881

国外大模型一览表

 上图来自链接:总结当下可用的大模型LLMs - 知乎

国内大模型发展情况

      2021年4月,华为云联合循环智能发布盘古NLP超大规模预训练语言模型,参数规模达1000亿;联合北京大学发布盘古α超大规模预训练模型,参数规模达2000亿。 阿里达摩院发布270亿参数的中文预训练语言模型PLUG,联合清华大学发布参数规模达到1000亿的中文多模态预训练模型M6。

      2021年6 月,北京智源人工智能研究院发布了超大规模智能模型“悟道 2.0”,参数达到 1.75 万亿,成为当时全球最大的预训练模型。

      2021年7月,百度推出ERNIE 3.0 知识增强大模型,参数规模达到百亿。

      2021年10月,浪潮发布约2500亿的超大规模预训练模型“源1.0”。 2021年12月,百度推出ERNIE 3.0 Titan模型,参数规模达2600亿。而达摩院的M6模型参数达到10万亿,将大模型参数直接提升了一个量级。

      到2022年,大模型继续火热。最开始,大模型是集中在计算语言领域,但如今也已逐渐拓展到视觉、决策,应用甚至覆盖蛋白质预测、航天等等重大科学问题,谷歌、Meta、百度等等大厂都有相应的成果。

国内大模型一览表

 

 图片来源:中国移动研究院发布的《我国人工智能大模型发展动态》

相关资料下载地址

https://download.csdn.net/download/sunnyrainflower/88058046

大模型与传统模型比对

AI大模型传统的AI模型
1

AI大模型得益于其“大规模预训练﹢微调”的范式,可以很好地适应不同下游任务,展现出它强大的通用性

由于数据规模或是模型表达能力的约束,这些模型往往只能有针对性地支持一个或者一类任务,而无法支持其他任务
2AI大模型预先在海量通用数据上训练并具备多种基础能力,可结合多种垂直行业和业务场景需求进行模型微调和应用适配传统AI能力碎片化、作坊式开发
3AI大模型已成为上层应用的技术底座,能够有效支撑智能终端、系统、平台等产品应用落地传统AI应用过程中存在的壁垒多、部署难
4在共享参数的情况下,只需在不同下游实验中做出相应微调就能得到优越的表现传统AI模型存在难以泛化到其他任务上的局限性
5自监督学习方法,可以减少数据标注,并且模型参数规模越大,优势越明显,避免开发人员再进行大规模的训练,使用小样本就可以训练自己所需模型,极大降低开发使用成本。人工标注成本高、周期长、准确度不高
6有望进一步突破现有模型结构的精度局限

模型精度--传统模型

      从深度学习发展前10年的历程来看,模型精度提升,主要依赖网络在结构上的变革。 例如,从AlexNet到ResNet50,再到NAS搜索出来的EfficientNet,ImageNet Top-1 精度从58提升到了84。但是,随着神经网络结构设计技术,逐渐成熟并趋于收敛,想要通过优化神经网络结构从而打破精度局限非常困难。

 模型精度--Bit模型精度

       以谷歌2021年发布的视觉迁移模型Big Transfer,BiT为例。扩大数据规模也能带来精度提升,例如使用ILSVRC-2012(128 万张图片,1000 个类别)和JFT-300M(3亿张图片,18291个类别)两个数据集来训练ResNet50,精度分别是77%和79%。另外使用 JFT-300M训练ResNet152x4,精度可以上升到87.5%,相比ILSVRC-2012+ResNet50结构提升了10.5%。

      (下图)通过模型参数来看大模型在参数规模变大时对精度的影响,彩色文字是对数据集的注释。

 算力需求

      使用单块英伟达V100GPU训练的理论时间来感受大模型对算力的需求,典型的大模型例如GPT BERT GPT-2等的训练时间如下。

       例如,GPT-3的训练使用了上万块英伟达v100 GPU,总成本高达2760万美元,个人如果要训练出一个PaLM也要花费900至1700万美元。 虽然训练会使用更大规模的算力消耗,推理会少非常多,比如清华大学与智谱AI联合开源的双语大模型GLM-130B,通过快速推理方法,已经将模型压缩到可以在一台A100(40G*8)或V100(32G*8)服务器上进行单机推理。但是一台A100的8卡机也是要大几十万(A100 40G单卡7w左右,8张卡则56w,那么整机也需要60w左右了),这个成本,对很多AI应用来说,还是很高。          

      好消息则是算力在迭代,算力成本也在下降,NVIDIA的H系列显卡,比如H100,单从算力(fp32)相比以往T4(深度学习1.0时代主流显卡),达到7倍++,坏消息则是H100这样的强大算力显卡被限制出口国内。          

      在大模型时代,针对Transformer结构优化的加速卡、工具链也在被不断推出,算力厂商在抢占大模型计算高地的同时,提高算力和降低成本,让大模型落地通路可行。

国内应用场景

      智源研究院针对2021年北京冬奥会,提出了“悟道”大模型用于冬奥手语播报数字人,提供智能化的数字人手语生成服务,方便听障人士也能收看赛事专题报道,提升他们的社会参与度和幸福感。这个项目还得到了北京市残疾人联合会和市残联聋人协会的大力支持。

       华为盘古CV大模型。主要是针对无人机电力智能巡检这个场景,以国网重庆永川供电公司为例,无人机智能巡检开发主要面临两个挑战:一是如何对海量数据进行高效标注;二是缺陷种类多达上百种,需要数十个AI识别模型。

      盘古CV大模型在数据标注方面,利用海量无标注电力数据进行预训练,结合少量标注样本进行微调,使得样本筛选效率提升约30倍,以永川供电每天采集5万张高清图片为例,可节省人工标注时间170人天。在模型通用性方面,可以做到一个模型适配上百种缺陷,替代原有20多个小模型,减少了模型维护成本,平均精度提升18.4%,开发成本降低90%。

       当然也缺少不了最近双十一,双十一是淘宝系统服务最繁忙的一天,如何有效地应对成千上亿的用户咨询。

      基于达摩院开发的M6大模型智能生成内容文案,方便智能客服进行上下文理解和问题回答生成。

      另外大模型的多模态特征提取能力,也能进行商品属性标签补充、认知召回等下游任务。

大模型训练框架

      目前部分深度学习框架,例如Pytorch和Tensorflow,没有办法满足超大规模模型训练的需求,于是微软基于Pytroch开发了DeepSpeed,腾讯基于Pytroch开发了派大星PatricStar,达摩院同基于Tensoflow开发的分布式框架Whale。像是华为昇腾的MindSpore、百度的PaddlePaddle,还有国内的追一科技OneFlow等厂商,对超大模型训练进行了深度的跟进与探索,基于原生的AI框架支持超大模型训练。

大模型主要头部厂商

      最主要的竞争对手有基于英伟达的GPU+微软的DeepSpeed,Google的TPU+Tensorflow,当然还有华为昇腾Atlas800+MindSpore三大厂商能够实现全面的优化。至于其他厂商,大部分都是基于英伟达的GPU基础上进行一些创新和优化。

 

 斯坦福大学大模型中心对全球 30 个主流大模型进行了全方位的评测

       GLM-130B 是亚洲唯一入选的大模型。在与 OpenAI、Google Brain、微软、英伟达、Meta AI 的各大模型对比中,评测报告显示 GLM-130B 在准确性和公平性指标上与 GPT-3 175B (davinci)  接近或持平,鲁棒性、校准误差和无偏性优于 GPT-3 175B。

      由清华技术成果转化的公司智谱 AI 开源了 GLM 系列模型的新成员——中英双语对话模型 ChatGLM-6B,支持在单张消费级显卡上进行推理使用。这是继此前开源 GLM-130B 千亿基座模型之后,智谱 AI 再次推出大模型方向的研究成果。

      开源的地址:https://github.com/THUDM/ChatGLM-6B

期望

      对于AI大模型而言,我们不仅期望它的参数量巨大,大模型也应同时具备多种模态信息的高效理解能力、跨模态的感知能力以及跨差异化任务的迁移与执行能力等。

      关于文章的内容放到了ppt里面,想要下载的朋友可以到我的资源里面下载,ppt做的比较粗糙,还请见谅。

https://download.csdn.net/download/sunnyrainflower/87642873

中国移动研究院于2023年4月发布的《我国人工智能大模型发展动态》在下面地址

 https://download.csdn.net/download/sunnyrainflower/88058046

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/5959.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

十大开源GPT替代模型,实现属于你自己的chatGPT

文章目录 LLaMAAlpacaAlpaca-LoRAChinese-VicunaBLOOMBELLET5BERTOPTGLM 公众号: MCNU云原生,文章首发地,欢迎微信搜索关注,更多干货,第一时间掌握! 今年chatGPT真的是出尽了风头,搞得好像凡是…

C讲坛之猜数字游戏的实现

大家好,这次博主将一步步教大家如何用C语言实现简单的猜数字游戏 目标:猜数字游戏 要求:随机生成一个1~100的值 输入猜测值后,如果猜测值大于随机值,会提醒“猜大了”,如果小于测试值,会提醒“猜…

使用c语言编写猜数字

要求:1自动产生一个1-100之间的数 2猜数字 a:猜对了,恭喜你游戏结束 b:你猜错了,会告诉猜大了,还是猜小了,然后继续猜 3游戏一直玩,除非退出游戏 解答: 通过分析我们可以…

用python实现猜数字游戏

✅作者简介:大家好我是hacker707,大家可以叫我hacker 📃个人主页:hacker707的csdn博客 🔥系列专栏:python 💬推荐一款模拟面试、刷题神器👉点击跳转进入网站 猜数字游戏 实现思路完整代码 结束语…

用python写一个猜数字小游戏

需要用到python的random库来随机生成一个需要用户猜的数字,之后判断用户输入的数字, 与生成的数字比较,并告知用户 先随机生成一个随机数 num random.randint(1, 49) # 随机生成一个1,49的数字 判断用户输入的数字 gues int…

运用Python实现猜数字游戏

一、猜数字猜数游戏是一个古老的密码破译类、益智类小游戏,通常由两个人参与,一个人设置一个数字,一个人猜数字,当猜数字的人说出一个数字,由出数字的人告知是否猜中:若猜测的数字大于设置的数字&#xff0…

手把手带你学会猜数字游戏代码编写

声明:因本人为非科班转码,个人水平有限,博客中难免有不准确之处,如有读者发现,本人恳请大家积极指出,本人也想知道自己的错误在哪里。欢迎大家一起指正,共同进步。 联系方式:314636…

用python,重温小时候猜数字大小游戏

目录 前言 一、猜数字实现思路 二、实例 代码: 效果: 解析: 三、总结 前言 游戏规则: 心里想一个0-100之间的数字,让用户猜,如果小了或者大了,就给予提示,直到用户猜到。 …

c语言那些有趣的事 -- 猜数字游戏

📕博主介绍:目前大一正在学习c语言,数据结构,计算机网络。 c语言学习,是为了更好的学习其他的编程语言,C语言是母体语言,是人机交互接近底层的桥梁。 本章用循环去写一些题目。 让我们开启c语言…

python实现猜数字游戏

欢迎光临我的blog!!!下面我将用python实现猜数字游戏。 用python实现猜数字游戏可以加深python初学者循环结构的理解和运用。 猜数字游戏规则如下: 电脑程序随机生成一个数字,作为猜数字游戏的最终答案,…

11行代码教你写一个猜数字游戏,妈妈再也不怕我无聊了

每次学完后总是可能忘掉或者一时记不起来所要用的东西,在网上找总是找不到自己要用的东西。或者给别人解释时太过麻烦,所以干脆发到csdn公开,一些好的文章或者程序早已年代久远或者不适用于现在的这个版本或许有更好的编写方法。 有时会写一些…

ChatGPT+Midjourney实现儿童绘本故事及其插图(数字1~10的故事)

团队模型、论文、博文、直播合集,点击此处浏览 一、背景 近期AI对话技术与AI绘画技术突飞猛进。其中1.)AI对话技术是指用于模拟人类语言交流的人工智能技术。它可以让机器通过自然语言文本或语音与人类进行交流,并能理解人类的话语内容并做出…

服务异常:本地计算机上的服务启动后又停止。某些服务在未由其他服务或程序使用时将自动停止

1、安装服务成功之后启动服务报错,如下 2、主要问题还是代码报错,可以进入进入计算机管理器,选择:诊断-事件查看器-windows日志-应用程序,选择错误消息查看报错日志,如下 3、查看日志分析报错原因&#x…

解决Linux关闭终端(关闭SSH等)后运行的程序或者服务自动停止【后台运行程序】

转载自:https://www.cnblogs.com/bohaoist/p/4965103.html 问题描述:当SSH远程连接到服务器上,然后运行一个服务 ./catalina.sh start,然后把终端开闭(切断SSH连接)之后,发现该服务中断&#xf…

ChatGPT大封号,注册功能关闭!亚洲成重灾区!

来源:量子位(ID:QbitAI ) 作者:明敏 萧箫 “不要登录ChatGPT!” “暂时远离人工智能和ChatGPT概念板块高位股!” 就在这两天,一些关于ChatGPT的疾呼突然在各种社交平台和群聊刷屏了。 而看到这…

突发 ChatGPT Plus停售?

现在,ChatGPT已不支持Plus付费了。 △ChatGPT截图 原因很简单:High demand。需求量太大,以至于OpenAI不得不暂停Plus的销售。 之后何时开放也没有明说。 前几天ChatGPT就因出现大规模封号引发热议,现在竟正儿八经地关闭了Plus…

突发!ChatGPT Plus停售!

Datawhale分享 最新:ChatGPT,来源:量子位 现在,ChatGPT已不支持Plus付费了。 △ChatGPT截图 需求量太大,地球上没有足够算力了? 原因很简单:High demand。需求量太大,以至于OpenAI不…

暂停更新,ChatGPT还能不能玩了

今天凌晨,一位网名anton的用户发推称:对GPT的需求如此之高,以至于现在新用户都无法升级到高级版了! 注意:官网只是说暂停升级,不是永久停售Plus! 一时间话题的焦点就引发到了“算力供应紧张”…

免费体验比ChatGPT更强大的AutoGPT

如果说chatgpt是汽车的话,那AutoGPT就是飞机 简单点说就是比chatGPT更进一步,AI自己上网、自己使用第三方工具、自己思考、自己操作你的电脑。执行设定的目标,直到完成。 不到3分钟搞定一个你想要的网站! Auto GPT与ChatGPT对比…

对抗 ChatGPT,免费体验 Claude

对抗 ChatGPT,免费体验 Claude Claude 是 Anthropic 构建的大型语言模型(LLM),对标ChatGPT。 Anthropic 创始团队多是前openai研究员和工程师,Claude 的特点是能够检测和回避ChatGPT的潜在陷阱,如逻辑错误…