从ChatGPT说起,AIGC生成模型如何演进

ChatGPT是继stable diffusion 之后,又一个火出圈的人工智能算法。这火爆程度不仅仅是科研圈子,包括投资圈都为之震惊,大家惊呼人工智能可能真的要取代人类了。网上关于ChatGPT的分析文章已经非常多了,小猿经过高强度的网络冲浪,整理出了AIGC算法演变。

生成模型:让AI也可以有灵魂

AI发展多年,过去解决的多是模态识别的问题,比如最成功的案例就是图像识别了。采用CNN算法,把信息与图能够通过AI训练的方式给训练出来,教会了AI去识别某个模态,在教科书里,被称为判别式模型 (Discriminant Model) 。抽象来看,就是训练一个巨大的神经网络(多层多参数)来实现输入和输出的映射关系。从数学来看,就是学习输入输出的条件概率分布,类似于因果关系。算法的本质是想更准确的控制映射关系。

然而,除此之外,还有一种叫生成式模型 (Generative Model), 是学习数据中的联合概率分布,类似于相关性,算法的本质并不是准确控制映射关系,而是在有相关性的基础上学习一个分布。

而生成模型的发展,使得AI变得更多多元,不仅仅可以用于图像识别声音识别这类模态识别问题,还可以实现更多创造性的工作。

Transformer 的横空出世,AIGC(文本)得以飞跃

事实上,在Transformer出来之前,文本也就是NLP的问题一般采用RNN(和语音类似),主要原因是文本有前后序列和语音是类比的。但是这种算法的效果并不好, 也导致NLP过去一直是落后于图像语音的,拿图像来说,CNN算法已经多个变种,已经可以实现非常好的效果,根据Stanford大学的《2022AI Index Report》如下图。Imagenet的图像识别挑战中,图像识别的准确度在2016年就已经超过了人类的标准值了,而最近几年几乎已经达到了峰值。

然而,对于自然语言的推理识别的准确度虽然从Transformer之后,快速提升,但是直到2021年还没有达到人类标准值,当然预计2022年之后肯定是一个大飞跃了。

在2013年,AI研究人员倒腾了一个自然语言处理的处理模型 Word2Vec。顾名思义,“Word2Vec”就是 “word to vector,从词到向量”。研究人员的目标是把一个单词变成一个数学向量,这个数学量在NLP里有个专门的名词,叫做Word Embedding(词嵌入)。

为啥要变成一个向量,出发点也很简单,如果能将每个单词都能表示为数学空间里的一个向量,那理论上,在这个向量空间里比较接近的词,就是意义接近的单词

但问题是利用Word Embedding只能初始化第一层网络参数,和图像处理领域的预训练能有效初始化大多数网络层级不可同日而语。

Transformer: 改变了NLP发展困境

而2017年Google发表的著名文章attention is all you need,提出了transformer模型概念,使得NLP上升了巨大的台阶。Transformer架构的核心是Self-Attention机制,该机制使得Transformer能够有效提取长序列特征,相较于 CNN能够更好的还原全局。

因为抛弃了传统的RNN模型,彻底规避了RNN不能很好并行计算的困扰,此外,每一步计算不依赖于上一步的计算结果,因此极大提高了模型并行训练计算的效率。此外,它能实现自我监督学习。所谓自我监督,就是不需要标注的样本,使用标准的语料或者图像、模型就能学习了。

随着Transformer的横空出世,根据Decoder/Encoder又可以划分为GPT/BERT模型。

BERT与GPT分别对应了Transformer的编码器与解码器。其中BERT可以被理解为双向的理解模型,而GPT可以被理解为单向的生成模型。

ChatGPT又相对于前几代改变了什么?

为什么试用过chatGPT的同学都感觉提升很明显?一个重要的原因是chatGPT引入了一个新的训练方法RLHF(论文Training language models to follow instructions with human feedback,发表于2022年3月),简单地说,就是用人类反馈的方式加强训练。

ChatGPT是基于GPT-3.5模型,训练集基于文本和代码,在微软Azure AI服务器上完成训练。

第一阶段:冷启动阶段的监督策略模型。

靠GPT 3.5本身,尽管它很强,但是它很难理解人类不同类型指令中蕴含的不同意图,也很难判断生成内容是否是高质量的结果。为了让GPT 3.5初步具备理解指令中蕴含的意图,首先会从测试用户提交的prompt(就是指令或问题)中随机抽取一批,靠专业的标注人员,给出指定prompt的高质量答案,然后用这些人工标注好的数据来Fine-tune GPT 3.5模型。经过这个过程,我们可以认为GPT 3.5初步具备了理解人类prompt中所包含意图,并根据这个意图给出相对高质量回答的能力。

第二阶段:训练回报模型(Reward Model,RM)。

这个阶段的主要目的是通过人工标注训练数据,来训练回报模型。具体而言,随机抽样一批用户提交的prompt(大部分和第一阶段的相同),使用第一阶段Fine-tune好的冷启动模型,对于每个prompt,由冷启动模型生成K个不同的回答,于是模型产生出了数据。之后,标注人员对K个结果按照很多标准(上面提到的相关性、富含信息性、有害信息等诸多标准)综合考虑进行排序,给出K个结果的排名顺序,这就是此阶段人工标注的数据。

第三阶段:采用强化学习来增强预训练模型的能力。

本阶段无需人工标注数据,而是利用上一阶段学好的RM模型,靠RM打分结果来更新预训练模型参数。具体而言,首先,从用户提交的prompt里随机采样一批新的命令(指的是和第一第二阶段不同的新的prompt,这个其实是很重要的,对于提升LLM模型理解instruct指令的泛化能力很有帮助)

AIGC(图像):从GAN到Diffusion

自2014年生成对抗网络(GAN)诞生以来,图像生成研究成为了深度学习乃至整个人工智能领域的重要前沿课题,现阶段技术发展之强已达到以假乱真的程度。

正如同其名字“对抗生成”, 这个深度学习模型的核心理念是让两个内部程序“生成器(generator)”和“判别器(discriminator)”互相PK平衡之后得到结果。

GAN的全称是 Generative A dversarial N etworks,从名称不难读出“对抗(Adversarial)”是其成功之精髓。对抗的思想受博弈论启发,在训练生成器(Generator)的同时,训练一个判别器(Discriminator)来判断输入是真实图像还是生成图像,两者在一个极小极大游戏中相互博弈不断变强。当从随机噪声生成足以“骗”过的图像时,我们认为较好地拟合出了真实图像的数据分布,通过采样可以生成大量逼真的图像。

虽然GAN效果出众,但由于博弈机制的存在,其训练稳定性差且容易出现模式崩溃(Mode collapse),如何让模型平稳地达到博弈均衡点也是一个问题。

GAN在“创作”这个点上还存在一个死结, 这个结恰恰是其自身的核心特点:根据GAN基本架构,判别器要判断产生的图像是否和已经提供给判别器的其他图像是同一个类别的, 这就决定了在最好的情况下,输出的图像也就是对现有作品的模仿,而不是创新。

CLIP:嫁接文本与图像

OpenAI团队,在2021年1月开源了新的深度学习模型 CLIP(Contrastive Language-Image Pre-Training)。一个当今最先进的图像分类人工智能.。

CLIP模型的训练过程,简单的说,就是使用已经标注好的“文字-图像”训练数据,一方面对文字进行模型训练,一方面对图像进行另一个模型的训练,不断调整两个模型内部参数,使得模型分别输出的文字特征值和图像特征值能让对应的“文字-图像”经过简单验证确认匹配。

CLIP搜刮了40亿个“文字-图像”训练数据,而这些都是广泛散布在互联网上的图片。互联网上的图片一般都带有各种文本描述,比如标题、 注释,甚至用户打的标签,等等,这就天然的成为了可用的训练样本。用这个特别机灵的方式,CLIP的训练过程完全避免了最昂贵费时的人工标注

CLIP的强大,通过强大训练集训练之后的,这个为后面文字生成图形打下了良好的基础。

CLIP模型的出现,成为跨模态生成应用的一个重要节点。自CLIP出现后,“CLIP+其他模型”在跨模态生成领域成为一种较为通用的做法。

Diffusion:让图像以假乱真

以Stable Diffusion模型为例,将CLIP模型和用于生成图像的Diffusion模型进行了关联。CLIP模型将持续计算Diffusion模型随机生成噪声与文本表征的相似度,持续迭代修改,直至生成可达到要求的图像。

Diffusion模型的工作原理:就是对于原有图形不断加高斯噪音直至完全变为纯噪音,然后再不断减少噪音直至恢复,让人工智能去学习这个过程,最后可以实现从潜变量到最后图像的生成关系。

下图是整体的结构示意图,其中Text Encoder是一种特殊的 Transformer 语言模型(CLIP的文本编码器),接收输入文本,输出蕴含语义的向量化表示。然后将蕴含语义的向量化表示送入Image Generator。

Stable Diffusion主要有三个组件,每个组件都有各自的神经网络。

(1)ClipText用于文本编码

输入:文本描述

输出:文本信息(77个token embedding,每个768维)

(2)UNet+Scheduler在隐信息空间逐步处理信息

输入:文本信息和噪声信息

输出:处理后的信息

(3)Autoencoder decoder使用处理后的信息绘制图像

输入:处理后的信息(维度(4,64,64))

输出:生成的图像(维度(3, 512, 512)(红/绿/蓝, 宽, 高))

实际上Stable Diffusion和之前的Diffusion扩散化模型相比,重点是做了一件事,那就是把模型的计算空间,从像素空间经过数学变换,在尽可能保留细节信息的情况下降维到一个称之为潜空间(Latent Space)的低维空间里,然后再进行繁重的模型训练和图像生成计算。

基于潜空间的Diffusion模型与像素空间Diffusion模型相比,大大降低了内存和计算要求。比如Stable Diffusion所使用的潜空间编码缩减因子为8,说人话就是图像长和宽都缩减8倍,一个512x512的图像在潜空间中直接变为64x64,节省了8x8=64倍的内存。

事实上,类似Stable Diffusion这种AI生成模型的一个核心思路,或者说很多深度学习AI模型的核心思路,就是把人类创作的内容,表示为某个高维或者低维数学空间里的一个向量(更简单的理解,一串数字)。

如果这个“内容->向量”的转化设计足够合理,那么人类所有的创作内容都可以表示为某个数学空间里的部分向量而已。而存在于这个无限的数学空间里的其他向量,正是那些理论上人类可能创造,但尚未被创造出来的内容。通过逆向的“向量->内容”的转换,这些还没被创造的内容就被AI挖掘出来了。

除了为人熟知的生成对抗网络(GAN),主流方法还包括变分自编码器(VAE)和基于流的生成模型(Flow-based models),以及近期颇受关注的扩散模型(Diffusion models)。

未来已至

以Transformer/Diffusion为代表的预训练/生成模型已经改变了人工智能的产业发展,使得创意类的事情得以实现,也让大多数人真正意识到人工智能不是以前那么呆呆傻傻做一个模式识别的工具了,而发展成有灵魂的技术。未来的人工智能算法发展还是继续沿着这个思路发展的(大模型+大算力的需求)。

以GPT3为例,其能力都来自于大规模预训练:在有3000亿单词的语料上预训练拥有1750亿参数的模型( 训练语料的60%来自于 2016 - 2019 的 C4 + 22% 来自于 WebText2 + 16% 来自于Books + 3%来自于Wikipedia)。其中:

  • 语言生成的能力来自于语言建模的训练目标 (language modeling)。

  • 世界知识来自 3000 亿单词的训练语料库

  • 模型的 1750 亿参数是为了存储知识,知识密集型任务的性能与模型大小息息相关。

当前的大模型 GPT-3 有 1750 亿参数,人类大脑有约 100 万亿神经元,约 100 个神经元会组成一个皮质柱,类似于一个小的黑盒神经网络模块,数量级上的差异决定了算力进步可以发展的空间还很大。国内的商汤大模型,目前有百亿级。

与此同时,今天训练 1750 亿参数的 GPT-3 的成本大概在 450 万美元左右,根据成本每年降低约 60% 的水平,供大模型提升计算复杂度的空间还很多。在大算力这件事情上,国内厂商还是有一定的优势,商汤的智能算力中心可以1天内可完成1000亿参数模型的完整训练,算力规模达5 Exaflops(1Exaflops等于每秒可达一百亿亿次浮点运算)。

红杉发布的《Generative AI: A Creative New World》

量子位整理的AIGC下游场景:

小猿思考:

1、传统的判别式模型解决了模态识别问题,而生成模型赋予了人工智能灵魂,从一个工具变成了一个“人”工智能。

2、算法推动了技术的发展 ,但算法就像艺术品,很难去投资算法,更多是去欣赏,观察技术奇点过后的应用爆发+大模型带来的产业变化。

最后,希望更多朋友可以加入我们

我们建立了一个非常有爱的组织,这里面有聊科技,也有聊投资,更重要的是一群自由且充满好奇的灵魂!

欢迎加助手微信入群(添加好友备注:姓名+公司名称)

Reference:

https://m.huxiu.com/article/733716.html

https://www.huxiu.com/article/664941.html

https://www.bilibili.com/video/BV1qY411d78s/?spm_id_from=333.999.0.0

https://www.bilibili.com/video/BV1zW4y1g7pQ/?share_source=copy_web&vd_source=fe0ed33242ba9d84a6e7da7e017223c2

https://mp.weixin.qq.com/s/gQzQhg3UTns_qvT8ZkYtrw

https://mp.weixin.qq.com/s/7N3HveaIfn2N-zKjBoRL1A

https://cloud.tencent.com/developer/article/2084049

https://hub.baai.ac.cn/view/21706

https://foresightnews.pro/article/detail/16469

https://www.sequoiacap.com/article/generative-ai-a-creative-new-world/

https://aiindex.stanford.edu/wp-content/uploads/2022/03/2022-AI-Index-Report_Master.pdf

http://www.caict.ac.cn/sytj/202209/P020220913580752910299.pdf

https://docs.qq.com/pdf/DWWFkSUp3YWF5SVpo?

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/5599.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

一文读懂以chatGPT为首的AIGC发展趋势

最近以ChatGPT为首的AIGC实在太火了,我从22年12月一直关注至今,也做了不少事,下面简单来说下我对此的一些看法: 首先先来看看AIGC事件发展的timeLine: 发展初期: 1、2022-11-30:OpenAI发布GPT…

终于有本书讲清了ChatGPT和AIGC的前世今生!

AIGC的各大门派是谁?典型技术都有什么? AIGC为什么在绘画领域先破圈?ChatGPT的有哪些局限性? 为何科技企业争相推出大模型? 人类的创新能力会被AIGC取代吗…… 诸如此类的这些话题呈现爆发性增长,频频被科技…

一文搞懂ChatGPT 和 AIGC 到底是什么?【最强科普】

目录: 1.AIGC是什么? 2.ChatGPT是什么? 3.ChatGPT发展的几个阶段? 4.ChatGPT能做什么? 5.ChatGPT的应用场景? 一、AIGC是什么? GC(Generated Content)&#xff1a…

不是,现在造车都得ChatGPT一下了吗?

金磊 梦晨 发自 凹非寺量子位 | 公众号 QbitAI ChatGPT的火,让全球概念股开启狂飙模式。 单是在国内资本市场,像百度、科大讯飞、云从等一众AI企业,可谓是一路“大写”的涨涨涨。 甚至是像搞手写识别、OCR的汉王科技都能连拉5个涨停板&#x…

ChatGPT出圈背后,生成式AI的春天到了?

配图来自Canva可画 2022年底,由人工智能实验室openAI发布的对话式大型语言模型ChatGPT一夜爆火,该产品以强大的文字处理和人机交互功能迅速成为炙手可热的新一代人工智能产品。相关数据显示,其在发布后五天之内用户量就达到了100万&#xff…

ChatGPT炸裂升级,百度文心一言背水迎战!股票动荡!

昨天百度文心一言发布会后,百度港股涨逾12% 又绿了。。。。 那为什么会跌这么狠呢?百度发布文心一言之后,为何中国的股市不升反降,反而是有一种消息落地,股价大跌的趋势呢? 首先, 文心一言发布…

太火了!ChatGPT原人马成立的公司,被谷歌急投4亿美元!现在改行学AI还来得及不?...

机器之心报道 机器之心编辑部 自研要上,收购也要上,不容有失。 神仙打架,科技巨头之间的 AI 竞赛,正在不断升温。 在微软与 ChatGPT 创建者 OpenAI 绑定在一起之后,谷歌选择转向一家由前 OpenAI 员工创立的公司&#x…

【汇正财经】资源股爆发,沪指重返3300上方

盘面回顾: 今日沪指全天优于创指,沪指午后重返3300点上方,收盘沪指涨0.49%,深成指涨0.12%,创业板指跌0.44%。煤炭、钢铁、有色等资源股走强,特斯拉新款Model3或标配4D毫米波雷达,概念股走势活跃…

网上最权威的人工智能分析

原创 纯科学个 目前,ChatGPT的出现引发了舆论对人工智能的一片讨论热潮。但是,业界和大众媒体认知错误最多、持续时间最长的技术之一就是人工智能了。 为什么本文敢说是“网上最权威”?1980年进入大学期间我最感兴趣的技术就是计算机&#xf…

ChatGPT原班人马成立的公司,被谷歌紧急投了4亿美元

点击上方“AI遇见机器学习”,选择“星标”公众号 重磅干货,第一时间送 来自:机器之心 自研要上,收购也要上,不容有失。 科技巨头之间的 AI 竞赛,正在不断升温。 在微软与 ChatGPT 创建者 OpenAI 绑定在一起…

Transformer通俗笔记:从Word2Vec、Seq2Seq逐步理解到GPT、BERT

前言 我在写上一篇博客《22下半年》时,有读者在文章下面评论道:“july大神,请问BERT的通俗理解还做吗?”,我当时给他发了张俊林老师的BERT文章,所以没太在意。 直到今天早上,刷到CSDN上一篇讲…

争议:高等教育是否应该接纳ChatGPT

近日,ChatGPT引发热议。一方面,ChatGPT表现亮眼,有大学生利用ChatGPT在开卷课堂上取得满绩的优异成绩;另一方面,部分院校、学术期刊却对ChatGPT在高等教育领域的推进保持谨慎态度,甚至有高校明确禁止这项工…

2023热点持续,站在 ChatGPT 的肩上编程

有人说:一个人从1岁活到80岁很平凡,但如果从80岁倒着活,那么一半以上的人都可能不凡。 生活没有捷径,我们踩过的坑都成为了生活的经验,这些经验越早知道,你要走的弯路就会越少。 2022 年,人工智…

LLM模型中英文评测基准

文章目录 中文评测基准C-EvalGaokaoAGIEvalCMMLUPromptCBLUE 英文评测基准MMLUOpen LLM Leaderboard 中文评测基准 Awesome-Chinese-LLM:https://github.com/HqWu-HITCS/Awesome-Chinese-LLM 该项目收集和梳理中文LLM相关的开源模型、应用、数据集及教程等资料&…

当ChatGPT参加中国高考,把全国A卷B卷喂给它后,竟严重偏科

作者 |Python ChatGPT作为一个智能人机对话应用,在推出后迅速风靡全球。仅仅一个月的时间,其用户数量已经突破了一亿大关。人们也用ChatGPT测试了很多考试项目,例如SAT、AP、GRE等。然而,如果让ChatGPT来参加我们中国的高考&…

看百度文心一言实力,再聊ChatGPT触类旁通的学习能力如何而来?

图文原创:亲爱的数据 美国大模型水平领先,国内大模型蓄势而发。 国内大模型参与者众多,百度文心一言第一个有勇气站出来发布。 此处应有掌声。 事前事后,中国网友的呐喊声不绝于耳:“文心一言到底什么水平啊&#xff1…

山东大学教授团畅谈ChatGPT革命座谈会,探讨ChatGPT发展趋势

2月18日,由山东大学多院系教授学者组成的山东大学教授团在济南福瑞达自贸创新产业园举行了“畅谈ChatGPT革命”座谈会,诸位教授学者就ChatGPT出现的影响进行了探讨。 产业园首席顾问李铁岗教授向大家介绍产业园区 山东大学经济学院教授、济南福瑞达自贸创…

ChatGPT最强对手,实测却输给了文心一言!

侵犯版权、隐私、遭遇轮番起诉,ChatGPT访问量直线下降,市场竞争力暴跌! 就在此时,Open AI的最强竞争对手Anthropic趁虚而入,推出Claude 2,杀它个措手不及。一批网友抢先体验过后,铺天盖地一片好…

漫画科普ChatGPT:绝不欺负文科生

图文原创:亲爱的数据 你所热爱的,都值得拥有一个名字。 世界上里程碑式计算机,问世之时大多拥有自己的名字。 我认为,假如计算机的诞生是元年,下一个元年将会是“奇点”。 不是比特币,不是虚拟现实&…

为什么说 ChatGPT 引爆第四次工业革命?

如果看不懂当下,请回忆历史,因为曾经发生过。 如果忘记了历史,请看看当下,因为历史正在重演。 我问佛:何为对的人? 佛说:一见你 ,就笑的人;一见,你就笑的人&a…