2022,AIGC元年?

bae999bf53c01a39d64ebbd687484f2f.gif

文|世昕

编|石灿

2022年12月16日,Science杂志发布了2022年度科学十大突破,韦伯望远镜当选为年度最大科学突破,可谓实至名归。而在其他入选的科学突破中,AIGC也赫然在列。

这或许是当下最炙手可热的概念了。无论是火遍全网的AI绘画,还是震惊世人的ChatGPT,都属于AIGC这一概念,即生成式AI。凭借着诸多明星技术、产品的问世,谁也没有想到,在元宇宙、web3等概念叱咤风云的2022年里,AI凭借“创作”强势崛起了。

有人认为,AIGC将会改变内容领域的生产方式,带来整个行业的变革,也有人认为AIGC将会取代大多数创作者,带来灾难性的影响。在各种言论甚嚣尘上之时,一个共识似乎悄然达成了,从2022年开始,AIGC将迎来完全不同的发展时期。

2022年,真的是AIGC的元年吗?

AIGC编年史

首先明确一个定义,何为AIGC?

跟PGC、UGC、PUGC等概念一样,AIGC即是指利用人工智能技术生成内容,也就是说内容的制作者从实打实的人或机构变成了AI。

AI绘画最早要追溯2014年,GAN(生成式对抗网络)的诞生。据说人工智能专家Ian Goodfellow在一次酒后想到了这一深度模型概念,基于CNN(深度卷积神经网络),GAN创造性地将两个神经网络进行对抗,即生成器与鉴别器。生成器用于生成“造假数据”,鉴别器用于判断数据的真伪,在两者的对抗中,逐渐演化出强大的“造假能力”,而这种造假能力则用于图像的合成。

da1c0c8511d3101a0435bed6649cb3c0.jpegGAN之父Ian Goodfellow,图源网络

GAN被称为21世纪最强大的算法模型之一,Ian Goodfellow也一跃成为AI领域最知名的专家之一。2015年开始,GAN开始被投入实际运用中,相关的论文也爆发式增长,也成为AI生成图像、处理图像任务里最常见的存在。

在GAN大放异彩的2015年,一家公司在美国硅谷成立,其背后站着“钢铁侠”埃隆·马斯克、Y Combinator总裁阿尔特曼、天使投资人彼得·泰尔等一众硅谷大佬,这家公司就是ChatGPT的缔造者——OpenAI。

OpenAI创立的初衷是预防人工智能带来的灾难性影响,推动人工智能发挥积极作用,虽为公司,但OpenAI是一家非营利机构,是马斯克等大佬用爱发电的产物,在创立之初,大佬们投入了10亿美元用于AI的开发。2016年,OpenAI进一步明确了自己的目标,即向AGI(通用人工智能)研究发力,致力于让AI成为改变人类生活的新技术。

OpenAI最大的特点即是“Open”,即开放AI能力,全球研发者都可以通过其提供的开发与研究框架投入AI开发中,共同促进AI技术的发展。也是从2016年开始,OpenAI推出了自己的AI平台Universe。故事轰轰烈烈地开始了。

时间来到2018年,Transformer 架构的发展改变了NLP(自然语言处理)技术的发展,预训练模型的引入改变了一切。GPT系列正是OpenAI在NLP(自然语言处理)领域打造的模型,其第一款产品GPT-1也是在2018年正式推出。GPT-1的独特之处在于“半监督”,在此前的NLP模型中,AI需要基于特定任务对大规模数据集进行学习,而这些数据是需要“监督”的,即人为地对数据进行标注。

GPT-1则可以在开始进行无监督学习的预训练,通过对数据的学习增强语言能力,最后进行部分有监督的微调。简单来说,GPT-1可以用更少的资源和数据进行更具效率的学习,但GPT-1仍旧是青涩的,一方面碍于训练数据的有限,AI的“世界观”很有限,另一方面其性能仍旧不够好,远远达不到对话的能力。

自2018年开始NLP领域迎来了飞速发展,也从某种程度上改变了AI生成图像的未来,也就是AI绘画。

2020年是翻天覆地的一年。彼时,OpenAI推出了GPT-3,相比前两代,这一次GPT实现了进化,GPT-3的参数超过1750亿个,是人脑神经连结的十分之一,与此同时GPT-3的性能也更强,它能够识别更深层次的文本含义,并进行反馈。GPT-3的推出是一场革新。

907a7ae0c8606013e6046e0c0fac2101.png

与此同时,在图像生成领域,一场革命也在发生。尽管GAN已经能生成较高质量的图片及内容,但相较来说,其效率较低,同时生成的图像始终难以令人满意。而Transformer架构的出现改变了一切,自此开始,图像合成领域告别了GAN时代,NLP与计算机视觉技术搭配的新时代来临了。

随后便是我们熟知的故事了。2022年9月,AI绘画爆火,11月30日,ChatGPT横空出世,正式让全世界看到了AIGC的“强大”。

AIGC国内玩家

在OpenAI等行业巨头的带领下,海外AIGC产业正处于一个高速发展时期,那么在国内,AIGC发展到哪一步了?

首先我们需要认识到一个现实,相较于美国,国内AIGC领域的发展是相对滞后的,但近几年来,阿里巴巴、百度、腾讯等互联网巨头都注意到了AIGC这一未来的产业富矿。

国内AI领域,绕不开的一家公司即是百度。

在五个月前的百度世界大会上,百度CEO李彦宏就着重强调了AIGC,他认为,AIGC不仅能够提升内容生产小笼包,还能创造出有独特价值的独立视角的内容。在世界大会上,百度AI也展示出了自己的实力:在十分钟内复原了《富春山居图》的残卷,其背后依赖的深度学习模型,即是百度的当家模型——文心大模型。

dfd90ef53dac05c01f52c1881caf93b4.png百度AI复原的《富春山居图》,图源网络

文心大模型起源于2019年,是百度深耕预训练模型的产物,其核心特色在于“知识增强”,能够对海量数据进行深度学习,并为多种AIGC应用提供支持。目前为止文心大模型已经发布了超过十多个大模型,形成了一个大模型家族。

在世界大会两个月后的万象大会上,百度还发布了AI助理,根本上是多种AIGC应用的集合,包括文本生成、图片生成,图片转换视频等多种功能,最值得关注的一点是,其直接面向用户与内容创作者,也就是说,AIGC技术的C端应用化正在实现。

AIGC也不止图像生成、文本生成等领域,AI创作同样是多元的,音乐、编程等领域同样在飞速发展。

就在不久前,昆仑万维高调宣布入局AIGC领域,并发布了“昆仑天工”模型。这一成立于2008年的公司早期以游戏代理起家,自2016年起,昆仑万维在海外建立起庞大业务,成为国内知名的出海巨头之一,近年来,昆仑万维更是发力元宇宙社交等领域,而这一进军AIGC,也是早有准备。

自2020年起,昆仑万维便组建了超过200人的AIGC团队,训练集群200张卡,投入数千万元,并在2021年4月研发出了百亿参数的中文GPT-3模型。值得关注的是,在很多人忽略的音乐领域,昆仑万维也取得了不错的进展,于2022年1月启动的SkyMusic已经可以实现生成商用级别的音乐。

3d3f2a8a47beb0b086f137f4ce53aa0d.jpeg

值得注意的是,昆仑天工选择开源,与百度一样,昆仑万维坚信开源能够给AIGC带来更长效的发展力,并致力于降低AIGC技术的使用门槛,让AI能够帮助更多内容创作者。

除了以上提到的这两家公司外,在国内AIGC领域,垂直赛道的初创公司也势头正劲,覆盖AI音乐、虚拟人、AI音频语音、AI游戏等领域。

但另一个事实也同时存在,相较于OpenAI等海外巨头,国内AIGC领域公司仍存在较大的差距,一方面在组织架构方面,国内基本都基于公司自身的科研团队,而OpenAI等组织更类似一个研究院,能够通过开放共享的模式吸纳全球顶尖科研人才。

另一方面,国内AIGC相关公司面对的营收压力客观存在,很难像OpenAI等平台不计成本的进行投入。但伴随着AIGC逐渐成熟的商业化以及更广泛的应用,或许国内AIGC领域即将迎来春天。

为何元年?

回到最开始的那个问题,2022年为何会被看作AIGC的元年?

其实深入了解AI绘画与ChatGPT就能理解这一说法:

2022年8月,人工智能公司Stability AI推出了AI文生图模型Stable Diffusion(扩散模型),将AI图像生成的效率与精度提升到了前所未有的量级,在最基础的终端设备上,只需输入关键词,就能生成高质量的AI图像,几乎让整个世界为之疯狂。AI绘画的爆发式发展也第一次让C端感受到了AIGC的强大魅力。

而ChatGPT的到来更令人震惊。作为基于GPT-3.5的对话式AI,ChatGPT最大的特点即是能够“理解”对话者的语义,能够进行更有效的反馈,并进行连续对话。基于对超大规模数据的深度学习,ChatGPT在文本生成领域几乎能“以假乱真”,让你认为其真的拥有了意识。此外,ChatGPT不仅能答疑解惑,还能写故事、作诗,甚至编程,生成内容的能力空前提高。

e91a3d88d8f6fe0352887d27ce870fb1.png

AIGC元年的秘密就藏在这两个模型里。

第一,在性能上,AI已经实现了“进化。相比以前的GAN图像生成模型,Stable Diffusion最大的特点就在于精准,只要输入对关键词,其就能产生较为接近的图像结果,这是此前的图像生成很难做到的。ChatGPT也同样是高性能的,有人几乎把它当做了谷歌一样的搜索引擎,正是在于其对于文本的深度分析并能够生成较为精确的反馈。而各种生成内容则进一步显示了其性能的强大。

第二则在于“理解”。这点在ChatGPT上体现的更加明显,相比此前的对话AI,人们惊奇的发现,ChatGPT似乎能够理解文本更深层次的含义,无论是连续流畅的对话,还是对于错误想法的纠正,都让人感觉到对面的AI似乎是有思想的,尽管其只是类似“中文屋”的深度学习的产物,但强化学习模型的加入会让其不断进化,对话任务也完成的更加出色。

最后则在于更大范围的应用。相比于此前的“圈内狂欢”,2022年的AIGC真正做到了全民关注,这是技术飞速发展下的产物,以Stable Diffusion为例,其最大的特点即是低门槛,不需要多强大的显卡与服务器,最普通的PC就能完成任务。同时平台的封装也让AIGC更加“平易近人”,AI绘画仅需要输入关键词,ChatGPT也只需要网页和提问栏就能实现对话,这让普通人接触AIGC的机会大大增加了。

AIGC在2022年的火爆,是技术积累与发展策略双重变革的产物,从某种角度来看,称之为元年也并不为过,只不过2022年更应该是AIGC的“应用元年”。

AIGC也还有很长的路要走。一方面,在“创造”这一概念面前,基于深度学习的AI的创作是否真正是创造还难以定论,另一方面知识产权问题也像一把达摩克利斯之剑始终悬在AIGC头上,如何解决AI学习背后的伦理问题也是一大难题。

但在AI技术的发展问题面前,以上问题可能都是细枝末节了。正如OpenAI等平台所期望的那样,AIGC并不是最终目的,真正实现通用人工智能才是最核心的目标。

1fea9d707b03a6ec676b60b557826060.gif

中文推特:https://twitter.com/8BTC_OFFICIAL

英文推特:https://twitter.com/btcinchina

Discord社区:https://discord.gg/defidao

电报频道:https://t.me/Mute_8btc

电报社区:https://t.me/news_8btc

10d3d68643015fba0a50786132d7e3e5.jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/15006.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

专业、简单、稳定,融云重新定义互联网通信云服务

艾瑞咨询《2023 年全球互联网通信云行业研究报告》(下简称《报告》)显示,79.1% 的开发者计划或已经出海,其中已将应用推到海外的开发者占比 43%。关注【融云全球互联网通信云】了解更多 后台回复【报告】获取完整版 消费群体成长…

PaddlePaddle中试用国人开源语言大模型RWKV Raven/Novel

★★★ 本文源自AlStudio社区精品项目,【点击此处】查看更多精品内容 >>> (开启本项目前,如果想尝试7B模型,请开启32GB以上的GPU环境) (本项目由我编写的rwkv-paddle提供推理代码支持&#xff0…

蓝桥杯赛前自救攻略,备赛抱佛脚指南

目录 前言一、复习语言知识1、代码起手框架2、vector初始化2、unordered_map3、输入输出问题 二、复习考试范围知识1、深度优先搜索(Depth-First-Search)模板2、随机字符、数字 三、复习比赛真题1、模拟题2、动态规划题 四、其他 前言 明天就要开始蓝桥杯…

AI 快被玩坏了!还不进来看看它能干些啥?

自从ChatGPT 掀起浪潮,不少人都在担心 AI 快要抢人类饭碗了。 就连央视财经也为此专门发过一个报道: 不得不承认,现在 ChatGPT 等 AIGC 工具已势不可挡——浪潮既来,不进则退。 有程序员这样说——这用过 Copilot 就会觉得&#x…

ChatGPT:与AI佛祖对话,探寻心灵的平静与自由!

现代人的生活充满了繁忙和压力,随之而来的是内心的焦虑和不安。为了追求真正的幸福和意义,越来越多的人开始寻求内心的平静和自由。而佛教的智慧和修行方法成为了许多人追寻心灵成长的重要途径。 然而,对于很多人来说,佛教的教义和…

使用 ChatGPT ,通过自然语言编写 eBPF 程序和追踪 Linux 系统

eBPF 是一项革命性的技术,起源于 Linux 内核,可以在操作系统的内核中运行沙盒程序。它被用来安全和有效地扩展内核的功能,而不需要改变内核的源代码或加载内核模块。今天,eBPF被广泛用于各类场景:在现代数据中心和云原…

ChatGPT三个关键技术

情景学习(In-context learning) 对于一些LLM没有见过的新任务,只需要设计一些任务的语言描述,并给出几个任务实例,作为模型的输入,即可让模型从给定的情景中学习新任务并给出满意的回答结果。这种训练方式能…

论文分享-- From RankNet to LambdaRank to LambdaMART: An Overview

博客内容将首发在微信公众号"跟我一起读论文啦啦",上面会定期分享机器学习、深度学习、数据挖掘、自然语言处理等高质量论文,欢迎关注! 严格来说,这并不是一篇论文,只是一个 r e p o r t report report &a…

ChatGPT的一小步,NLP范式转变的一大步

作者:符尧,yao.fued.ac.uk,爱丁堡大学 (University of Edinburgh) 博士生,本科毕业于北京大学;与Tushar Khot,彭昊在艾伦人工智能研究院 (Allen Institute for AI) 共同完成英文原稿;与李如寐&a…

4月最新编程排行出炉,第一名ChatGPT都在用~

作为一名合格的(准)程序员,必做的一件事是关注编程语言的热度,编程榜代表了编程语言的市场占比变化,它的变化更预示着未来的科技风向和机会! 快跟着一起看看本月排行有何看点: 4月Tiobe排行榜前…

虚幻4蓝图通信

本案例的功能为让玩家控制小白人,并按E让选中的物体旋转 立方体蓝图 小白人蓝图 选人设置 运行结果

虚幻引擎之相机控制

通过本节学习,我们可以在虚幻引擎中按照特定时间来切换摄像机视角,我们可以很方便的进行观看不同摄像机的视野。 首先打开虚幻,在这里我是用的是虚幻4.19,打开虚幻之后,我们首先新建一个工程,在这里我们不使…

虚幻引擎5亮点整理,5大核心一目了然

由EPIC研发的UE5,于2022年4月正式发布。作为全新的实时工作平台,UE5有以下亮点值得关注! Nanite 可以制作海量细节的地图,通过nanite不需要手动贴图,也不需要手动创建LOD Lumen光照系统 为了获得最佳的光照效果&#x…

虚幻引擎C++开发学习(一)

文章内容来自于Udemy课程。第一章为设置C和虚幻环境,直接略过。 第二章内容为一个小游戏,名字叫Triple X,是个简单的数字益智游戏。它基于三个未知数字。你将侵入某种计算机锁。游戏的想法是找到一个有效的三个数字组合。 比如关卡1&#x…

虚幻引擎的控制台命令(长期更新)

小标题前如果标注具体虚幻的版本号,则仅在特定版本中有效 若没标注,则代表全版本通用 局内 【UE5】世界分区(World Partition) 显示世界分区加载网格 2D&3D wp.Runtime.ToggleDrawRuntimeHash3D 3D显示世界分区的加载网格 …

下载虚幻引擎提示错误代码MD-DL

先放结论:因为已经下载过UE4版本的引擎,再下载其它版本引擎的时候默认会放到UE4版本的引擎的同级目录下,改下路径就行了。 把UE4改成UE5就好了,把他俩分开。UE4是我自己之前分给4.26版本的文件夹。 我在下载时遇到了这个问题&am…

虚幻商城模型转MetaHuman

一、导入虚幻商城的模型到UE 1.去虚幻商城下载一个人物模型,这里以SchoolGirl为例 2.导入UE,并找到模型,这里是SkeletalMesh 二、启动MetaHuman插件 1.通过Edit->Plugins启用MetaHuman和MetaHumanSDK插件,这里MetaHuman插件是用于创建MetaHuman的,MetaHumanSDK插件…

Unreal虚幻源代码的编译

很多小伙伴在做开发的时候都用Epic管理的UE引擎,可是在企业实际开发中,需要用到虚幻的源代码。UE和Unity相比的优势也是开源,所以使用引擎的源码很有必要,便于了解底层和修改底层逻辑很有帮助。很多小伙伴不清楚如何编译&#xff…

虚幻4基础知识——编辑器

一、前言 最近将虚幻4的知识点进行梳理了一遍,算作是初学者的角度学习该引擎时遇到的问题的汇总。包括UI、编辑器以及蓝图部分,不过都是挑了我自己需要记录的东西,没有涵盖所有内容。 二、编辑器知识 2.1、视口和模式面板 视口是观察和编辑…

虚幻引擎外部模型及动画导入

运行效果: 首先在底部素材文件加下右键选择导入 导入后选中小白人,右侧菜单栏选中细节,找到网格体,选择你要渲染的人物 动画绑定,在右侧找到动画类,选择要导入的动画