被称为下一代风口的AIGC到底是什么?

近期,短视频平台上“AI绘画”的概念爆火,ChatGPT这一词条也刷爆了科技圈,而这些概念同属于一个领域——AIGC。2022年12月,Science杂志发布的2022年度科学十大突破中,AIGC入选。

那么,被称之为是AI下一代风口的AIGC到底是什么?

AIGC的概念

AIGC全称为AI-Generated Content,即利用人工智能技术来自动生产内容。具体可基于生成对抗网络GAN、生成扩散模型和大型预训练模型等人工智能技术,通过已有数据寻找规律,并通过适当的泛化能力生成相关内容的技术。

AIGC已经成为继PGC(Professional Generated Content,专业生产内容)和UGC(User Generated Content,用户生产内容)之后新型的内容创作方式。

AIGC是继PGC和UGC后又一内容创作方式
图片来源:A16Z,中金公司标题

其实AIGC的概念并非今年才出现,在此前,类似于微软小冰等人工智能作诗、写作、创作歌曲的产品就属于AIGC的领域。但2022年以来,AIGC又集中爆发,国内外的科技巨头公司和投资公司纷纷入局,其原因可能在于以下几点:

  1. 文本-图像生成模型Stable Diffusion的正式开源,包括程序和训练好的模型。这给了后继创业者一些高起点的机会,有利于更广泛的C端用户普及。

  2. 深度学习算力、互联网数据规模扩张以及生成扩散模型和多模态预训练模型等技术的快速发展,使人工智能技术也随之迅速发展。从最初的文字生成逐渐发展为多模态和跨模态的内容生成。

  3. 如今各类社交和流媒体平台的普及,也驱动着内容生产方式的演变。

  4. 外部环境因素影响。在经济低迷时期,科技行业会选择相应收敛开支,并将重点放在像是人工智能商业化这类更务实的地方。

AIGC的发展历程

事实上,使用计算机生成内容的想法自上个世纪五十年代就已经出现,早期的尝试侧重于通过让计算机生成照片和音乐来模仿人类的创造力,生成的内容也无法达到高水平的真实感。结合人工智能的演进改革,AIGC的发展可以大致分为以下三个阶段:

早期萌芽阶段(1950s-1990s),受限于科技水平,AIGC仅限于小范围实验。1957年,莱杰伦·希勒(Lejaren Hiller)和伦纳德·艾萨克森(Leonard Isaacson)通过将计算机程序中的控制变量改为音符,完成了历史上第一部由计算机创作的音乐作品——弦乐四重奏《依利亚克组曲(Illiac Suite)》。1966年,约瑟夫·韦岑鲍姆(Joseph Weizenbaum)和肯尼斯·科尔比(Kenneth Colbv)共同开发了世界上第一个机器人“伊莉莎(Eliza)”,其通过关键字扫描和重组来完成交互式任务。80年代中期,IBM基于隐马尔可夫链模型创造了语音控制打字机“坦戈拉(Tangora)”,能够处理两万个单词。

世界上第一个机器人“伊莉莎(Eliza)”标题

沉积积累阶段(1990s-2010s),AIGC从实验性向实用性逐渐转变。深度学习算法、图形处理单元(GPU)、张量处理器(TPU)和训练数据规模等都取得了重大突破,受到算法瓶颈的限制,效果有待提升。2007 年,纽约大学人工智能研究员罗斯·古德温(Ross Goodwin)装配的人工智能系统通过对公路旅行中的所见所闻进行记录和感知,撰写出世界上第一部完全由人工智能创作的小说《1 The Road》。2012年,微软公开展示了一个全自动同声传译系统,通过深度神经网络(DNN)可以自动将英文演讲者的内容通过语音识别、语言翻译、语音合成等技术生成中文语音。

世界上第一部完全由人工智能创作的小说《1 The Road》标题

快速发展阶段(2010s-至今),深度学习模型不断迭代,AIGC取得突破性进展。尤其在2022年,算法获得井喷式发展,底层技术的突破也使得AIGC商业落地成为可能。下面列举了一些迄今为止具有代表性的算法模型,其中主要集中在AI绘画领域:

  • 2014年6月,生成式对抗网络(Generative Adversarial Network,GAN)被提出。

  • 2021年2月,openAI推出了CLIP(Contrastive Language-Image Pre-Training)多模态预训练模型。

  • 2022年,扩散模型Diffusion Model逐渐替代GAN。

上述三个算法是当前AIGC的技术核心,下述算法模型大部分都是以此为基础。

  • 2018年12月,NVIDIA推出StyIeGAN ,可以自动生成高分辨率图片。目前已升级到第四代模型。

  • 2019年7月,DeepMind推出DVD-GAN ,可以生成连续视频。

  • 2021年1月,OpenAI 推出DALL-E,是首个引起公众广泛关注的文本生成图像的模型之一。

  • 2022年2月,开源AI绘画工具Disco Diffusion发布。

  • 2022年3月,Meta推出Make-A-Scene这一AI图像生成工具。

  • 2022年4月,OpenAI 推出了DALL-E-2,在图像分辨率、真实感和新功能上进行了升级。

  • 2022年4月,AI绘画工具MidJourney发布。

  • 2022年5月,Google推出Imagen,同样是文本生成图像的模型。

  • 2022年6月,Google推出parti,与Imagen功能相同,但在模型算法、模型参数和图像效果等方面做了升级。

  • 2022年7月,开源AI绘画工具Stable Diffusion发布。

  • 2022年9月,Meta推出Make-A-Video,可以从文字生成视频。

  • 2022年10月,Google提出Imagen video,同样是文字生成视频的模型。

  • 2022年11月,Stable Diffusion 2.0发布,在模型算法、图像质量和内容过滤等方面做了升级。

  • 2022年11月,openAI推出 AI 聊天机器人chatGPT

关于上述算法模型的具体原理和分析,可以期待我们的下一篇文章哦~

AIGC的应用场景

AIGC在面向不同对象和不同场景时,具有强大的自适应创作能力,因此被应用在了多种场景。具体包括:

【图像生成】

该领域目前发展势头最猛,且落地产品较多。根据使用场景,可分为图像编辑工具端到端图像生成。图像编辑包括图像属性编辑(如去水印、风格迁移、图像修复等)和图像内容编辑(如修改面部特征、换脸等)。端到端图像生成包括基于图像生成(如基于草图生成完整图像,根据特定属性生成图像等)和多模态转换(如根据文字生成图像等)。

典型的产品或算法模型包括EditGAN、Deepfake、DALL-E、MidJourney、Stable Diffusion、文心·一格等。

【视频生成】

视频生成与图像生成在原理上有一定相似性,可分为视频编辑(如画质修复、视频特效、视频换脸等)、视频自动剪辑和端到端视频生成(如文字生成视频等)。

典型的产品或算法模型包括Deepfake、videoGPT、Gliacloud、Make-A-Video、Imagen video等。

【文本生成】

基于NLP技术的文本生成可以算是AIGC中发展最早的一部分技术,功能也较为多样。根据使用场景,可分为非交互式文本生成和交互式文本生成。非交互式文本生成包括内容续写、摘要/标题生成、文本风格迁移、整段文本生成、图像生成文字描述等功能。交互式文本生成包括聊天机器人、文本交互游戏等功能。

典型的产品或算法模型包括JasperAI、Copy.ai、彩云小梦、AI dungeon、ChatGPT等。

【音频生成】

音频生成中的部分技术已经较为成熟,被应用于多种C端产品中。音频生成可分为TTS(Text-to-speech)场景和乐曲生成两类。其中TTS包括语音客服、有声读物制作、智能配音等功能。乐曲生成包括基于开头旋律、图片、文字描述、音乐类型、情绪类型等生成特定乐曲。

典型的产品或算法模型包括DeepMusic、WaveNet、Deep Voice、MusicAutoBot等。

【游戏生成】

游戏生成主要包括游戏元素生成和游戏策略生成,其中游戏元素生成包括游戏场景、游戏剧情、NPC角色等元素的生成。游戏策略生成主要指对战策略,一般基于深度强化学习的技术。

典型的产品或算法模型包括rct AI、超参数、腾讯AI Lab等。

【代码生成】

代码生成主要包括代码辅助的功能,包括代码补全、自动注释、根据上下文生成代码、根据注释生成代码等功能。

典型的产品或算法模型包括Github Copilot、Replit、CodeGeeX、Mintlify等。

【3D生成】

与图像生成和视频生成相比,目前3D内容生成还处于较为初级阶段。现有的3D生成基本为基于图像或文本生成3D模型。

典型的产品或算法模型包括Magic3D、DreamFusion、AVAR等。

当前AIGC market map
图片来源:Leonis Capital标题

AIGC图像生成实例

AIGC图像生成能带来许多有趣甚至实用的图像,比如以自动驾驶为例,corner case一直是令感知工程师头疼的问题,缺乏corner case场景的数据集训练出来的算法,往往无法很好地应对corner case场景。

但是重建或挖掘corner case场景数据又是一件很困难的事情,不过现在通过AIGC的方式,我们能够通过算法生成corner case场景的图像,如下图所示,展示的就是算法生成的一系列白色大卡车侧翻的图像,虽然生成的图像真实度还有进步空间,但是也给我们打开了新的一扇大门,大规模的生成用于AI算法训练的数据集。

整数智能也将在后续的AIGC系列分享中,给大家分享如何在数据标注、模型训练等领域充分使用这些能力。

输入文本:一辆白色大卡车侧翻在高速路中央题
输入文本:三辆白色大卡车侧翻在高速路中央题
输入文本:十辆白色大卡车侧翻在高速路中央

   参考文献

  1. Goodfellow I, Pouget-Abadie J, Mirza M, et al. Generative adversarial networks[J]. Communications of the ACM, 2020, 63(11): 139-144.

  2. Radford A, Kim J W, Hallacy C, et al. Learning transferable visual modelsfromnatural language supervision [C]//International Conference on Machine Learning. PMLR, 2021: 8748-8763.

  3. Yang L, Zhang Z, Song Y, et al. Diffusion models: A comprehensive survey of methods and applications[J]. arXiv preprint arXiv:2209.00796, 2022.

  4. Ramesh A, Pavlov M, Goh G, et al. Zero-shot text-to-image generation[C]//International Conference on Machine Learning. PMLR, 2021: 8821-8831.

  5. Saharia C, Chan W, Saxena S, et al. Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding[J]. arXiv preprint arXiv: 2205. 11487, 2022.

  6. Rombach R, Blattmann A, Lorenz D, et al. High-resolution image synthesis with latent diffusion models[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022: 10684-10695.

  7. 中国信通院《AIGC白皮书》

  8. 量子位《AIGC:AI生成内容产业展望报告》

  9. 甲子光年《AIGC爆火的背后,钱都被谁赚走了》

  10. Leonis Capital《Generative AI: State of the Market, Trends and Startup Opportunities》

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/16141.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Postman如何设置成中文?(汉化)

1. 点击下方这个链接,进入gitee,在里面下载一个插件 Releases hlmd/Postman-cn GitHub 进入之后是这个样子的: 2.看一下自己的postman是什么版本的,然后在gitee下载对应的APP包(注意:是App.zit包。不要下…

强大的编辑器 Cursor,免费集成了 ChatGPT-4

AI 时代来临,还不会利用工具帮助你工作,很容易就会被淘汰了。 就在上一周是 AI,集体亮相的一周,ChatGPT-4、new-bing、文心一言、Claude 等等,一一体验过这些工具,能明显感觉到作为 CV 工程师的焦虑。 在…

刚刚!BingChat全面开放,人人可用!

大家好,我是鸟哥。 如题,微软真是下血本。昨天毫无征兆的宣布BingChat全面开放,人人可用!众所周知ChatGPT得使用门槛有多高,而BingChat底层调用的是GPT4.0的模型,这无疑是白嫖GPT4.0最简单的姿势了。鸟哥一…

使用Microsoft Edge dev浏览器突然找不到new bing,bing chat消失

bing chat在原本bing的主页但关闭后再次打开消失不见,请清除cookies并重新打开浏览器。 之前bing的时候找不到这种情况,可能是Mac的小bug吧,发个博客记录一下。 更新Mac系统后重新开机,再打开Microsoft edge dev的bing页面就是如…

英伟达4070Ti 6499元起/ 微软要推出ChatGPT版Bing/ 苹果头显被曝售价3000美元... 今日更多新鲜事在此...

日报君 发自 凹非寺量子位 | 公众号 QbitAI 大家好~今天是新年的第一个星期三——还有两天又到周末啦。 科技圈还有哪些有意思的事? 日报君在此呈上~ 微软要推出ChatGPT版Bing搜索 最近,OpenAI的聊天工具ChatGPT成了AI界顶流,不过它本身没有网…

前哈工大教授开发的ChatALL火了!可同时提问17个聊天模型,ChatGPT/Bing/Bard/文心/讯飞都OK...

丰色 发自 凹非寺量子位 | 公众号 QbitAI 今天的你,是否还在几个聊天大模型之间“反复横跳”? 毕竟各家训练数据和方法不尽相同,擅长和不擅长的东西也都不一样。 现在,不用这么麻烦了。 有人开发了一个名叫“ChatALL”的应用&…

用AP和SAT可以申请香港大学吗?

留学计划的制定是一个不断需要完善修改的过程,有一些学生和家长,抱着申请美国大学的初衷选择了AP和SAT课程,但是在留学准备过程中,又觉得香港更适合自己,离家近,学校教育质量也高,在申请美国的同…

中断服务函数

51中断:5个 ES串口,ET1定时器1,ET0定时器0,EX1外部中断1,EX0外部中断0 首先要了解相关的与中断有关的寄存器: IE寄存器:中断控制的寄存器,要实现中断就要配置该寄存器。 EA为总开关…

中断及中断服务函数

1.引入 按键点灯的问题一般用轮询的方式去解决。 轮询天生有缺陷: 1.浪费CPU2.占用总线,Bus is always busy.3.轮询响应时差,响应不及时的。有没有办法不让CPU主动去询问事件是否发生,而是当事件发生 …

海睿思分享 | 类chatgpt模型在信息抽取领域的应用

大语言模型(LLM,Large Language Model)是指能够处理海量数据、拥有百亿级参数的深度学习模型,它已成为⼈⼯智能领域中的新热点。2022 年 11 ⽉ 30 号 ChatGPT 发布,其卓越的性能表现给整个⾏业带来了巨⼤的冲击。⼈们不…

拉伯证券|人心动了?刚刚,A股、港股大涨!

昨日A股传言较多,引发波动。上一年10月底11月初,也有类似情况。换个视点看,这说明人心开端动了,至于怎样个“思变”法,市场可能现已给出了答案! 今天上午,A股大涨,北向资金净流入110…

全球行情_全球股市中心

全球股市指数指数自动更新,报价单位均为当地货币,行情时间均为北京时间 圣保罗 布宜诺斯艾利斯 冰岛 斯德哥尔摩 赫尔辛基 奥斯陆 哥本哈根 莫斯科 布鲁塞尔 都柏林 阿姆斯。环球行情中心 13 136 088% 注行情统一显示为红跌绿涨。“指南针行情网”是北京…

反常识—股票暴跌收益会更高

反常识—股票暴跌收益会更高 这节课我们来学习一下股票。先来了解一下什么是股票? 股票是公司的所有权凭证。持有股票的人是公司的股东,拥有公司的一部分。可以说你持有一家公司的股票,你就是这家公司的老板。持有股票比例最多的人&#xf…

9 大指标分析 Solana 的熊市危机

Daniel, 2023 年 1 月 Solana 是一个去中心化的区块链网络,由 Solana 实验室设计并在2020年推出,具有快速、可扩展和安全的特点。 由于其快速的交易速度和低交易费用,Solana 在 2020 年和 2021 年获得了极大的关注,这使得它对去中…

九龙证券|美国散户疯狂抄底,嗅到了什么?华尔街最新警告

当地时间周五,美股三大指数低开后经历“过山车”行情,虽然盘中一度转涨,但午后再度回落。截至收盘,道指跌0.38%,报收33926.01点;纳指跌1.59%,收于12006.95点;标普500指数跌1.04%&…

九龙证券|一夜暴跌36%,美股走势分化,标普指数创近2月最差周度表现

当地时间2月10日,美股三大指数收盘涨跌纷歧。道指涨0.5%,标普500指数涨0.22%,纳指跌0.61%。 受国际油价明显上升影响,动力板块领涨,埃克森美孚、康菲石油涨超4%。大型科技股走低,特斯拉、英伟达跌约5%。热门…

表单验证:名称、电话号码、邮箱

表单验证:名称、手机号码、邮箱 文章目录 目录前言一、名称验证的正则表达式二、电话号码验证的正则表达式三、邮箱验证的正则表达式总结 前言 在大部分web项目中都离不开表单验证,这里就简单介绍几个常见的验证内容,后续慢慢更新 一、名称表…

【智能手表方案推荐】基于中科蓝讯BT8958B2 的 Smart Watch 方案介绍

目录 ►场景应用图 ►产品实体图 ►展示板照片 ►方案方块图 ►核心技术优势 ►方案规格 随着人们对于智能手表功能性需求的提高,智能手表的应用方向需要不仅能满足于日常生活中可替代手机为用户提供方便的场景,如蓝牙通话,还需要对人体…

智能手表UX开发的4条基本经验

为了提高您智能手表 UX开发的效率,请仔细考虑动画、响应性、便利性和严格测试。 随着智能手表持续主导可穿戴设备市场,记住以下这一点很重要:用户体验(UX)是否在硬件和软件栈之间同步优化。随着触觉和基于表冠的输入成…

基于BearPi套件开发的智能儿童手表系统

一、 介绍 本项目是基于BearPi套件开发的智能儿童手表系统,该系统通过与GSM模块(型号:SIM808)的通信来实现通话和定位功能。 智能儿童手表系统可以通过云和手机建立连接,同步时间和获取天气信息,通过手机…