ChatGPT研究(三)——AIGC多模态交互功能,奠定多场景商用基础

✏️写作:个人博客,InfoQ,掘金,知乎,CSDN

📧公众号:进击的Matrix

🚫特别声明:创作不易,未经授权不得转载或抄袭,如需转载可联系小编授权。

前言

最近ChatGPT,想必大家已经是耳熟能详了,一度认为ChatGPT的到来是人工智能的奇点到来,那么到底ChatGPT是什么?为什么ChatGPT为代表的人工智能技术不仅受到平民用户的喜爱,还受到资本市场追捧呢?

上篇文章《ChatGPT研究(二)——AI平民化的里程碑》中从技术角度,解读ChatGPT的AI发展和应用,本篇文章将会更多的从商业场景使用中来介绍ChatGPT的应用。

AIGC多模态交互功能持续演化,奠定多场景商用基础

AIGC:利用人工智能产生内容,提升生产力曲线

  • AIGC: Artificial Intelligence Generated Context,即可以利用人工智能技术自动产生内容,常见如代码生成,文本问答等

AIGC应用功能简单如图所示

ChatGPT已成为AIGC功能矩阵中的重要板块

  • ChatGPT是AIGC“数字内容智能编辑”功能中的重要组成部分,ChatGPT模型的出现对于文字/语音模态的AIGC应用具有重要意义

✔️ 随着深度学习技术的快速突破以及数字内容的海量增长,AIGC领域相关技术打破了预定义规则的局限性,使得快速便捷且智慧地输出多模态的数字内容成为可能。
✔️ 在技术创新以及多模态模型的持续突破下,AIGC根据功能和对象的不同,按顺序可包括三种主要实用功能: 数字内容孪生,数字内容的智能编辑、数字内容的智能创作
这三种功能相互嵌套与结合,可以让AIGC产品具备超越人类的创作潜力。而ChatGPT正是AIGC的数字内容编辑这一大功能领域中的重要组成部分

ChatGPT是AIGC的产品应用框架中大型语言模型的重要板块

AIGC相关技术包含了三大前沿能力

  • 数字内容孪生能力构建现实世界-虚拟世界映射

孪生能力包括智能增强与转译技术,其中增强技术弥补内容数字化过程中的信息损失,转译技术在理解基础上对内容进行多种形式的呈现

  • 数字编辑能力打通现实世界虚拟世界交互通道

编辑能力包括智能语义理解与属性控制,语义理解帮助实现数字内容各属性的分离解耦,属性控制则在理解基础上对属性进行精确修改、编辑与二次
生成,最终反馈于现实世界,形成孪生-反馈闭环

  • 数字创作能力从数据理解走向数据创作

创作能力可分为基于模仿的创作与基于概念的创作,前者基于对某一类作品数据分布进行创作,而后者从海量数据中学习抽象概念,并基于概念创作出现实世界不存在的内容

AIGC三大前沿技术能力架构如图所示

AIGC行业发展经历了三个主要时期

AIGC发展经历了早期萌芽、沉淀积累和2014年之后的快速发展阶段

AIGC经历了大致三个阶段的演化发展

从分析式AI到生成式AI逐步演化,生成式AI赋予AIGC创新力

  • 生成式AI起源于分析式AI,分析式AI发展过程汇总的技术积累为生成式AI的产生奠定基础

分析式AI其学习的知识局限于数据本身;生成式AI在总结归纳数据知识的基础上可生成数据中不存在的样本
最新生成式AI技术如GAN,Diffusion等,催生多款AIGC产品如:OpenAI系列、DALL·E2(Diffusion),Starry A.I.(基于GAN)等

AIGC是在分析式AI的基础上,学习数据产生模式,实现新样本内容的创造

AIGC:学习范式更新奠定基础,模型结构升级助力腾飞

  • 人工智能技术推动AIGC行业不断发展,其中学习范式的更新赋予AI模型主动学习能力,模型结构升级提升AI模型学习,归纳与创新能力

AI模型的升级迭代为AIGC性能跨越式发展奠定基础

AIGC产业链涵盖了从硬件到多类终端应用的广泛领域

  • AIGC关联产业可分为应用层、模型层、云计算平台与计算硬件层

计算硬件层结合云计算平台为AIGC提供机器学习训练与推理算力,其 中GPU与TPU为硬件核心,主要参与厂商包括英伟达(GPU)与谷歌 (TPU);
云平台参与厂商则包含AWS,GCP,Azure以及 Coreweave;计算硬件层中云计算平台厂商分布稳定,竞争出现于模型 层面与应用层面

模型层面,闭源基础模型提供商如OpenAI通过API向用户提供服务, 而开源基础模型则通过在托管平台如Hugging Face、Replica公开模 型权重。
模型训练其高计算力需求推动了模型层厂商与云计算厂商建 立合作关系(如 OpenAI+Azure,GCP+DeepMind。模型层面闭源 模型较为普遍,各厂商依靠模型建立技术壁垒。

在应用层面,MidJourney,Runway等自主研发、持有模型;而 Jasper,Github Copilot则通过调用闭源模型商提供的API或采用托管 平台共享的模型。

AIGC市场框架可由基础设置层、模型层、托管平台以及应用层来进行划分

AIGC产业链上下游玩家百家齐放

  • AIGC上游主要包括数据供给方、算法机构、创作者生态以及底层配合工具等,中游主要是文字、图像、音频和视频处理厂商,其中玩家众多;下游主要是各类内容创作及分发平台以及内容服务机构等

AIGC产业链上下游参与者分类如图所示

AIGC厂商之间的竞争在于模型层面竞争

  • 追根溯源,AIGC依赖于底层机器学习模型产生内容,因此模型为AIGC行业厂商真正竞争力所在

文本生成产品多依赖GPT系列模型,自己训练的模型在图像/视频模态产品中较为普遍(图像/视频模态产品通常拥有自己训练的模型,而不是如文本模态调用OpenAI提供的模型服务)

  • 比较而言,OpenAI依靠模型建立先发竞争优势,技术到产品转化相对亮眼

AIGC模型产品之间存在激烈竞争

AIGC取长补短,有望成为主流内容生产模式

  • AIGC所属内容生产生态的发展经历了专家生产内容(PGC)、用户生成内容(UGC)、AI辅助生产内容、AI生产内容 (AIGC)四个阶段,目前处于一、二阶段为主,第三阶段为辅的境况
  • AIGC克服PGC与UGC存在的 质量、产量 无法兼具的缺点,其有望成为未来主流的内容生产模式

AIGC生态内容生产模式理论上会经历四个发展阶段

AIGC生成技术可按模态进行分类

  • AIGC根据其内容模态不同可分为文本、视频、图像,音频与跨模态生成

AIGC应用功能简单如图所示

AIGC不同模态对应着各种生成技术及应用场景

  • AIGC不同模态对应的技术应用场景也有着各自的细分品类

AIGC各技术应用场景对应的特征及细分品类如图所示

AIGC文本生成技术场景可分为交互式和非交互式

  • AIGC非交互式文本生成技术中,结构化写作其形式相对固定,生成难度较小,商业化应用较为广泛;而创作型写作开放性 较大,在长文本生成中难度较大,仍需技术进一步发展
  • 随着通信互联网技术发展,线上社交需求快速增长,如闲聊机器人等交互式文本产品将迎来快速发展

文本内容生产领域相关细分特征如下架构图所述

AIGC文本生成技术商业化落地有望优势先发

  • 文本领域预训练大模型技术成熟,文本领域细分垂类较多,产品数量居首位,模型数量发展超过其他模态技术
  • 数字内容中,文字模态数据远大于图片/视频/音频等,发展前景相对较大
  • 基于GPT-3的文字生成功能已嵌入如Writesonic、Conversion.ai、Copysmith等软件中,商业化前景相对清晰

文本生成技术商业化落地有比较优势

AIGC文本模态技术(包括文本与代码)商业化领跑视频/图像模态技术

AIGC图像生成技术随着模型结构的优化而明显提升

  • 模型结构不断进化提高了AIGC生产图像的多样性,但要求较高的功能实现还有待于技术的进一步提升

“图像编辑” 难度低于“图像生成” 与“2D-3D” 转换,目前已存在多款产品支持“图像编辑” ,而对于“图像生成”任务,由于图片相
较包含更多元素,其生成效果仍存在不稳定性,对于要求较高的功能类图像生成仍需要技术上的提升

图像生成技术具体实现包括图像编辑、2D-3D转换以及自主生成

AIGC音频生成技术正朝更富情感等人类特征演化

  • 文本到语音任务已比较成熟,语音质量已达到自然的标准,未来将朝更富情感、富韵律的语音合成以及小样本语音学习方向发展

音乐生成任务中仍需解决音乐数据难以标注的问题,数据标注其颗粒度大小影响音乐生成任务的可控性。若可控性得以解决,则可指定风格、
情绪等因素的音乐生成任务有希望在影视、游戏等场景下的到大量应用。

AIGC音频细分生成技术特点如图所示

视频生成 为AIGC应用生态中的高潜力场景

  • 视频生成本质上与图片生成类似,通过对视频进行帧数级别的切割,实现对每一帧的处理

视频生成过程包括三个阶段:数据的提取、训练和转换,当前技术正在着重提升视频修改精准度和实时性两个维度。鉴于视频本身的文本、图像和音频的综合属性,
视频生成也是跨模态生成领域的重要应用场景。

视频生成技术具体包括视频属性编辑、 视频自动剪辑、 视频部分编辑

跨模态生成技术是真正实现认知和决策智能的转折点

  • 现实世界的信息是文本、音频、视觉、传感器以及人类各种触觉的综合体系,要更为精准地模拟现实世界,就需要将各种 模态能力之间打通,例如文字-图像、文字-视频等跨模态生成能力

大型预训练模型的发展使得跨模态逐步成熟,“文本-图像” 生成正在快速落地,“文字-视频”的实验效果也已较为理想(视频时长、 清 晰程度、 逻辑等还有较大提升空间)。

跨模态生成 领域当前的主要功能类型如图所示

AIGC改变数字内容生产模式

  • AIGC作为新的内容生产模式,其具有内容多样,可控性强与生产效率高的优点,符合传媒,电商,影视,娱乐等行业对内容数字化程度高、内容多样以及内容更新快的要求,AIGC在以上行业逐渐替代传统内容生产模式的趋势十分显著

AIGC对各大行业的影响维度如图

AIGC渗透传媒领域各个环节

  • AIGC技术逐渐渗透传媒领域包括采集、编辑、传播等环节,有助于加快内容生产效率,提高内容质量,扩宽内容影响力

AIGC对传媒领域的赋能如下图所述

AIGC化2D为3D,拓展电商展示维度

  • AIGC 2D图像生成3D模型技术为传统电商提供多维度的展示空间
  • 虚拟合成主播为客户提供更及时、可靠、亲和的服务体验

AIGC对有助于为电商行业降本增效

AIGC打破传统娱乐体验边界

  • AIGC技术打破物理边界,使粉丝可与偶像亲密互动,并形成新的发展点
  • AIGC为用户打开虚拟世界入口,通过趣味方式体验虚拟世界

AIGC在娱乐领域也有诸多赋能点,有助于进一步提升产业空间

AIGC拓宽影视行业创意边际

  • AIGC技术以其内容多样性为作品内容带来更多灵感
  • AIGC技术帮助拍摄突破物理限制,还原剧本效果,提高作品质量

AIGC在剧本创作、拍摄过程以及后期制作方面均有助益

AIGC促进各行业转型升级

AIGC技术在各行业数字内容相关领域均有发挥空间

AIGC在教育、金融、工业、医疗领域的应用优势如图所示


最后欢迎大家点赞、收藏、评论,转发!

欢迎大家关注我的微信公众号!随机分享无用的计算机知识,

微信搜索:进击的Matrix

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/11779.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ChatGPT怎么用?这几个技巧让你快速完成各种工作!来吧展示!

ChatGPT成为全球热议话题,月活用户突破1亿。如何利用ChatGPT快速完成工作?小编分享使用技巧。#ChatGPT# 一、ChatGPT能够做什么 想要利用ChatGPT完成工作,首先需要了解它是一款什么样的AI工具,以及它能够为您提供哪些服务。在当前…

爆火的ChatGPT 背后的大模型与大数据创新

最近,ChatGPT 迅速引爆 AIGC 领域,依托全网大数据与海量智能模型训练,一举成为 Stable Diffusion 之外的 AI 新宠。不同于过往初阶聊天机器人,这位“懂王”似乎可以取代大型搜索平台,与用户展开高质量同频对话。网友也…

WEB3 熄火了么,人工智能兴起之ChatGPT 在两个月内冲刺到 1 亿用户,超过任何其他现象级应用程序

ChatGPT 无疑是近来发展最快的应用程序之一 ChatGPT 无疑是近来发展最快的应用程序之一,它的崛起正在让生成 AI 电路升温。 周三,瑞银发布了一份研究报告,显示 OpenAI 的 ChatGPT 在推出仅两个月后的 1 月份月活跃用户估计已达到 1 亿,成为历史上增长最快的消费者应用程序…

ChatGPT眼中的产品经理是这样的

在玩ChatGPT的时候,突发奇想,ChatGPT对产品经理的认知是啥样呢?于是我找了几个大家都比较关注的产品经理问题,看看ChatGPT是如何回答的。 1、产品经理可以干一辈子嘛? 2、产品经理的核心竞争力是啥? 3、产品…

C语言中的优化技巧总结

1、选择合适的算法和数据结构 选择一种合适的数据结构很重要,如果在一堆随机存放的数中使用了大量的插入和删除指令,那使用链表要快得多。数组与指针语句具有十分密切的关系,一般来说,指针比较灵活简洁,而数组则比较直…

你看,ChatGPT都知道优先使用BigDecimal

不是三婶儿偏执,非要吐槽。家人们,咱就是说,按照基操逻辑谁会把严格金额计算相关的数据使用double类型呢… “我以为吕布已经够勇猛了,这是谁的部下?” 前几天,一xxx让帮忙写段代码。内容比较常规&#xff…

java面试 - 多线程并发篇

多线程&并发篇 chatGPT以及GPT-4免费体验! java面试 - 基础篇 java面试-JVM篇 java面试-spring篇 (持续更新中) java面试-MyBatis篇 (持续更新中) java面试-springBoot篇 (持续更新中) ja…

5分钟!使用ChatGPT读懂一本书;写给独立开发者的设计指南;麦肯锡报告:生成式AI的经济潜力;GitHub报告:AI对开发影响深远 | ShowMeAI日报

👀日报&周刊合集 | 🎡生产力工具与行业应用大全 | 🧡 点赞关注评论拜托啦! 🤖 时代杂志「2023年100家最具影响力企业」 时代杂志发布了「TIME100 MOST INFLUENTIAL COMPANIES 2023」,评选出2023年最具影…

自然语言成了编程语言,不会写 Prompt 的程序员会面临失业吗?

作者 | 王启隆 出品 | CSDN(ID:CSDNnews) 如果让一个活在 18 世纪的人看看今天的世界,他会被现代科技的伟大所震慑,沉醉于未来社会的梦幻;但如果让一个 15 世纪的人去看看 18 世纪的世界,就感受…

文案策划将会被ChatGPT淘汰么?道叔用了两月后,惊呆了!

用了ChatGPT一段时间了,发现这真的是一个非常好用的划时代的产品。 我们文案策划人如果用熟练了的话,能够节省大量时间。未来,各行各业的脑力劳动者真的都不需要现在这么多了。 如果说,未来机器人将把大量工人淘汰的话&#xff…

一文看懂GPT风口,都有哪些创业机会?

新时代的淘金者,低附加价值的创业要谨慎,高附加价值、低技术门槛创业也要谨慎,主干道边上的创业也要谨慎。不少朋友看完不淡定了,干什么都谨慎,回家躺平好了,我有个朋友,靠ChatGPT,半…

虚拟邮箱地址-可随意接收邮箱验证码——网站

唠下互联网环境的嗑:国内的互联网环境在注册账号这一方面是真的不尊重个人隐私,只有手机号码注册的选项。vanker留意到海外的网址基本都是邮箱即可注册账号,希望国家能够制定详细的相应标准。所以提醒大家:在一般的网站上不要轻易…

ChatGPT 真的太强大了!

如果你问我,2023年最大的机会是什么?那一定是——ChatGPT 从2月份GPT3.5版本发布,到现在的4.0PLUS升级版,ChatGPT的迭代速度已经完全超过了我们的想象。 它已经可以替代很多行业的工作(比如说:文案、程序、…

chatGpt AI智能模拟面试系统开发

在当今竞争激烈的就业市场,求职者不仅需要具备扎实的专业知识和技能,还需要通过面试展现出自己的优势。 chatGpt AI智能模拟面试系统利用了人工智能技术,以及OpenAI的强大语言模型ChatGpt为基础。旨在为求职者提供一个真实且个性化的面试体验…

张俊林:由ChatGPT反思大语言模型(LLM)的技术精要

原文:张俊林:由ChatGPT反思大语言模型(LLM)的技术精要 张俊林 人机与认知实验室 2023-02-15 00:00 发表于北京 实话实说,国内在LLM模型相关技术方面,此刻,距离最先进技术的差距进一步加大了。…

提示工程师指南3-Prompt工程-高级提示

高阶Prompting 到这一步,应该很明显,改进提示有助于在不同任务上获得更好的结果。这就是Prompt工程背后的整个理念。 虽然之前的例子很有趣,但在我们深入了解更高级的概念之前,让我们先正式地介绍一些概念。 文章目录 高阶Promp…

Interview: Kevin Kelly, editor, author, and futurist采访:凯文·凯利,编辑、作家、未来学家

By Cmichel67 - Own work, CC BY-SA 4.0 作者:Cmichel 67-自己的作品,CC BY-SA 4. 0 Kevin Kelly is one of the thinkers who helped define the ethos of the tech industry from its early days. As an editor of the Whole Earth Catalog in the 198…

文心一言云服务下周上线/ 亚马逊再裁9000人/ 首款GPT-4医用软件问世…今日更多新鲜事在此...

日报君 发自 凹非寺量子位 | 公众号 QbitAI 大噶好,今天是3月21日星期二,打工人,勇敢冲(:з」∠) 科技圈又发生了哪些新鲜事,一起来和日报君看看~ 亚马逊再裁员9000人 北京时间3月20日晚间,亚马逊宣布将再裁…

【调研】生成式PLM模型(偏LLM)压缩

研究背景 常用的生成模型 下表总结了现在常用的生成模型的架构、参数量、尺寸和开源地址。其中参数量基本为亿万级别,以decoder的架构为主,模型尺寸在500MB以上。 模型名称架构尺寸层数参数量(Billion)开源地址备注GPT-2decoder548 MB481.5Bhttps://h…

哈哥的博客阅读指南,一文对接全链路导引 --- 未完待续~

文章目录 ⭐️ 一、关于 "易编程社区"🌟 社区及星球诞生的初衷🌟 加入社区和星球可以收获什么?🌟 来自哈哥的公开承诺🌟 哈哥的简介 ⭐️ 二、星荐官计划奖金池⭐️ 三、专栏解读🌟 专栏 - 编程初…