在疯狂三月之后,深入浅出分析AIGC的核心价值 (上篇)|【AI行研商业价值分析】

Rocky Ding

WeThinkIn

写在前面

【AI行研&商业价值分析】栏目专注于分享AI行业中最新热点/风口的思考与判断。也欢迎大家提出宝贵的优化建议,一起交流学习💪

大家好,我是Rocky。

2023年3月21日,微软创始人比尔·盖茨在其博客文章《The Age of AI has begun》中表示,自从1980年首次看到图形用户界面(graphical user interface)以来,以OpenAI为代表的科技公司发布的AIGC模型是他所见过的最具革命性的技术进步

Rocky也认为,AIGC及其生态链,会成为AI行业重大变革的主导力量。AIGC会带来一个全新的红利期,未来随着AIGC的全面落地和深度商用,会深刻改变我们的工作,生活,学习以及交流方式,许多行业都将被重新定义,过程会非常有趣

二十世纪末PC革命的时候,Rocky还在玩小霸王学习机;二十一世纪初互联网革命的时候,Rocky还在教室里获取新知,但Rocky依旧从革新中感受到了震撼。当前由AIGC引发的科技浪潮,同样让Rocky兴奋,正是其ToC的迭代可能性,让Rokcy在早期就做出了all in AIGC的决定。

而在刚刚过去的“疯狂三月”,世界上主要科技公司与研究机构们争先恐后发布关于AIGC的最新进展,让人目不暇接,吃瓜群众们纷纷惊呼不已。那么,在狂欢过后,我们该如何更好的审视AIGC的未来?我们该如何更好地拥抱AIGC引领的革新?接下来Rocky准备从技术,产品,长期主义等维度分享一些个人的核心思考与观点,希望能帮助各位读者对AIGC有一个全面的了解。

So,enjoy(与本文的BGM一起食用更佳哦):

正文开始

----【目录先行】----

  1. 何为AIGC

  2. “疯狂的三月”,AI新时代的开启

  3. AIGC引发的科技浪潮,给了我们什么启示(后续文章中将发布,敬请期待)

  4. AIGC时代下,还会涌现哪些现象级产品(后续文章中将发布,敬请期待)

  5. AI从业者在AIGC时代下如何“转型”(后续文章中将发布,敬请期待)

【一】何为AIGC

如果你还不知道AIGC,don’t worry,Rocky接下来将会详细阐述AIGC是什么,帮助大家对AIGC建立全面的理解。

AIGC全称Artificial Intelligence Generated Content,也就是人工智能生成内容,而这个内容就包含了图像,视频,文本对话,语音等信息交互的基本单元。

目前,在图像和文本对话领域,Stable Diffusion和ChatGPT两个人工智能模型横空出世,在图像和文本对话领域奠定了商用的基础。

AIGC届的“卧龙凤雏”皆已登场

Stable Diffusion让包含AI绘画在内的图像生成应用井喷式爆发,其逼真的画面内容,让很多专业人士都惊呼AI已经具备“创造力”。通常来说,人类用视觉从外界获取的信息占到总信息的80%,而这庞大的信息中,AI生产的内容似乎开始潜移默化的加入。据估计,到2025年,世界上10%的内容数据都将由AI去创造。

AI创作的冠军作品《太空歌剧院》

ChatGPT更不用说,其本身就成为了一个现象级的应用,让沉寂已久的自然语言处理领域着实风光了一把。

各大热门平台月活跃用户数破亿所需时长

其展现出的强大的上下文理解能力与对话能力,无疑预示着未来的生产力将迎来大爆发,AI第一次让人类有了可以全方位依靠的“感觉”,但同时也引起了悲观人士对人工智能将会“掌管世界”的恐慌。

关于ChatGPT的解析,Rocky之前已经在深入浅出解析ChatGPT引领的科技浪潮 |【AI行研&商业价值分析】中深入讲解,感兴趣的读者可以补充阅读。

在图像和文本对话领域实现爆发后,未来AIGC在视频和音频领域的突破也只是时间问题。除了图像,文本对话等单模态领域,AIGC的多模态应用也已经迅猛发展,比如文本生成图像,图像生成文本,文本生成视频,图像/视频生成文本对话等,更加精准地模拟了现实世界的信息交互,多模态AIGC是真正实现认知和决策智能的关键一招。

多模态发展的最终形态,很可能会创造出一个“智能体”,它能够从外界接收图像视频,语音以及本文,并通过“思考”之后,同样通过图像视频,语音和本文作出应对,比如像贾维斯一样给钢铁侠提供建议,亦或者是像天网那样有自己“倔强”的想法。

【二】“疯狂的三月”,AI新时代的开启

2023年的三月,疯狂程度可以载入AI史册。

GPT-4、Microsoft 365 Copilot、Midjourney V5、Google PaLM API、文心一言等等重磅的AI创新产品扎堆推出,让吃瓜群众目不暇接,让蹭热度媒体人日日“震惊并刷新认知”。

除此之外,我们还能做什么呢?

我们首先要做的,是记住这带来革新的一个月,并梳理总结这些新产品的核心本质。

那么,让我们开始吧。

微软发布Visual ChatGPT

原生的ChatGPT展现出了强劲的文本推理能力和对话问答能力,但是它无法处理视觉信息。

Visual ChatGPT通过借助如Visual Transformer和Stable Diffusion等视觉模型的强大的视觉理解和生成能力,来开启ChatGPT处理视觉任务的研究方向。

目前Visual ChatGPT可以达到如下效果:

  1. 接收和发送文本和图像。
  2. 提供复杂的视觉问答和视觉编辑等应用,并通过多步迭代优化的方式来解决复杂视觉任务。
  3. 可以提供反馈,总结答案,主动询问模糊的prompt等附加功能。

模型效果演示

Visual ChatGPT工作流

Visual ChatGPT论文链接:https://arxiv.org/abs/2303.04671

Visual ChatGPT开源代码:https://github.com/microsoft/visual-chatgpt

斯坦福大学发布Alpaca

斯坦福大学发布了由Meta的LLaMA 7B模型微调而来的Alpaca模型。

“羊驼”模型

Alpaca模型宣称训练成本不到600美元,但是评估效果与ChatGPT相当。

那么斯坦福研究团队是怎么用这区区600美元来完成“如此大”的工程呢?

首先,斯坦福团队花了不到500美元用ChatGPT的API来生成研究所需的训练数据(这骚操作,Rocky愿称之为蒂花之秀)

接着,用云计算平台去微调训练Alpaca模型,其训练成本只有100美元。

就这样,ChatPGT的能力就被很好的“拷贝”了,并且Alpaca模型的参数只有70亿,比ChatGPT少了约25倍,让其在单卡上运行成为了可能。

这说明我们能够获得的类ChatGPT功能的综合成本将会逐步降低。

Alpaca开源代码:https://github.com/tatsu-lab/stanford_alpaca

清华发布ChatGLM-6B

ChatGLM-6B是由清华技术成果转化公司智谱AI开源的中英双语对话模型,并针对中文进行了优化。虽然存在和ChatGPT一样的事实错误、胡说八道的问题,但是作为开源模型其支持在单张消费级显卡上部署应用。

ChatGLM的自我介绍

ChatGLM-6B开源代码:https://github.com/THUDM/ChatGLM-6B

OpenAI发布GPT-4

北京时间2022年3月15日凌晨1时,OpenAI发布GPT-4。

「这是二十一世纪以来,人类最慌的一天」,「一切都将会变得不一样」,一些从业者兴奋万分,一些从业者忧心忡忡,如此极端的行业氛围在上一次是什么时候?10年前?20年前?

可以肯定的是,这次的AI引领的科技浪潮,踏踏实实充满了落地可能性。

AI行业的重磅炸弹

GPT-4相比ChatGPT拥有了多模态能力,同时推理能力进一步增强,不仅能够与人类正常对话,也能够识别图像,生成歌词,制作网站,并且在哈佛和斯坦福等名校中取得了优异的考试成绩,确实出现了一点AGI(artificial general intelligence,通用人工智能)的意思。

插入视频

是的,AI行业的iPhone时刻到来了。

这是很多人都在说的,那到底什么是iphone时刻呢?

iPhone用强大的产品逻辑整合已有技术开创了一个革命性的智能手机界面交互模式,由此推动了移动互联网的全面爆发。

麻省理工认为,GPT-4可能是OpenAI有史以来最神秘的版本,也标志着它从非营利性研究机构向盈利性技术公司的全面转型。

微软发布New Bing和Microsoft 365 Copilot

早些时候,微软发布了New Bing,其在搜索引擎中集成了ChatGPT。

New Bing可以引用最近1小时发布的信息回答用户的问题。如果用户提出的问题比较模糊,新版Bing则会尝试“反问”用户,并为用户给出相应的答复建议。简而言之,New Bing是搜索引擎+实时信息+ChatGPT的一次尝试,打造一种“聊天式的搜索引擎工具”。

等待GPT-4一发布,微软马上“坦白”,确认了New Bing使用的普罗米修斯模型(Prometheus)就是OpenAI发布的GPT-4,并且表示使用New Bing的用户应该已经体验到GPT-4的强大功能。

微软:“不愧是我”。

但是微软的AIGC尝试并未就此告一段落。

紧接着微软发布另一个重磅应用:Microsoft 365 Copilot,一夜之间在中外互联网上刷屏。

Copilot也应用了GPT-4技术,能够帮助用户在 Word、Excel、PowerPoint、Outlook 和Teams等软件中进行写作、编辑、总结、创作、演示文稿等工作。

用户可以根据需求生成文档,也可以让Copilot自动做PPT,并一键做出精美排版,还可以让Excel自动分析数据的特点,自动生成分析图表等。

Copilot文档功能

Copilot的PowerPoint功能

Copilot的Excel功能

微软认为此次Copilot最重大的意义是在于大幅提高了生产效率,减少了日常不必要的工作时间浪费,我们与电脑的交互方式迈入了新的阶段,从此我们的工作方式将永远改变,开启新一轮的生产力大爆发。

Anthropic发布Claude

在ChatGPT发布,并且微软加注OpenAI之后,Google火速投资Anthropic,这个由前OpenAI研究副总裁Dario Amodei创立的人工智能公司。

风浪大了,好卖鱼。

之后,Anthropic便发布Claude,直接对标ChatGPT。其宣称具有和ChatGPT一样的对话问答能力,能够执行各种基于文字对话的任务,如文档搜索、摘要、写作、编码,以及响应用户的提问。

Google发布PaLM API

Google在3月14日晚间开放了其大语言模型PaLM的API。Google一度是互联网公司在AI领域的半壁江山,但必须要承认的是,在这次AIGC的浪潮里,Google的工作并没有得到预期的关注

因为同一天的晚时候,GPT-4闪亮登场了。

与微软类似,Google也全面更新了旗下的AI办公工具,主要包含以下几个方面:

  1. AI赋能Gmail,使其智能化。
  2. 在Google Docs中集成头脑风暴、自动内容生、校对、修正重写等AI功能。
  3. 在Google Slides中通过关键词来自动帮助用户生成的图像、音频和视频,并能提供各种不同幻灯片创意选择。
  4. 在Google Sheets中集成自动整理表格、公式生成和上下文分类,以及基于原始数据的解读和分析能力。
  5. 在Google Meet中提供新的AI背景生成、笔记记录、总结等功能。
  6. 在所有功能中启用AI对话助手(类似于ChatGPT),让用户能够通过提问和描述的方式来快速生成内容。

Midjourney V5发布

2023年3月15号,Midjourney公司发布付费AI图像生成服务的迭代版本:Midjourney V5。

图像的整体生成效果再上一层楼,细节刻画更加逼真,而一直被诟病的AI不会画手指的问题,在这一版中也得到了解决。

Midjourney V5的生成图像

Midjourney V5生成的手部图像

Nvidia发布H100 NVL

英伟达在一年一度的GTC大会上,发布了新显卡:带有双GPU NVLink的H100 NVL。

H100 NVL是专门针对算力需求巨大的ChatGPT而设计的显卡,H100 NVL拥有夸张的188GB HBM3内存(每张卡94GB),这也是目前Nvidia发布的内存最大的显卡。

在如此夸张的配置加持下,H100 NVL就成为了大规模部署AIGC大模型的理想选择。

与此同时,为了降低用户部署大模型的成本,Nvidia还推出了DXG Cloud服务,在云端将8张H100或A100显卡组成的超级计算机提供给用户,能够便捷地完成类似ChatGPT等先进AI应用的计算工作。

或许,在抽丝剥茧之后,我们会发现把AI带到各行各业的最原始的源头,是Nvidia

Runway发布Gen-2

Runway在2022年9月发布的Gen-1展现的文本转视频的能力给我们带来了的极大的视觉震撼。

而现在,Gen-2发布了。

插入视频

Gen-2不但可以从无到有直接生成视频,并且与Gen-1相比,它生成的视频帧与帧之间衔接得更加流畅了,整体画质也更加清晰。

那么等到Gen-3发布的时候,我们能不能一键生成抖音爆款短片呢

Gen论文链接:https://arxiv.org/abs/2302.03011

百度发布文心一言

在GPT-4发布的当天,百度发布文心一言对标ChatGPT。

随即,梗图在网上爆火。

作为中国互联网公司中第一个推出的AIGC商业化产品,希望未来能有更佳优秀的迭代版本!

Adobe发布Firefly

2023年3月21号,Adobe推出了自己的创意生成式AI模型集:Adobe Firefly。

Firely的功能很多,主要包括:

  1. 通过文字生成、修改图片
  2. 生成“源文件”:矢量插画
  3. 以图生图
  4. 多素材合成图片
  5. AI对话助手

Adobe认为,AI正在提供一种打开世界的新方式,人们可以用最方便的方式来实现创意,“赋能设计师而不是取代设计师”。

Stability AI发布Table Diffusion Reimagine

在table Diffusion Reimagine(SDR)被发布之后,可以说人人都是prompt工程师的时代,还没开始就结束了

SDR允许用户无限制地生成单个图像的多种变体,并不需要复杂的prompt。用户只需将图像上传到算法中,就可以创建他们想要的尽可能多的变体。

Meta发布Segment Anything Model

2023年4月6号,Meta发布了CV领域的分割大模型Segment Anything Model(SAM),并且开源了目前为止分割方向最大的数据集Segment Anything 1-Billion mask dataset(SA-1B),其包含了超过1100万的数据与超过10亿的mask标签。

SAM整体架构

SAM分割效果

在自然语言处理领域的大模型浪潮下,CV领域在未来或许会引来“ChatGPT时刻”。

SAM demo地址:https://segment-anything.com/
SAM 论文地址:https://arxiv.org/abs/2304.02643

精致的结尾

无数的科幻作品都预言过AI在未来会成为我们生活的一部份,有乐观的阐述,有悲观的阐述,也有理性的阐述。但不管怎么样,我们离这个未来越来越近了

在本系列的后续文章中,Rocky将继续带来关于《AIGC引发的科技浪潮,给了我们什么启示》,《AIGC时代下,还会涌现哪些现象级产品》以及《AI从业者在AIGC时代下如何“转型”》的核心思考与干货分享,大家可以先一键三连,不要错过后续精彩哦~

Rocky将算法高价值面试知识点即“三年面试五年模拟”之独孤九剑秘籍前十二式进行汇总梳理成汇总篇,并制作成pdf版本,大家可在公众号后台 【精华干货】菜单或者回复关键词“三年面试五年模拟” 进行取用。

除此之外Rocky还将YOLOv1-v7全系列大解析也制作成相应的pdf版本,大家可在公众号后台 【精华干货】菜单或者回复关键词“YOLO” 进行取用。

Rocky一直在运营技术交流群(WeThinkIn-技术交流群),这个群的初心主要聚焦于技术话题的讨论与学习,包括但不限于CV算法,算法,开发,IT技术以及工作经验等。群里有很多人工智能行业的大牛,欢迎大家入群一起学习交流~(请添加小助手微信Jarvis8866,拉你进群~)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/32728.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

OpenAI CEO:AI可能会杀死人类,已经出现我们无法解释的推理能力

来源:量子位 | 公众号 QbitAI “AI确实可能杀死人类。” 这话并非危言耸听,而是OpenAI CEO奥特曼的最新观点。 而这番观点,是奥特曼在与MIT研究科学家Lex Fridman长达2小时的对话中透露。 不仅如此,奥特曼谈及了近期围绕ChatGPT产…

拥抱数字时代 | 第十六届中国大数据技术大会成功举办

2月26日,由中国计算机学会(CCF)主办,苏州市吴江区人民政府支持,CCF大数据专家委员会、苏州市吴江区工信局、吴江区东太湖度假区管理办公室、苏州市吴江区科技局、苏州大学未来科学与工程学院、DataFountain数联众创承办…

携手NVIDIA等40余家国内外伙伴,飞桨硬件生态狂飙

深度学习框架与 AI 硬件厂商,相辅相成、共同发展。百度飞桨与 NVIDIA 等 40 多家硬件伙伴正在践行这一理念。 备受关注的 NVIDIA GTC 2023 大会已经结束,NVIDIA CEO 黄仁勋依然给所有人带来了震撼,搬出了为 ChatGPT 准备的芯片,向…

昆仑万维、中文在线收到关注函;商汤回应自研大模型图片生产质疑;Google Bard大更新丨每日大事件...

‍ ‍数据智能产业创新服务媒体 ——聚焦数智 改变商业 企业动态 中文在线收深交所关注函:要求量化说明AIGC业务开展情况 4月12日,中文在线收关注函:深交所要求公司量化说明公司在AIGC方面的近期业务开展情况是否会对公司经营业绩产生较大影…

抖音变现4大方式:如何通过抖音这个巨大的流量池做变现

有人曾说,互联网赚钱的公式是:流量金钱。抖音,现在恰好就是一个坐拥庞大流量的平台。越来越多人跟风进军抖音,但大部分处于盲目状态,似乎全世界都在做,自己也想做一个,却不知道做了到底能不能赚…

douyin / kuaishou / huoshan / tiktok 高版本抓包 hook方案

经常玩短视频的小伙伴肯定都知道,目前主流的几款视频app像douyin / kuaishou / huoshan / tiktok都是使用quic协议。 网上关于这方面资料相当的多,笔者就不再过多的叙述了。 简而言之就是使用传统那套抓http/https协议的姿势是行不通啦! 这…

最全抖音变现技巧揭秘

抖音虽然火了,但在玩抖音之前,我们还是要计划好后面的变现模式,不然不管后面你的抖音账号做的多大,多好,粉丝量多多,也是白费的。今天我将为大家揭秘史上最全抖音变现技巧! 一.卖号卖粉 账号价值的评判标准就是粉丝量和粉丝属性。粉丝量不用说,粉丝属性一般分为泛娱乐…

TikTok涨粉?参考抖音?账号增粉解析!

2022这一年我们既看到了刘畊宏、东方甄选、邱奇遇、吕小厨爱美食、垫底辣孩 等新鲜面孔大放异彩,也见证着疯狂小杨哥、闲不住的阿俊等老熟人的持久生命力。那么在刚刚过去的第三季度中,有多少一飞冲天的新账号涌现、又有多少生机勃勃的老账号持续释放着巨…

抖音账号运营技巧,让你的短视频更火爆

抖音是目前最火爆的短视频平台之一,拥有着庞大的用户群体和广阔的市场前景。在这个平台上,每天都有大量的用户在发布自己的短视频内容,让自己的账号脱颖而出并吸引更多的粉丝,成为每个用户所追求的目标。下面就来介绍一些抖音账号…

抖音引流到微信的5个方法

随着抖音的爆火,越来越多的个人创业者(微商、电商、实体店老板...)和企业,开始意识到抖音营销的重要性。 抖音变现的方式也多达数十种,其中有一种就是引流到微信进行成交。 不管是微商还是电商,微信作为现…

抖音工具有哪些?十大抖音运营工具分享

一、视频剪辑工具 Premiere软件是一款主流的视频剪辑软件,它不仅有简洁优雅的界面,还能识别多种视频格式,另外它的调色功能也异常强大 二、素材工具 创客贴有丰富的图片素材库和风格多样的模版,非常适合抖音运营者做图文视频。 …

抖音变现模式?80%的人都不知道的秘密,三类更适合玩私域的产品

这篇内容关于适合玩私域的三类产品,精简一下让大家可以3分钟看完。不玩悬念,直接上千货。 上一篇在我赢助手小禾呈序上给大家讲了三个变现的建议,以及两种我比较推荐的变现方式。带货和支付费。今天再讲一个主流的变现思路,最后还…

短视频变现详解:抖音变现目前流行的是七种方式之广告营销

短视频变现目前流行的是七种方式,电商卖货、广告营销、内容付费、品牌导流、直播变现、IP变现、社群营销。 我们分别来说一下:权威的三方报告提到过,短视频商业变现里面这七类用户接受度最高的。今天我们依次来说一说这几种变现模式。 第二个变现模式就…

对抖音流量获取的数据分析

文章目录 一、分析目的二、数据来源字段说明 三、数据处理1.引入库2.数据清洗&预处理加载数据检测是否存在空值检测是否存在重复值 四、数据分析抖音网红视频数据分析抖音播放量来源分布视频时长与点赞完播率之间的关系作品时长与播放量的关系作品时长与作品数量的关系作品…

抖音网上如何赚钱变现,有哪些具体的方法

推荐阅读1:【创业粉引流变现项目】流量变现 推荐阅读2:【4种在家就能带货赚钱的直播课】 普通人想要在互联网上赚钱,除了要有可以实操的方法之外,最重要的其实还是个人的思维模式,哪里的流量多,那么哪里就…

TikTok变现玩法分析

备注:以下只是本人近期研究的一些基本分析,具体操作还是在实践中验证吧。而我自己的验证结果后期也会写进来,因为我也刚开始思考和实践。 一、前言 从个人角而言,以及看到和前期简单尝试调研的结果来看,我更偏向于转…

我赢助手详解:抖音变现目前流行的是七种方式之直播变现和Ip变现

抖音变现目前流行的是七种方式,电商卖货、广告营销、内容付费、品牌导流、直播变现、IP变现、社群营销。 今天我们来说一说直播变现模式。直播变现,他有两种模式: 第一种就是直接在直播中去带货,然后就转化。第二种就是获得打赏。…

html+css仿写小米商城

利用空余时间仿写了一个小米商城的页面,都是最基础的结构和样式的写法,主要想锻炼自己写代码的能力和熟悉一下PC端网页的布局。等学完其他知识再来做补充。这里先记录一下我的仿写思路,以免忘记。 一、成果展示: 小米商城仿写 二、…

HTML+CSS+JavaScript仿写的小米官网

HTML部分 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><meta http-equiv"X-UA-Compatible" cont…

练习篇:仿写 Instagram 列表

前面已经讲解了一些常用的布局方式、常用 Widget 组件以及 Dart 语法。那么这节课我们就来一个小总结,通过一个实例小页面来复习巩固我们之前学过的知识,理论结合实践。本课练习篇主要是完成一个完整的页面的编写,将会涉及到前面学习过的布局 Widget 和组件 Widget ,一起来…