Rocky Ding

WeThinkIn

写在前面

【AI行研&商业价值分析】栏目专注于分享AI行业中最新热点/风口的思考与判断。也欢迎大家提出宝贵的优化建议，一起交流学习💪

大家好，我是Rocky。

2023年3月21日，微软创始人比尔·盖茨在其博客文章《The Age of AI has begun》中表示，自从1980年首次看到图形用户界面（graphical user interface）以来，以OpenAI为代表的科技公司发布的AIGC模型是他所见过的最具革命性的技术进步。

Rocky也认为，AIGC及其生态链，会成为AI行业重大变革的主导力量。AIGC会带来一个全新的红利期，未来随着AIGC的全面落地和深度商用，会深刻改变我们的工作，生活，学习以及交流方式，许多行业都将被重新定义，过程会非常有趣。

二十世纪末PC革命的时候，Rocky还在玩小霸王学习机；二十一世纪初互联网革命的时候，Rocky还在教室里获取新知，但Rocky依旧从革新中感受到了震撼。当前由AIGC引发的科技浪潮，同样让Rocky兴奋，正是其ToC的迭代可能性，让Rokcy在早期就做出了all in AIGC的决定。

而在刚刚过去的“疯狂三月”，世界上主要科技公司与研究机构们争先恐后发布关于AIGC的最新进展，让人目不暇接，吃瓜群众们纷纷惊呼不已。那么，在狂欢过后，我们该如何更好的审视AIGC的未来？我们该如何更好地拥抱AIGC引领的革新？接下来Rocky准备从技术，产品，长期主义等维度分享一些个人的核心思考与观点，希望能帮助各位读者对AIGC有一个全面的了解。

So，enjoy（与本文的BGM一起食用更佳哦）：

正文开始

----【目录先行】----

何为AIGC
“疯狂的三月”，AI新时代的开启
AIGC引发的科技浪潮，给了我们什么启示（后续文章中将发布，敬请期待）
AIGC时代下，还会涌现哪些现象级产品（后续文章中将发布，敬请期待）
AI从业者在AIGC时代下如何“转型”（后续文章中将发布，敬请期待）

【一】何为AIGC

如果你还不知道AIGC，don’t worry，Rocky接下来将会详细阐述AIGC是什么，帮助大家对AIGC建立全面的理解。

AIGC全称Artificial Intelligence Generated Content，也就是人工智能生成内容，而这个内容就包含了图像，视频，文本对话，语音等信息交互的基本单元。

目前，在图像和文本对话领域，Stable Diffusion和ChatGPT两个人工智能模型横空出世，在图像和文本对话领域奠定了商用的基础。

AIGC届的“卧龙凤雏”皆已登场

Stable Diffusion让包含AI绘画在内的图像生成应用井喷式爆发，其逼真的画面内容，让很多专业人士都惊呼AI已经具备“创造力”。通常来说，人类用视觉从外界获取的信息占到总信息的80%，而这庞大的信息中，AI生产的内容似乎开始潜移默化的加入。据估计，到2025年，世界上10%的内容数据都将由AI去创造。

AI创作的冠军作品《太空歌剧院》

ChatGPT更不用说，其本身就成为了一个现象级的应用，让沉寂已久的自然语言处理领域着实风光了一把。

各大热门平台月活跃用户数破亿所需时长

其展现出的强大的上下文理解能力与对话能力，无疑预示着未来的生产力将迎来大爆发，AI第一次让人类有了可以全方位依靠的“感觉”，但同时也引起了悲观人士对人工智能将会“掌管世界”的恐慌。

关于ChatGPT的解析，Rocky之前已经在深入浅出解析ChatGPT引领的科技浪潮 |【AI行研&商业价值分析】中深入讲解，感兴趣的读者可以补充阅读。

在图像和文本对话领域实现爆发后，未来AIGC在视频和音频领域的突破也只是时间问题。除了图像，文本对话等单模态领域，AIGC的多模态应用也已经迅猛发展，比如文本生成图像，图像生成文本，文本生成视频，图像/视频生成文本对话等，更加精准地模拟了现实世界的信息交互，多模态AIGC是真正实现认知和决策智能的关键一招。

多模态发展的最终形态，很可能会创造出一个“智能体”，它能够从外界接收图像视频，语音以及本文，并通过“思考”之后，同样通过图像视频，语音和本文作出应对，比如像贾维斯一样给钢铁侠提供建议，亦或者是像天网那样有自己“倔强”的想法。

【二】“疯狂的三月”，AI新时代的开启

2023年的三月，疯狂程度可以载入AI史册。

GPT-4、Microsoft 365 Copilot、Midjourney V5、Google PaLM API、文心一言等等重磅的AI创新产品扎堆推出，让吃瓜群众目不暇接，让蹭热度媒体人日日“震惊并刷新认知”。

除此之外，我们还能做什么呢？

我们首先要做的，是记住这带来革新的一个月，并梳理总结这些新产品的核心本质。

那么，让我们开始吧。

微软发布Visual ChatGPT

原生的ChatGPT展现出了强劲的文本推理能力和对话问答能力，但是它无法处理视觉信息。

Visual ChatGPT通过借助如Visual Transformer和Stable Diffusion等视觉模型的强大的视觉理解和生成能力，来开启ChatGPT处理视觉任务的研究方向。

目前Visual ChatGPT可以达到如下效果：

接收和发送文本和图像。
提供复杂的视觉问答和视觉编辑等应用，并通过多步迭代优化的方式来解决复杂视觉任务。
可以提供反馈，总结答案，主动询问模糊的prompt等附加功能。

模型效果演示

Visual ChatGPT工作流

Visual ChatGPT论文链接：https://arxiv.org/abs/2303.04671

Visual ChatGPT开源代码：https://github.com/microsoft/visual-chatgpt

斯坦福大学发布Alpaca

斯坦福大学发布了由Meta的LLaMA 7B模型微调而来的Alpaca模型。

“羊驼”模型

Alpaca模型宣称训练成本不到600美元，但是评估效果与ChatGPT相当。

那么斯坦福研究团队是怎么用这区区600美元来完成“如此大”的工程呢？

首先，斯坦福团队花了不到500美元用ChatGPT的API来生成研究所需的训练数据（这骚操作，Rocky愿称之为蒂花之秀）

接着，用云计算平台去微调训练Alpaca模型，其训练成本只有100美元。

就这样，ChatPGT的能力就被很好的“拷贝”了，并且Alpaca模型的参数只有70亿，比ChatGPT少了约25倍，让其在单卡上运行成为了可能。

这说明我们能够获得的类ChatGPT功能的综合成本将会逐步降低。

Alpaca开源代码：https://github.com/tatsu-lab/stanford_alpaca

清华发布ChatGLM-6B

ChatGLM-6B是由清华技术成果转化公司智谱AI开源的中英双语对话模型，并针对中文进行了优化。虽然存在和ChatGPT一样的事实错误、胡说八道的问题，但是作为开源模型其支持在单张消费级显卡上部署应用。

ChatGLM的自我介绍

ChatGLM-6B开源代码：https://github.com/THUDM/ChatGLM-6B

OpenAI发布GPT-4

北京时间2022年3月15日凌晨1时，OpenAI发布GPT-4。

「这是二十一世纪以来，人类最慌的一天」，「一切都将会变得不一样」，一些从业者兴奋万分，一些从业者忧心忡忡，如此极端的行业氛围在上一次是什么时候？10年前？20年前？

可以肯定的是，这次的AI引领的科技浪潮，踏踏实实充满了落地可能性。

AI行业的重磅炸弹

GPT-4相比ChatGPT拥有了多模态能力，同时推理能力进一步增强，不仅能够与人类正常对话，也能够识别图像，生成歌词，制作网站，并且在哈佛和斯坦福等名校中取得了优异的考试成绩，确实出现了一点AGI（artificial general intelligence，通用人工智能）的意思。

插入视频

是的，AI行业的iPhone时刻到来了。

这是很多人都在说的，那到底什么是iphone时刻呢？

iPhone用强大的产品逻辑整合已有技术开创了一个革命性的智能手机界面交互模式，由此推动了移动互联网的全面爆发。

麻省理工认为，GPT-4可能是OpenAI有史以来最神秘的版本，也标志着它从非营利性研究机构向盈利性技术公司的全面转型。

微软发布New Bing和Microsoft 365 Copilot

早些时候，微软发布了New Bing，其在搜索引擎中集成了ChatGPT。

New Bing可以引用最近1小时发布的信息回答用户的问题。如果用户提出的问题比较模糊，新版Bing则会尝试“反问”用户，并为用户给出相应的答复建议。简而言之，New Bing是搜索引擎+实时信息+ChatGPT的一次尝试，打造一种“聊天式的搜索引擎工具”。

等待GPT-4一发布，微软马上“坦白”，确认了New Bing使用的普罗米修斯模型（Prometheus）就是OpenAI发布的GPT-4，并且表示使用New Bing的用户应该已经体验到GPT-4的强大功能。

微软：“不愧是我”。

但是微软的AIGC尝试并未就此告一段落。

紧接着微软发布另一个重磅应用：Microsoft 365 Copilot，一夜之间在中外互联网上刷屏。

Copilot也应用了GPT-4技术，能够帮助用户在 Word、Excel、PowerPoint、Outlook 和Teams等软件中进行写作、编辑、总结、创作、演示文稿等工作。

用户可以根据需求生成文档，也可以让Copilot自动做PPT，并一键做出精美排版，还可以让Excel自动分析数据的特点，自动生成分析图表等。

Copilot文档功能

Copilot的PowerPoint功能

Copilot的Excel功能

微软认为此次Copilot最重大的意义是在于大幅提高了生产效率，减少了日常不必要的工作时间浪费，我们与电脑的交互方式迈入了新的阶段，从此我们的工作方式将永远改变，开启新一轮的生产力大爆发。

Anthropic发布Claude

在ChatGPT发布，并且微软加注OpenAI之后，Google火速投资Anthropic，这个由前OpenAI研究副总裁Dario Amodei创立的人工智能公司。

风浪大了，好卖鱼。

之后，Anthropic便发布Claude，直接对标ChatGPT。其宣称具有和ChatGPT一样的对话问答能力，能够执行各种基于文字对话的任务，如文档搜索、摘要、写作、编码，以及响应用户的提问。

Google发布PaLM API

Google在3月14日晚间开放了其大语言模型PaLM的API。Google一度是互联网公司在AI领域的半壁江山，但必须要承认的是，在这次AIGC的浪潮里，Google的工作并没有得到预期的关注。

因为同一天的晚时候，GPT-4闪亮登场了。

与微软类似，Google也全面更新了旗下的AI办公工具，主要包含以下几个方面：

AI赋能Gmail，使其智能化。
在Google Docs中集成头脑风暴、自动内容生、校对、修正重写等AI功能。
在Google Slides中通过关键词来自动帮助用户生成的图像、音频和视频，并能提供各种不同幻灯片创意选择。
在Google Sheets中集成自动整理表格、公式生成和上下文分类，以及基于原始数据的解读和分析能力。
在Google Meet中提供新的AI背景生成、笔记记录、总结等功能。
在所有功能中启用AI对话助手（类似于ChatGPT），让用户能够通过提问和描述的方式来快速生成内容。

Midjourney V5发布

2023年3月15号，Midjourney公司发布付费AI图像生成服务的迭代版本：Midjourney V5。

图像的整体生成效果再上一层楼，细节刻画更加逼真，而一直被诟病的AI不会画手指的问题，在这一版中也得到了解决。

Midjourney V5的生成图像

Midjourney V5生成的手部图像

Nvidia发布H100 NVL

英伟达在一年一度的GTC大会上，发布了新显卡：带有双GPU NVLink的H100 NVL。

H100 NVL是专门针对算力需求巨大的ChatGPT而设计的显卡，H100 NVL拥有夸张的188GB HBM3内存（每张卡94GB），这也是目前Nvidia发布的内存最大的显卡。

在如此夸张的配置加持下，H100 NVL就成为了大规模部署AIGC大模型的理想选择。

与此同时，为了降低用户部署大模型的成本，Nvidia还推出了DXG Cloud服务，在云端将8张H100或A100显卡组成的超级计算机提供给用户，能够便捷地完成类似ChatGPT等先进AI应用的计算工作。

或许，在抽丝剥茧之后，我们会发现把AI带到各行各业的最原始的源头，是Nvidia。

Runway发布Gen-2

Runway在2022年9月发布的Gen-1展现的文本转视频的能力给我们带来了的极大的视觉震撼。

而现在，Gen-2发布了。

插入视频

Gen-2不但可以从无到有直接生成视频，并且与Gen-1相比，它生成的视频帧与帧之间衔接得更加流畅了，整体画质也更加清晰。

那么等到Gen-3发布的时候，我们能不能一键生成抖音爆款短片呢？

Gen论文链接：https://arxiv.org/abs/2302.03011

百度发布文心一言

在GPT-4发布的当天，百度发布文心一言对标ChatGPT。

随即，梗图在网上爆火。

作为中国互联网公司中第一个推出的AIGC商业化产品，希望未来能有更佳优秀的迭代版本！

Adobe发布Firefly

2023年3月21号，Adobe推出了自己的创意生成式AI模型集：Adobe Firefly。

Firely的功能很多，主要包括：

通过文字生成、修改图片
生成“源文件”：矢量插画
以图生图
多素材合成图片
AI对话助手

Adobe认为，AI正在提供一种打开世界的新方式，人们可以用最方便的方式来实现创意，“赋能设计师而不是取代设计师”。

Stability AI发布Table Diffusion Reimagine

在table Diffusion Reimagine（SDR）被发布之后，可以说人人都是prompt工程师的时代，还没开始就结束了。

SDR允许用户无限制地生成单个图像的多种变体，并不需要复杂的prompt。用户只需将图像上传到算法中，就可以创建他们想要的尽可能多的变体。

Meta发布Segment Anything Model

2023年4月6号，Meta发布了CV领域的分割大模型Segment Anything Model（SAM），并且开源了目前为止分割方向最大的数据集Segment Anything 1-Billion mask dataset（SA-1B），其包含了超过1100万的数据与超过10亿的mask标签。

SAM整体架构

SAM分割效果

在自然语言处理领域的大模型浪潮下，CV领域在未来或许会引来“ChatGPT时刻”。

SAM demo地址：https://segment-anything.com/
SAM 论文地址：https://arxiv.org/abs/2304.02643

精致的结尾

无数的科幻作品都预言过AI在未来会成为我们生活的一部份，有乐观的阐述，有悲观的阐述，也有理性的阐述。但不管怎么样，我们离这个未来越来越近了。

在本系列的后续文章中，Rocky将继续带来关于《AIGC引发的科技浪潮，给了我们什么启示》，《AIGC时代下，还会涌现哪些现象级产品》以及《AI从业者在AIGC时代下如何“转型”》的核心思考与干货分享，大家可以先一键三连，不要错过后续精彩哦～

Rocky将算法高价值面试知识点即“三年面试五年模拟”之独孤九剑秘籍前十二式进行汇总梳理成汇总篇，并制作成pdf版本，大家可在公众号后台 【精华干货】菜单或者回复关键词“三年面试五年模拟” 进行取用。

除此之外Rocky还将YOLOv1-v7全系列大解析也制作成相应的pdf版本，大家可在公众号后台 【精华干货】菜单或者回复关键词“YOLO” 进行取用。

Rocky一直在运营技术交流群（WeThinkIn-技术交流群），这个群的初心主要聚焦于技术话题的讨论与学习，包括但不限于CV算法，算法，开发，IT技术以及工作经验等。群里有很多人工智能行业的大牛，欢迎大家入群一起学习交流～（请添加小助手微信Jarvis8866，拉你进群～）

在疯狂三月之后，深入浅出分析AIGC的核心价值 （上篇）|【AI行研商业价值分析】