大家好,这里是Doker,最近AIGC非常火,这里我们聊一下什么是AIGC.
一、 AIGC 介绍与典型行业应用场景
AIGC 又称生成式 AI (Generative AI),是继专业生产内容(PGC, Professional-generated Content)、用户生产内容(UGC, User-generated Content)之后的新型内容创作方式,可以在对话、故事、图像、视频和音乐制作等方面,打造新的数字内容生成与交互形式。 与所有人工智能技术一样,AIGC 的能力由机器学习模型提供,这些模型是基于大量数据进行预先训练的大模型,通常被称为基础模型(Foundation Models)。如今以基础模型为驱动的 AIGC 应用迭代速度呈现指数级发展,从由 Stable Diffusion 文生图模型驱动的 AI 作画应用,再到以大语言模型(LLM)驱动的智能聊天机器人,深度学习模型不断完善、开源预训练基础模型的推动以及大模型探索商业化的可能,都在成为这场人工智能颠覆性革命的主要驱动力。
与所有人工智能技术一样, AIGC 的能力由机器学习模型提供,这些模型是基于大量数据进行预先训练的, 通常被称为基础模型(Foundation Models) 。机器学习的最新进展(特别是基于 transformer 的神经网络架构的发明)直接带来这一类模型的爆发式增长,这类模型通常包含数十亿个参数或变量。如今的基础模型,例如大型语言模型 GPT4 或 BLOOM,可以执行跨多个领域的多种任务,例如撰写博客文章、 解决算术问题、对话聊天、 基于文档回答问题等 , 由 stability.ai 开发的文生图模型 Stable Diffusion,可以生成创意图片, 转换已有图像风格等。
尽管预训练基础模型所带来的功能和可能性已足够令人惊叹,而真正让业界兴奋不已的是, 这些通用模型也可以被定制化加工,执行专属于其业务领域的特定功能,帮助业务建立差异化竞争优势, 与从零开始训练模型相比, 仅需使用一小部分数据和计算资源。定制化的基础模型可以带来独有的顾客体验,体现公司的观点、风格和服务,适用于众多消费者行业,如金融银行、旅行和医疗等。例如,一家金融公司如果需要使用所有相关交易自动生成活动日报以供内部流通,它可以使用包括既往报告在内的专有数据来定制模型,以便基础模型了解如何阅读报告和使用哪些数据来生成日报。
但是,基础模型也有一些挑战,包括计算成本高和数据偏差等问题。计算成本是基础模型的一个主要挑战。由于这些模型具有数十亿个参数,因此它们需要大量的计算资源才能进行训练和推理。
对于中小型企业来说,从 0 到 1 训练自己的基础模型非常困难,而且在推理时也需要多个 GPU 进行计算,因此运行成本非常高。另一个挑战是数据偏差。由于基础模型是在互联网上的未经筛
选数据上进行预训练的,因此这些数据可能包含偏见、仇恨言论等有害信息。即使有人工标注员,也难以检查每个数据点,因此这可能导致基础模型的信任度不高。尽管存在这些挑战,基础模型的发展仍然是一种重要趋势,它可以提高自然语言处理领域的效率和灵活性。将来,我们可能
会看到更多的基础模型应用于各种任务和应用程序,从而推动人工智能技术的进一步发展。
二、AIGC 技术生态与典型客户需求
AIGC 技术生态加速形成与发展,目前整个 AIGC 应用的技术生态大致可以分为三层:分别为基础设施、基础模型和应用程序。
AIGC 技术生态:
• 通过运行自己的基础模型管道或者依赖第三方基础模型 API, 把 AIGC 基础模型以端到端的方式为客户提供服务和产品,比如炙手可热的人工智能文本生成领域独角兽 Jasper.ai, 提供营销文案生成的 SaaS 服务如广告文案、博客、外发邮件等,人工智能绘画软件 Midjourney 等;
• 为 AIGC 应用提供支持的基础模型, 可以通过闭源专有 API (如 GPT-3)或开源模型 ( 如 Stable Diffusion),或者提供开源模型托管平台(如 HuggingFace);
• 提供 AIGC 基础模型进行训练和推理所需的算力基础设施(云计算服务商和硬件制造商) ,如亚马逊云科技,英伟达等;