(本文阅读时间:10 分钟)
今年以来,随着人工智能技术不断实现突破迭代,生成式AI的话题多次成为热门,而人工智能内容生成(AIGC)的产业发展、市场反应与相应监管要求也受到了广泛关注。为了更好地探寻其在各行业落地应用的可行性和发展趋势,易观对AIGC产业进行了探索并将发布AIGC产业研究报告系列。
报告以内容生成模态作为视角,涵盖了AIGC在语言生成、图像生成、音频生成、视频生成、三维生成、分子发现与电路设计(图生成)等领域的技术发展、关键能力、典型应用场景,我国AIGC产业在商业化落地过程所面临的挑战和对前景的展望。希望通过梳理和把握AIGC产业的发展脉络,为各领域的应用开发者和使用者提供参考。
定义
语言生成是指神经网络学习的语义概率模型可以根据任务要求生成语言,生成的语言包括自然语言、编程语言与逻辑语言等。
由于绝大多数的知识与经验以语言、尤其是自然语言的方式进行记录与保存,且语言也是交流的基础,因此语言生成具有广泛的应用方式与应用场景。
主要类型和应用领域
语言生成应用根据其应用能力的针对性可分为通用语言生成应用与垂类语言生成应用。通用语言生成应用具备大量通用领域知识,可以根据要求完成不同类型的语言生成任务,如撰写邮件、模拟对话、生成代码等;与通用语言生成应用相比,垂类语言生成应用除具备一定通用领域知识外还具备专业领域知识,通常应用模式设计也更加符合专业领域应用中的各项要求。
目前语言生成已在多个行业中得到了广泛的应用。金融业利用语言生成应用分析大量财务报告、企业定期报告等金融材料以生成关键信息摘要与投资策略建议,语言生成应用也可根据金融数据生成数据分析报告;电商利用语言生成应用生成商品描述,也利用语言生成应用分析商品评价,也可利用语言生成应用为客户生成商品推荐;新闻与媒体利用语言生成应用自动生成新闻报道,进行内容创作等;教育业利用语言生成应用协助教师生成教学计划与教学方案、辅助教师批改作业,为学生提供学习辅导;医疗利用语言生成应用协助医生撰写医疗方案与病例,帮助病患匹配医疗资源等。
语言生成也已应用于多个领域。营销利用语言生成应用生成博客文章、社交媒体帖子、广告文案等营销内容;销售利用语言生成应用生成报价单、销售方案与销售合同,也利用语言生成应用分析市场数据与销售数据,形成销售预测与销售方案建议等;产品研发利用语言生成应用辅助开发IT产品、测试产品并形成产品文档、产品说明书与测试报告等。客户服务利用语言生成应用协助客服人员分析客户意图与客户问题,生成反馈与问题解决方案等;在办公中也可以利用语言生成应用编写公文,总结会议资料与议程,提炼关键行为并进行团队同步等。
目前语言生成的应用方式主要为生成内容与提供交互。语言生成的内容通常是具备事实性、功能性或娱乐性的书面性文本内容,如博客文章、新闻、邮件、小说、代码等。在生成内容方面,新闻、传媒、营销、广告、办公等行业与场景进行相关应用较早,早期的内容生成是基于模板的生成,即仅能根据模板生成固定的内容,如生成固定格式的合同、提取新闻内的财经相关信息填入模板等,生成的文字内容准确性高、生成过程对基础设施的要求较低,但此类语言生成仅能应用于模式化程度高的语言生成任务、生成的内容缺乏想象力与创造力,因此其应用具有较大的局限性。随着技术进步,语言生成应用可以进行低模式化的内容生成,生成内容的想象力与创造力大幅提升,语言生成应用的可以应用于更多场景。如生成广告文案、产品描述、博客文章、营销策划、商业邮件等,生成能力在想象力与创造力方面的提升使语言生成应用可以辅助文学内容的创作。语言生成应用也可以对各类内容进行摘要与总结。
与内容生成相比,语言生成应用在提供交互时需要更准确地理解语言包含的情绪、并能做出适当的回答,在多轮对话中也要具有对前文的记忆能力,在一些应用场景中对推理能力也有更高的要求。如智能客服作为重要交互场景,长期以来智能程度较低,难以准确理解客户意图,更难以实现客户有效转化。目前语言生成应用大幅提升了智能客服的智能水平,除可以准确理解客户意图外,还可以完成处理订单状态、查询运输状态与产品信息等更加复杂的任务,并能与客户进行个性化沟通、智能推荐商品和活动等,提升客户的转化率。由于能力的提升,语言生成已应用于心理辅导、教学辅导、医疗导诊、虚拟娱乐等多种交互场景中。
技术发展的关键阶段
● 2017年前
由于硬件与技术方面的限制,以循环神经网络结构为代表的语义概率模型在语言理解与生成方面能力较弱,因此语言生成应用表现不佳,仅能完成高度模式化的语言生成任务,如文件填写,特定格式文本文件的关键信息抽取等。
● 2017年:技术发展期
2017年Google提出的Transformer神经网络结构极大地加强了构建复杂语义概率模型的能力,模型的语言理解与生成能力有了显著的提升。Transformer为语言生成应用奠定了坚实的技术基础,但这一阶段的语言生成应用仍仅能完成高度模式化的语言生成任务。
● 2018-2019年:模型探索期
2018年至2019年间,语义概率模型的复杂度持续增加。根据下游任务,语言模型可以分为语言理解模型与语言生成模型,以GPT系列模型与OPT模型为代表的语义概率模型更加注重提升语言生成能力,也为语言生成应用完成如文本摘要、文本撰写等低模式化任务提供了技术支持。
● 2020-2021年:应用探索期
2020年至2021年间,语义概率模型的复杂度继续增加,模型的语言理解能力与生成能力已初步满足低模式化语言生成任务的应用要求,学术界与产业界开始探索语言生成应用的发展。如OpenAI提出的GPT-3模型一经面世就引发产业界的广泛关注,Jarvis(现Jasper)、Viable、Fable等产业界公司积极与OpenAI合作探讨语言生成应用的发展。
这一阶段语义概率模型只在部分下游任务中接近人类水平,因此对语言生成应用产品化与商业化的探索不够广泛,但语言生成应用已经可以完成低模式化的语言生成任务。
● 2022年-至今:应用加速期
2022年,学术界与产业界通过调整语义概率模型生成内容的方式,使模型生成内容与人类评判标准对齐,加速语言生成应用的商业化进程。语义概率模型出现的生成泛化能力、推理能力、跟随指令的能力也扩大了语言生成的应用场景。
这一阶段Google推出的LaMDA模型表现出惊人的对话生成能力,但并未将模型产品化与商业化。OpenAI开发的InstructGPT模型集通过不同的微调方式强化生成泛化能力、推理能力与跟随指令的能力,且通过提供GPT-3.5模型服务的方式加速了语言生成应用在不同领域进行商业化的探索。
2022年末,OpenAI面向公众提供的ChatGPT宣告语言生成应用进入大规模商业化时代。ChatGPT刷新了公众对语言生成的认知,其掌握的大量通用领域知识与完成复杂任务的能力使语言生成应用在多个领域实现商业化成为可能。
2023年初,语言生成应用产品化与商业化的热度骤升。OpenAI提出的GPT-4模型刷新了如SAT、IELTs等为人类设计的考试中的表现,其可接受语言与图像输入的能力也拓展了语言生成应用的商业化维度,社会各界迅速认识到语言生成应用的商业化价值,金融、教育、传媒、政府、医疗等多个行业积极探索语言生成应用的应用场景,语言生成应用在营销、培训、招聘、娱乐等多个环节取得良好的应用效果。
主流应用
● 海外市场情况
目前在语言生成应用方面,海外市场以OpenAI为首,Google、Anthropic等科技巨头与创业公司竞相追赶,形成“一超多强”的上游市场竞争情况。
OpenAI作为领先的研究型创业公司,其产品ChatGPT是目前最具代表性的通用语言生成应用。基于其大量的通用领域知识,ChatGPT可以完成文本撰写、事实问答、虚拟角色交互、代码生成等多种语言生成任务,ChatGPT强大的语言生成能力在短时间内吸引了大量用户,积累了可观的品牌声量。与微软、Morgan Stanley、Duolingo、冰岛政府等不同领域企业与机构的合作不仅证明了语言生成的泛用性、增强OpenAI的服务能力,也迅速构建了以OpenAI为核心的产业应用生态,形成的数据闭环与应用拓展也帮助OpenAI形成长期的市场竞争力。目前面向个人用户的ChatGPT采用免费增值订阅制,面向企业用户采取按输入量与生成量收费的模式。
Google作为新一代科技巨头,在语言生成应用领域并未抢占到先机,其对标ChatGPT的语言生成应用Bard还没有成型的商业模式,但其目标是将Bard接入Google产品体系中,提升其产品生态与微软产品生态进行竞争的能力。Bard可以完成与ChatGPT相同的任务类型,且支持调用Google搜索引擎以与New Bing竞争。目前Bard向公众免费开放,但其接口仍在测试阶段。目前Bard的生成结果可以输出到Google Doc与Gmail,也可以在Google Workspace中应用。
Anthropic作为人工智能安全的研究型创业公司,其产品Claude在产品能力、产品定位、商业模式等各个方面均与ChatGPT十分相似。但Claude更加注重语言生成应用对人类的协助性,强调应用的安全性,为企业提供从数据到模型再到系统的人工智能应用安全服务,面向企业用户的Claude同样采用按输入量与生成量收费的模式,且价格为ChatGPT的30%-50%。Anthropic并未独立开发面向个人的语言生成应用,而是与其合作伙伴共同探索语言生成的应用方向与应用模式。
在下游市场则是以微软为首,众多腰部厂商与初创团队基于场景打造语言生成应用,形成微软“一览众山小”的竞争情况。
微软作为老牌科技巨头,与OpenAI合作,将语言生成能力与微软产品生态结合,探索与拓展语言生成的场景应用潜力的同时,极大增强微软产品生态的商业竞争力。New Bing作为微软通用语言生成的代表应用,不仅结合搜索引擎功能为用户带来更好的搜索体验,也直接提供文本生成功能,且接入Edge浏览器的New Bing可以提供网页信息总结功能。New Bing的搜索能力和在Edge浏览器内调用的特性短时间内吸引了大量用户,在商业上直接威胁Google搜索业务与Google Chrome浏览器的用户活跃度。微软在其全球最大的代码托管平台GitHub上推出代码生成应用Copilot X,同时将语言生成能力接入办公软件,推出微软365 Copilot,在微软云服务Azure中也可以直接调用OpenAI的语言生成能力。由于微软产品与业务矩阵的广泛性与在办公应用与代码托管平台的高应用渗透率,其语言生成应用无论是在通用领域还是在其针对的垂类领域均有着非常强的商业竞争力。
Jasper作为最早尝试将语言生成应用商业化的公司之一,在2020年即开始尝试以GPT-3作为内核开发用于营销文案的语言生成应用,目前Jasper可以用于广告文案、产品描述、博客文章、营销策划、商业邮件、视频创意文档等多种类型商业性文字内容的生成,其目标用户希望文字内容可以更广地传播。Jasper提供的模板降低了各类商业性文字内容的撰写难度,并且符合商业性文字内容的写作流程,Jasper也可以根据用户的不同要求匹配语言生成模型以提供更佳的生成效果。同时Jasper通过开放API与浏览器插件的形式增强与用户使用场景的融合能力。由于生成的商业性文字内容具备更强的传播性,因此Jasper有着更强的溢价能力。Jasper目前采用免费试用订阅制,其订阅价格较ChatGPT高约50%。
Poe是Quora开发的聊天机器人应用,集成OpenAI、Anthropic、Neeva等多家语言生成应用,提供定制化聊天机器人的服务,并将用户定制的聊天机器人集成为社区,用户可以使用社区内具备不同功能的聊天机器人,如不同语言的编程机器人、图像生成提示机器人、菜谱机器人、虚拟人物对话机器人等。目前Poe采用免费增值订阅模式,订阅价格与ChatGPT价格基本一致。
除Jasper、Poe之外,还有许多具有代表性的语言生成应用,如用于外语学习的Duolingo、用于教育的Khan Academy、用于金融分析的BloombergGPT等。目前海外市场的语言生成应用层出不穷,许多应用基于其原有的产品、服务与用户群体开发相应的语言生成应用,如Snapchat、Whatsapp、Discord均开发其聊天机器人产品,Tripadvisor、Getaiway开发其旅行建议产品,Salesforce基于其CRM平台开发邮件撰写、自动回复等产品,此类应用通常用于丰富其产品能力以与同类产品竞争,许多产品将语言生成应用作为收费功能或溢价功能,面向个人用户的收费功能通常采用订阅制,而面向企业用户的产品与服务则通过包含语言生成应用增强其产品与服务的溢价能力。也有许多新生的语言生成应用,主要为根据某一类细分场景或使用模式基于语言生成能力的应用优化,如用于A/B测试的A/B testing、用于生成思维导图的AYOA、用于总结论文的ArxivGPT等,产品形式多为网页、API与浏览器插件,收费模式多样,其中一次性付费的应用多数还需要自行购买OpenAI、Anthropic的语言模型API。
● 中国市场情况
中国语言生成应用市场与海外市场类似,可以分为上游市场与下游市场。上游市场的主要参与者可以分为以百度智能云、阿里云等为代表的云厂商;以商汤、科大讯飞、第四范式等为代表的老牌人工智能解决方案供应商;以澜舟科技、元语智能、MiniMax等为代表的初创企业;智谱AI、复旦邱锡彭教授团队等为代表的学术型企业与团队。
云厂商方面,百度文心一言在产品能力方面全面对标ChatGPT,目前面向个人用户免费开放文心一言产品体验,文心一言也可与百度搜索引擎结合应用,提升用户搜索体验。且百度宣布将文心一言接入智能语音助手小度、百度文库等百度旗下应用,也对企业开放文心一言语言生成能力,探索语言生成的应用场景;阿里通义千问同样对标ChatGPT,目前以邀请制进行内测,仍未面向公众推出语言生成应用。
老牌人工智能解决方案供应商方面,商汤商量定位为通用语言生成应用,目前以邀请制进行内测,并将推出用于医疗的商量·大医与用于编程的商量·AI代码助手;科大讯飞面向公众开放讯飞星火产品体验,产品能力同样对标ChatGPT,将基于讯飞在教育、办公、汽车等不同领域业务开发垂类语言生成应用;第四范式推出的式说是针对企业软件开发场景的垂类语言生成应用,不向个人用户开放。
初创企业方面,澜舟科技开发的孟子对话机器人仍未对公众开放,其写作辅助语言生成应用目前产品能力仍较为单一;元语智能目前向公众开放ChatYuan产品体验;MiniMax目前具备向企业输出语言生成的能力,且开发面向个人用户的人工智能聊天软件Glow。
学术性企业与团队方面,智谱AI的ChatGLM、复旦邱锡彭教授团队的MOSS产品能力均对标ChatGPT,目前均处于内测状态。ChatGLM已经开源,而MOSS也将开源,中文开源语言生成模型将极大地促进中国语言生成应用市场的发展。
下游市场的主要参与者可以分为以中国农业银行为代表的行业先行者;以WPS、达观数据与云知声等为代表的场景应用供应商;以小冰公司、聆心智能、彩云等为代表的应用开发商等。
中国农业银行基于开源模型自研ChatABC语言生成模型,并打造小数、谛听、天枢等银行业语言生成应用,实现对各类金融业务的赋能。WPS融合MiniMax语言生成能力,打造办公软件类语言生成应用,目前仍未正式上线;达观数据开发曹植语言生成模型,并接入其产品矩阵内打造文本生成与处理的垂类语言生成应用;云知声基于开源模型打造应用于医疗问诊、导诊等场景的语言生成应用,目前仍处于内部测试阶段。小冰公司、聆心智能、彩云均开发了面向个人用户的娱乐型、陪伴型聊天机器人,目前均已上线。
与海外市场相似的是,中国语言生成应用市场的参与者众多、活跃度高,市场结构较为完整,但目前中国语言生成应用市场的商业化成熟度仍然较低。以文心一言、通义千问、讯飞星火等为代表的通用语言生成应用仍处于测试阶段,目前仍不具备盈利基础,语言生成应用在生成能力方面也与海外市场的ChatGPT、Claude等代表性产品存在差距。面向企业用户的垂类语言生成应用与通用语言生成应用类似,多数仍处于测试阶段,也缺乏代表性用例。而面向个人用户的语言生成应用在智能化程度方面也有较大提升空间。不过中文语言生成模型能力在短时间内已大幅提升,而中国语言生成应用市场有着广泛的应用场景与旺盛的应用需求,因此市场的商业化节奏有望迅速与海外市场拉齐。
商业化关键能力
● 生成质量
生成质量是语言生成应用商业化的首要关键能力。高质量的语言生成一方面需要应用对用户的意图、任务的目的等方面有着准确的理解,另一方面也需要生成文本可以准确表达含义,生成的语言贴切流畅,以获得高质量的文本内容与交互效果。对于语言生成应用来说,提升生成质量的关键在于形成数据的闭环。一方面可以通过用户的应用数据反馈提升训练数据规模与数据质量,从底层扩展模型的知识领域与应用中存在的规则;另一方面则是通过用户的应用数据反馈发现潜在的应用痛点与应用需求,并依此设计提示工程,提升语言生成质量。对垂类语言生成应用来说,更要针对特定的行业或应用场景,深入理解相关领域的知识结构和应用要求,以生成符合垂类应用要求的高质量文本。
● 产品运营与客户支持
语言生成应用需要与客户达成长期合作,或需要用户产生用户黏性,因此需要产品运营能力与客户支持能力。在客户遇到问题或需要帮助时,需要提供及时、专业的技术支持,也需要为客户提供培训和教育课程,帮助客户更好地使用语言生成应用。语言生成应用也需要通过产品迭代、发放优惠、建立产品社区等方式增加用户黏性。语言生成应用商业化也需要将语言技术能力有效转化为简单易用的产品和服务,这需要良好的产品设计和用户体验设计能力。而产品易用性强更有利于实现用户的转化与留存。
● 营销能力
目前以大语言模型驱动的语言生成应用将成为主流,而大语言模型高昂的训练成本与应用中不菲的推理成本是语言生成应用必须考虑的因素。通过营销迅速获得用户与客户可以有效摊薄运营成本,且对于下游应用来说拥有较大的用户群体也意味着具备更强的与上游议价的能力。且对于同一类型的语言生成应用来说,其潜在的用户群规模较为固定,而同一类型应用必然通过产品运营与客户支持提升用户黏性的同时提升用户的隐性迁移成本,因此对于语言生成应用来说,需要通过营销占领一定的市场规模,从而保证其商业化具有盈利空间。
此外,通过产品运营能力、客户支持能力与营销能力,语言生成应用可以逐渐形成用户的网络效应,产生用户集群,形成用户与产品生态的双闭环,为应用带来用户的自然增长,可促进应用形成长期商业优势。
● 定制化能力与创新能力
不同行业的客户可能将语言生成应用于各类场景中,而由于行业、场景、工作模式等多方面的差异,客户可能会产生定制化应用的需求,因此语言生成应用需要定制化能力以满足客户的需求。
对于语言生成应用来说,由于应用可以从语义层面进行解耦与重构,因此市场的细分需求变化速度较快,所有应用也必须面对来自新应用的挑战。而具备定制化能力的另一方面则是可以促进用户反馈应用中存在的痛点与需求,而具备定制化能力也可以有效转化为产品与服务的创新能力,进而可以更好地应对市场需求的变化与新应用带来的挑战,保持应用的长期市场竞争能力。
商业化风险
● 错误信息与有害信息
由于各类语言生成应用的底层模型在生成语言时会生成错误信息与有害信息,因此语言生成应用同样难以规避此问题。而生成错误信息与有害信息可能会对品牌声誉与产品形象产生巨大影响,因此成为语言生成应用商业化的巨大风险。
● 信息安全风险
在使用语言生成应用的过程中,由于许多产品与服务基于公有云服务,或需要将信息上传至供应商服务器,因此可能出现信息泄露的风险。如三星集团表示集团人员在应用ChatGPT服务过程中多次泄露机密芯片信息,而也有用户表示ChatGPT会泄露其他用户的输入信息。此前意大利表示因ChatGPT无法证明其满足GDPR要求,因此全境封禁ChatGPT服务,其他欧盟国家表示将关注语言生成应用带来的数据安全风险。
由于信息泄露会带来法律诉讼问题,并需要面对更严格的政府监管,也有可能成为负面社会事件,因此语言生成应用需要注意并规避因信息安全所带来的风险问题。
● 技术与应用替代风险
由于语义的基础性,各类应用均可从语义层面进行解耦与解构,因此许多语言生成应用可能会因技术的进步与应用的设计迭代等难以保持其商业上的竞争优势,因此被快速取代或替代。
前沿探索与发展趋势展望
● 语言生成能力快速提升
从语言模型的发展来看,近年来随着模型参数规模、训练数据量与计算量的上升,模型的语言生成能力也快速提升,并涌现出如多步推理、问题判断、指令调优等新型与语言生成相关的能力。过去两年语言生成能力的快速提升使语言生成应用可以为其客户与用户创造更大的价值,而各类新型能力也成为语言生成应用开发时所必须考虑的能力。而未来语言生成能力的提升同样将加速语言生成应用在各行业与场景中的应用渗透,开拓更多的应用范式。
● 高度定制化的语言生成应用
由于语言模型的训练与推理成本下降速度较快,语言生成应用的开发难度也快速下降,因此语言生成应用的总体成本可能会迅速降低,使基于个人与企业使用习惯、功能、语言风格偏好、内容生成方式等方面的高度定制化语言生成应用成为可能,未来产业应用中非标准化的语言生成应用将成为主流商业形态之一。
欢迎关注微软 ATP 官方账号
微软 ATP 一手资讯抢先了解
点击“阅读原文” | 了解更多 AI 赋能案例