点击下方卡片,关注“自动驾驶之心”公众号
ADAS巨卷干货,即可获取
点击进入→自动驾驶之心【AIGC】技术交流群
摘要
为了应对数字经济中数字智能的挑战,人工智能生成内容(AIGC)应运而生。AIGC使用人工智能,通过根据用户输入的关键词或要求生成内容,来辅助或取代手动内容生成。大模型算法的开发显著增强了AIGC的能力,使AIGC产品成为一种很有前途的生成工具,并为我们的生活增添了便利。作为一种上游技术,AIGC具有无限的潜力来支持不同的下游应用。重要的是要分析AIGC当前的功能和缺点,以了解如何在未来的应用中最好地利用它。因此,本文对AIGC进行了广泛的概述,涵盖了其定义、基本条件、前沿能力和先进功能。此外,还讨论了大规模预训练模型和AIGC产业链的好处。此外,本文探讨了AIGC中辅助生成和自动生成之间的区别,并提供了文本生成的示例。本文还探讨了AIGC与元宇宙的潜在整合。最后,文章强调了存在的问题,并提出了一些未来的应用方向。影响声明:学术界和工业界有必要概述什么是AIGC,AIGC是如何工作的,AIGC如何改变我们的生活方式,以及AIGC在未来会是什么。本文从AIGC的定义、优缺点、应用、当前挑战和未来方向等方面对其进行了调查,以回答这些紧迫的问题。论文总结了现有的主要文献,有助于相关研究人员熟悉和理解现有的工作和未解决的问题。在文献综述和科学研究成果商业化的基础上,本文进行了一些前沿的AIGC研究。特别是AIGC的挑战和未来方向有助于发展人工智能。AIGC的相关技术将推动人工智能的发展,更好地服务于人类社会,实现可持续发展。
总结来说,本文的主要贡献如下:
介绍了AIGC的定义,并讨论了其关键条件。然后展示了三种前沿功能和六种高级功能,以展示AIGC带来的巨大效果;
进一步详细描述了AIGC的产业链,并列出了AIGC中采用的大型预训练模型的几个优势;
为了揭示AIGC中辅助生成和自动生成之间的差异,本文对文本生成、人工智能辅助写作和人工智能生成的写作示例进行了深入的讨论和分析;
从实际应用的角度,论文总结了AIGC的优缺点,然后介绍了AIGC和Metaverse的结合;
最后强调了AIGC目前需要解决的几个问题,并对未来的应用提出了一些方向。本文的组织结构如图2所示。
相关概念
What is AI-generated content?
人工智能生成的内容是指由机器创建的博客、营销材料、文章和产品描述等文章。如图3所示,AIGC经历了三种不同的内容生成模式。在PGC模式中,内容由专业团队生成[7],[8]。PGC的优势在于,大多数生成的内容都是高质量的,但生产周期长,难以满足产量的数量需求。在UGC模式下,用户可以选择许多创作工具自行完成内容生成[9],[10]。UGC的优势在于,使用这些创意工具可以降低创作的门槛和成本,提高用户参与创作的积极性。UGC的缺点是,由于创作者的水平参差不齐,输出内容的质量难以保证。AIGC可以克服PGC和UGC在数量和质量上的不足。它有望成为未来内容生成的主要模式。在AIGC模式中,人工智能技术利用专业知识来提高内容生成的质量,这也节省了时间。
一些企业家计划使用AIGC产品自动完成广告制作任务,这在以前是昂贵和耗时的。一般来说,AIGC可以分为文本、图片和视频生成。
文本生成:AIGC包括结构化写作、创造性写作和对话写作作为其主要子领域。结构化写作主要基于特定场景(如新闻)的结构化数据生成文本内容。然而,创造性写作涉及生成具有更高开放度的文本,这需要个性化和创造性能力。创意写作非常适合营销文案、社交媒体和博客。对话写作主要用于通过文本与用户互动的聊天机器人。这些机器人是为了回答问题而设计的,很像客户服务。
图片生成:通过利用AIGC,用户可以根据给出的提示更改图片并添加新元素。它使编辑图像变得更容易、更高效,而不需要高级技能或知识。此外,AIGC可以独立生成图像以满足特定要求。例如,如果用户需要特定格式的海报或徽标,AIGC可以在短时间内生成。AIGC的另一个令人兴奋的应用是从2D图像创建3D模型。
音频生成:AIGC的音频生成技术可以分为两类。这分别是文本到语音合成和语音克隆。文本到语音合成需要输入文本并输出特定说话者的语音。它主要用于机器人和语音广播任务。到目前为止,文本到语音的任务已经相对成熟。讲话质量达到了自然标准。未来,它将朝着更情绪化的语音合成和小样本语音学习的方向发展。语音克隆将给定的目标语音作为输入,然后将输入的语音或文本转换为目标说话者的语音。这种类型的任务用于智能配音和其他类似场景,以合成特定说话者的语音。
视频生成:AIGC已被用于视频剪辑处理,以生成预告片和宣传视频。该工作流程类似于图像生成,在图像生成中,视频的每一帧都在帧级别进行处理,然后使用AI算法来检测视频片段。AIGC生成引人入胜且高效的宣传视频的能力是通过不同人工智能算法的组合实现的。随着其先进的功能和越来越受欢迎,AIGC很可能会继续彻底改变视频内容的创建和营销方式。
Necessary conditions of AIGC
如图4所示,AIGC由三个关键组件组成:数据、硬件和算法。音频、文本和图像等高质量数据是训练算法的基本构建块。数据量和数据源对预测的准确性有着至关重要的影响[20]。硬件,尤其是计算能力,构成了AIGC的基础设施。随着对计算能力的需求不断增长,更快、更强大的芯片以及云计算解决方案变得至关重要。硬件应该能够处理具有数百万个参数的数兆字节的数据和算法。加速芯片和云计算的结合在提供高效运行大型模型所需的计算能力方面发挥着至关重要的作用。最终,算法的性能决定了内容生成的质量,而数据和硬件的支持对于实现最佳结果至关重要。
数据:ChatGPT的功能表明,数据是云计算和智能人工智能业务迭代的基础和基础。训练模型的准确性取决于训练数据集的大小。较大的样本数据集通常会产生更准确的模型。通常,训练任务需要数十亿到数千亿个文件。因此,存储和管理这些海量数据集至关重要。为了解决这些问题,许多云计算和数据存储服务,如亚马逊S3、微软Azure Blob存储和谷歌云存储,都在蓬勃发展。云存储服务强大地提供了可扩展、快速、安全、易于处理以及可接受的海量数据存储解决方案。此外,幽默数据集的组织和管理提出了更高层次的特殊技术,如数据清理、重复数据消除、标记和分类。上述所有需求旨在使数据组织良好、易于处理,从而更好地支持大规模培训和智能人工智能业务应用。
硬件:在海量数据为大数据和人工智能应用提供重要支持的同时,新的存储需求也迫在眉睫。大型模型的实现在很大程度上依赖于庞大的计算能力。公司必须考虑计算成本和算法效率的挑战[22]。以ChatGPT为例。ChatGPT可以分为许多人工智能模型,这些模型需要特定的人工智能芯片(例如GPU、FPGA和ASIC)来处理复杂的计算任务。根据OpenAI在2020年的报告,训练具有13亿个参数的GPT-3 XL模型所需的总计算能力约为27.5 PFlop/s天。由于ChatGPT是基于GPT-3.5模型的微调,该模型的参数量类似于GPT-3 XL模型。换句话说,ChatGPT需要27.5天才能以每秒1万亿次的速度完成训练。ChatGPT运营着30000多个Nvidia A100 GPU,在2023年1月每天接待1300万独立访客。这些芯片的初始投资成本约为8亿美元,日电费约为5万美元。
算法:在当前智能数据挖掘算法的帮助下,可以通过迭代优化学习范式和网络结构内的参数来独立学习数据中固有的潜在规则。此外,随着大规模预训练模型的发展,人工智能可以结合数据挖掘的信息来生成高质量的内容。大型预训练模型是使用大量文本数据进行预训练的人工智能模型,如BERT、GPT等。大型预训练模式是人工智能生成内容的重要组成部分,其改进和发展有助于不断提高生成内容的质量和准确性。
实际上如图5所示,目前的高性能人工智能算法已经经历了漫长的探索。他们逐渐整合了人类的思维模式,以提高算法的效率。在传统的机器学习算法中,数据是按函数或参数分类的。这些算法模拟了简单的人脑,通过经验积累改进了学习模型。神经网络模型进一步模拟了人类大脑神经的信号处理和思维机制。此外,生成算法,如谷歌的Transformer架构,利用人类的注意力机制,使算法能够完成多个任务。
Goodfellow在2014年提出了第一个生成模型,即GAN。表II显示了生成算法的进化时间表。在大多数情况下,GAN的重要性是许多流行变体和架构的灵感来源。Transformer模型在各个领域(包括NLP和CV)有着广泛的应用。此外,在Transformer模型的基础上开发了一些预训练模型,如BERT、GPT-3和LaMDA。扩散模型由于其优化的性能而成为目前最先进的图像生成模型。
随着生成模型的发展,语言模型也取得了很大的进步。例如,Devlin等人提出了BERT模型来完成各种自然语言理解任务。BERT在理解人类语言的复杂性方面具有革命性的意义。此外,近年来,大规模预训练模型越来越受欢迎,其泛化性能令人印象深刻。大规模的预训练模型可以有效地解决频繁修改参数的挑战。这些模型以上下文相关的方式进行交互,并在聊天和交流时表现出与人类相似的行为,因为它们是通过连接大规模真实语料库来训练的。
How can AI make the content better?
AIGC拥有三大前沿能力:数字孪生、智能编辑和智能创作(图6)。这些功能被嵌套并相互组合,从而赋予AIGC卓越的生成能力。
数字孪生:AIGC可用于将真实世界的内容映射到虚拟世界,例如智能翻译和增强。智能翻译涉及在理解基本含义的基础上,跨不同的模式(如语言、音频和视觉)转换内容。这使得说不同语言的人之间能够进行有效的交流。智能增强包括通过填充缺失信息、增强图像和音频质量以及消除噪声和失真来提高数字化内容的质量和完整性。当处理可能不完整或质量差的旧内容或损坏内容时,它尤其有效。
智能编辑:AIGC通过智能语义理解和属性控制实现虚拟与现实之间的交互。智能语义理解实现了基于理解的数字内容的分离和解耦。属性控件可以在理解的基础上进行精确的修改和属性编辑。生成的内容可以输出到现实世界中,从而形成一个闭环的结果和反馈。
智能创作:AIGC是一个用于描述由AI生成的内容的术语。AIGC可以分为两种类型:基于模仿的创作和概念创作。基于模仿的创建包括从现有示例中学习模式和数据分布特征。它在先前学习的模式的基础上创建新的内容。从海量数据中学习抽象概念,并应用所研究的知识来创建以前不存在的新内容,这就是概念创建所需要的。
AIGC技术已经成为各个行业中越来越流行的生成内容的工具。ChatGPT是AIGC的一个恰当例证。先进的强化学习技术和专业的人类监督使ChatGPT能够获得有效的理解和良好的自然语言处理。事实证明,它在理解上下文方面具有高度的一致性。如图7所示,ChatGPT具有六个关键功能,使其成为自然语言处理中的强大工具。在进行对话方面,ChatGPT可以主动回忆之前的对话,以帮助回答假设的问题。此外,ChatGPT过滤掉敏感信息,并为未回答的查询提供建议,从而提高了其使用性能。ChatGPT由于其先进的功能,是客户服务、语言翻译、内容创建和其他应用程序的理想工具。
The industrial chain of AIGC
AIGC产业链是一个从上游到下游相互连接的生态系统。如图8所示,下游应用在很大程度上依赖于上游生产的基本支持。数据供应商、算法机构和硬件开发机构是上游AIGC的主要组成部分。数据供应商利用网络爬行技术从新闻网站、博客和社交媒体中收集大量文本。然后,这些野生数据必须通过NLP技术进行自动标记或处理。算法机构通常由一群经验丰富的计算机科学家和数学家组成,他们具有深厚的理论背景和实践经验。他们可以开发高效、准确的算法来解决各种复杂的问题。硬件开发机构专注于开发专用芯片、处理器、加速器卡和其他硬件设备,以加快人工智能算法的计算速度和响应能力。
中游行业包括集成上游数据、硬件和算法的大型科技公司。这些公司利用这些资源部署算法,在云计算中设置计算资源并配置相应的参数,如虚拟机、容器、数据库和存储。根据算法的具体财产和要求,通过合理配置,确保算法的最佳性能和效率。然后,对性能优化算法进行封装,生成具有外部接口的工具。它们是连接上下游的桥梁,将数据供应商和算法机构与内容创作平台和最终用户连接起来。这些公司通过个性化营销赚取收入,如广告投放和虚拟品牌建设。此外,中游公司在推进人工智能技术方面也发挥着关键作用。他们投资于大多数研发,不断提高人工智能系统的性能和效率。他们还向上游数据供应商和算法机构提供培训数据和反馈。中游公司为整个AIGC产业链的持续改进做出了贡献。
下游细分市场主要由各种内容创作平台组成。它降低了用户创建内容的学习成本。用户可以在中游工具的帮助下高效地完成任务。例如,新闻媒体和金融机构可以使用文本生成工具快速生成报告。由于他们是这些技术产生的价值的主要接受者,下游用户在促进人工智能技术的采用和商业化方面至关重要。通过利用人工智能工具及其服务,下游用户可以提高生产力,增强决策能力,并为各自行业的增长和创新创造新的机会。
Advantages of large-scale pre-trained models
大规模人工智能模型是人工智能向通用智能发展的一个重要里程碑。大规模模型的使用清楚地表明了AIGC的泛化能力更强。尽管通用数据的激增和可靠数据的缺乏带来了挑战,但深度学习完全依赖于模型自动从数据中学习,从而显著提高了性能。大规模模型具有大规模和预训练的特点,在为实际任务建模之前,需要对大量广义数据进行预训练。这些模型被称为大规模预训练模型。事实上,人工智能的大规模模型可以被视为对人类大脑的模拟,这是人工智能灵感的来源。事实上,人脑是一个具有基本认知能力的大规模模型。人类大脑可以有效地处理来自不同感官的信息,并同时执行不同的认知任务。因此,人工智能大规模模型不仅有望有众多参与者,而且能够有效地理解多模态信息,跨模态感知,并同时在不同任务之间迁移或执行。人工智能大规模模型在理解人类思维方面的准确性提高归功于基于人类反馈数据的系统用于模型训练。
如图9所示,开发大规模预训练模型的过程可以分为三个主要步骤。第一步是收集解释性数据,以训练有监督的学习策略。第二步包括收集比较数据来训练奖励模型,这使模型能够做出更准确的预测。最后一步是收集解释数据,使用增强学习技术优化模型。这将提高模型的性能和效率。
因此,使用大规模预训练模型可以提高人工智能的性能和泛化能力。具体而言,大规模预训练的模型对人工智能和AIGC具有以下优势:
更好的泛化能力:通过对大规模数据进行预训练,该模型可以学习更多的特征和模式,提高其泛化能力,使其能够适应不同的任务和场景;
节省训练成本:预训练模型的训练成本相对较低,因为数据收集和标记工作只需要执行一次。经过预训练的模型可以用于多个任务;
提高训练效率:经过预训练的模型以微调的方式进行微调。因此,训练可以更快地完成,并且在较小的数据集上获得更好的结果;
支持多项任务:预先训练的模型可以用于多种任务,如自然语言处理、计算机视觉和语音识别。由于训练的微调,这些任务大大提高了模型的适用性;
持续优化:通过不断添加新的数据和任务,可以不断优化预先训练的模型,以扩展模型的能力,使其更加智能和适应性。
Generation of smart text
如前所述,如果您要求特定的需求和兴趣,AIGC技术无法制作原创内容。尽管如此,他们仍然可以作为写作助手在内容创作过程中发挥有用的作用。我们认为人工智能辅助写作和人工智能生成写作之间有着显著的区别。
人工智能辅助写作(AIAW):AIAW的目标是为人类写作提供帮助,从而提高用户写作体验的连贯性。这种写作工具可以显著提高特定领域的写作效率,例如法律文件。事实上,辅助写作可以在写作的不同阶段提供帮助,比如确定主题、写作内容和发表文章。在写作之前,应该先确定主题。该算法可以通过分析当前主题来推荐合适的文本材料。这样可以节省搜索和排序时间。在写作过程中,该算法可以提供写作灵感帮助。通过学习大量类似的文章,人工智能模型从统计概率的角度推断出未完成句子的后续部分。AIGC可以通过从语料库中收集拼写错误和不正确的单词组合,为撰写文章提供实时错误检测和更正建议。然后,该算法提供对修改的评论,以帮助作者改进他们的写作结果。在出版之前,AIGC将添加关于写作内容的适当标题和标签。
人工智能生成的写作(AIGW):AIGW技术使机器能够独立撰写文章。目前,计算机能够自动生成新闻警报、热门新闻稿和诗歌文章。智能书写算法可以描述结构化数据中包含的主要信息。由于机器处理的速度远快于人类,AIGC在生成时间敏感新闻方面效果更好。对于热门草稿写作,AIGC在挖掘相关信息方面很有用。AIGC可以根据大量材料选择合适的内容,并通过内容分析提取相关信息,最终根据写作逻辑组织结果。此外,AIGC产生了符合特定格式要求的创造性结果,包括智能诗歌写作和智能对联。由于模型的输出无法提前预测,AIGC具有与人类写作相似的创造力。例如,如果我们想使用AIGC来写古诗,我们应该输入足够的诗歌训练数据来训练模型。
AIAW与AIGW:AIAW和AIGW之间的主要区别如图10所示。人类在写作领域具有不可替代的优势。深度学习模型可以很容易地创建高质量的文本,但它们不能取代人类在写作实践中的主观作用。人工智能在数据收集方面优于人类,但它无法真正创造出创新、富有同情心和幽默的文本。此外,人类作家具有深刻的分析能力。优秀的作家不仅有文学天赋,而且知道如何有效地用文字表达自己的想法。人类作家可以有目的地将复杂的主题分解成易于理解的语言,并为读者提供有价值的信息。因此,由于人工智能工具是内容创作中的宝贵资源,因此平衡使用、人类创造力和写作表达是很重要的。人和机器之间的合理分工对于实现最佳结果至关重要。未来,人工智能应该专注于数据收集,而人类应该负责写作的创造性过程。
Pros of AIGC
如表III所示,AIGC有一些优点。AI生成的内容由于其强大的能力而越来越受欢迎。AIGC效率高、成本效益高,甚至可以腾出人力资源用于其他任务。在本节中,我们将讨论AIGC的一些主要好处。
效率和可扩展性:与传统的人类写作相比,AIGC可以提供许多好处,包括速度和语言本地化。AIGC制作可以在几分钟内制作出一篇文章,而人类作家需要更长的时间才能完成。这一优势使人工智能工具能够在短时间内制作出大量内容。此外,AIGC可以根据将内容翻译成通用语言来进行语言本地化,这将针对特定的地理区域进行定制。AIGC的另一个优势是其个性化的社交媒体创作能力。它对各种网站都很有用。通过分析用户的在线数据,人工智能可以为不同的用户创建个性化的内容。
帮助科学研究:AIGC可以通过多种方式对科学研究产生重大影响。首先,人工智能可以通过机器学习算法帮助分析大型数据集,以识别人类研究人员可能不容易看到的模式和相关性。其次,人工智能可以分析现有的科学文献,并产生可以在进一步研究中测试的假设,这有助于确定新的研究途径。此外,科学家可以利用人工智能在特定领域的学习能力来进行一些有益于人类的研究。例如,人工智能可以通过预测分子和蛋白质之间的相互作用来帮助开发新药和治疗方法。总的来说,使用人工智能生成的内容可以带来更准确、更高效的研究结果,在这个过程中节省时间和资源。
用于搜索引擎优化:人工智能通过多种方式改进搜索引擎优化(SEO)。由于能够提供数据驱动的见解和自动化人工智能的工作流程,网站所有者能够专注于创建高质量的内容和提供更好的服务。例如,人工智能工具可以分析搜索查询并向用户建议相关关键词。这些工具通过识别关键词使识别模式和趋势变得更加容易。人工智能工具优化内容的长度、结构和可读性,并建议相关关键词,使网站更适合SEO。
克服作家的障碍:人工智能可能是作家根据灵感、帮助和打磨来解决作家障碍的有用工具。例如,人工智能工具根据输入关键词或主题生成建议。这些工具分析搜索数据、趋势主题和流行查询,以创建新鲜内容。此外,AIGC还协助撰写关于特定主题的文章和发布博客。虽然这些工具可能无法自己制作高质量的内容,但它们可以为作家提供一个起点,让他们在写作障碍中挣扎。
Cons of AIGC
公众的主要担忧之一是AIGC可能缺乏创造力和人性化。此外,AIGC有时对语言和上下文缺乏细致入微的理解,这可能会导致不准确和误解。也有人担心使用AIGC的道德和合法性,特别是当它导致侵犯版权和数据隐私等问题时。本节将讨论AIGC的一些缺点(表IV)。
道德和信任:人工智能依赖数据和算法来生成内容,这可能导致缺乏预期的语气和个性[66]。虽然人工智能工具可以有效地覆盖主题的黑白区域,但它们可能会在更主观的灰色区域中挣扎。此外,由于人工智能工具通常从同一来源提取信息并重新编写,抄袭事件也会频繁发生。为了确保内容权威和信息丰富,需要适当的人工审查和策划,尤其是如果信息是从不同来源提取的。可以通过添加人情味来精心制作内容,以保持预期的基调、流程和上下文,从而改善用户体验。
加剧社会失衡:AIGC有可能加剧社会失衡。因此,那些能够获得并负担得起先进人工智能工具和技术的人可能比那些没有或负担不起的人拥有不公平的优势。有些人可以使用人工智能工具以多种速度完成原始任务,而那些不使用人工智能的人可能需要花费大量时间思考和创建内容。这可能会导致一小群人主导内容的生产,造成权力和影响力的集中,从而加剧现有的不平等。
对教育的负面影响:单纯依靠人工智能生成的内容进行教育有一些潜在的负面影响。例如,AIGC可能缺乏有效学习所需的人性化和个性化。AIGC的使用会造成对技术的依赖,并阻碍批判性思维和解决问题的技能。学生可能过于依赖人工智能生成的内容提供的信息,无法发展自己的分析技能。此外,如果用于训练人工智能算法的基础数据存在偏见或缺陷,AIGC可能会将基本知识转移给用户。它可能会导致学生形成一个永久错误的知识体系。
同情心不足:虽然人工智能生成的内容可能高效且具有成本效益,但它可能缺乏人类能够为其创作带来的创造力、情感和细微差别。在人工智能工具的工作中,它只是通过分析大量数据和模式,根据参数和目标生成内容,但它无法真正理解内容的潜在含义或上下文。例如,与作曲家和表演者创作的音乐相比,人工智能创作的音乐可能缺乏情感深度和真实性。
人类参与:虽然AIGC在大多数情况下肯定可以节省时间和精力,但重要的是要注意,人类的参与对于确保内容的质量和准确性仍然至关重要。人工智能工具能够聚合来自多个来源的信息,但它们可能缺乏对人类所拥有的语言的细微理解。正因为如此,输出可能会出现错误和不一致,需要由一个人来修复。例如,AIGC产品描述可能会混淆纹理和颜色,因为该工具对形容词含义的理解有限。
缺少创造力:人工智能工具严重依赖现有数据来生成内容,这可能会限制它们创造新鲜和原创想法的能力。虽然他们有助于简化内容创建和产生想法,但他们没有能力自己产生全新的概念。这意味着AIGC可能并不总是具有创新性或紧跟最新趋势。换句话说,这可能会导致创造力的缺失。他们可能能够分析丰富的数据,以了解哪些类型的内容受欢迎或吸引人,但他们可能无法完全理解特定受众的细微差别,也无法创作出真正能引起他们共鸣的内容。
AIGC and Metaverse
Metaverse构建了一个持久的多用户环境,将物理现实与数字虚拟相结合。这是一个多用户虚拟空间,允许多个用户表达他们的个人创造力。人们在虚拟环境中通过数字对象与他人交流和互动。在我们看来,AIGC可以完善元宇宙的个性化服务,使其更加生动和重要。
AIGC实现了高效的内容创建,满足了日益增长的交互需求,并改善了个性化体验。它可以模拟虚拟人脑为元宇宙生成内容,包括智能NPC、自动QA、对话系统和数字人。Metaverse专注于尖端技术和用户的交互数据积累,可以进一步提高AIGC的智能和内容创作能力。通过推出标准化和低代码开发工具,AIGC使小型和中型工作室以及个人开发人员能够在Metaverse中制作更丰富的交互式内容。
在元宇宙中,庞大的数据量是保持执行平稳的基础。在AIGC技术的帮助下,人工智能取代了人类,以解决元宇宙在海量数据方面的需求。基于AIGC技术的合成数据在互联网领域取得了重大发展。AIGC数据在Metaverse中创建各种场景时尤其有用。例如,考虑到一个在线建造学校的例子,需要大量的环境数据来确保高度模拟的场景。这样的工作量是一个繁琐而昂贵的过程,涉及大量的劳动力成本和资源利用。然而,AIGC可以帮助生成所需的环境数据,从而节省大量时间和金钱。通过利用这一过程,AIGC有助于Metaverse数据生成,从而促进相关技术的发展。
挑战
数据
数据是保证训练算法准确性的关键之一。为了使输出结果更有效,训练数据集应确保数据质量和公平性。如果数据中包含信息的偏差和不准确,可能会导致有偏见和不准确的回应,尤其是在种族、性别和政治等敏感话题方面。为了解决这个问题,可以在训练中使用合成数据。过去,使用真实世界的数据来训练人工智能模型会带来各种问题,例如数据收集和标记成本高、难以确保数据质量和多样性,以及保护隐私方面的挑战。合成数据可以在训练、测试和验证人工智能模型中作为现实世界数据的经济高效的替代品,从而有效地解决这些问题。使用合成数据不仅可以提高人工智能模型的训练效率,还可以使人工智能模型在由合成数据构建的虚拟模拟世界中自我学习和进化。
在进行数据培训时,遵守法律和道德标准是很重要的。如果通过网络抓取收集的数据被用于大规模的模型训练,那么确保数据不违反版权或其他法律法规是很重要的。如果它只使用公共数据集,通常不需要获得版权所有者的同意,因为这些数据已经被视为公共领域的一部分。但是,如果使用受版权保护的数据,则有必要获得版权所有人的许可或根据当地法律规定提供适当的赔偿。
硬件
大规模预训练模型的硬件问题主要困扰两个方面:计算能力不足和能耗高。计算能力不足的问题是由于模型变得越来越复杂。参数数量和计算复杂度呈指数级增长,但硬件性能却跟不上。在实践中,需要GPU和TPU等高性能计算设备来进行大规模预训练模型的训练和推理。然而,即使有了这些专用芯片,也很难满足超大规模模型的训练和推理需求。在2020年发表的论文[23]中,OpenAI的研究人员报告称,他们的语言模型GPT-3有1750亿个参数,在一台拥有2048个CPU和2048个GPU的超级计算机上进行预训练需要320万个核心小时。GPT-3的推断需要2048个CPU和2048个GPU的集群,运行该模型一天的成本估计约为4000美元。
高能耗问题主要源于训练和推理。首先,在训练阶段,需要大量的计算资源来完成模型的训练。这涉及到许多矩阵运算和神经网络反向传播。其次,对于推理阶段,由于大规模预训练模型中参数数量大、计算过程复杂,推理阶段的能耗也很高。优化计算过程和算法是解决上述问题的可行方法。利用高效的计算设备和技术(例如,混合精度计算和分布式训练)也是另一种实用的方法。
算法
大型预训练语言模型最显著的优势之一是它们能够执行信息检索任务。过去,信息检索任务是使用先搜索后读取的方法完成的。从外部语料库中回顾几个相关的上下文文档是第一步。然后,从这些文件中预测出答案。由于强大的记忆和推理能力,大型语言模型显著改进了传统步骤。尽管大型语言模型在信息检索任务中取得了重大进展,但仍有一些局限性需要解决。首先,词汇的缺乏会影响检索的准确性和完整性。由于这些模型可能只理解训练数据中的词汇,因此专业术语或新词汇可能无法准确理解。其次,上下文限制会导致模型错过一些隐含的含义,甚至导致一些逻辑关系失败。为了增强大型语言模型的信息检索能力,有必要探索更好的语言表示方法。
为了更好地满足用户需求和处理复杂的任务,模型应该不断地自我改进和优化。用户反馈的使用是优化算法的重要组成部分。经过预训练的大型模型可以通过让用户参与反馈循环并使用此反馈来优化模型来收集用户响应。该过程通常包括向用户呈现模型的预测结果并请求反馈。反馈可以是直接的。例如,用户可以选择一个选项来指示预测结果是否正确。反馈也可以是自由形式的。例如,用户可以编写文本来描述他们对预测结果的看法。一旦收集到足够的反馈数据,模型就可以分析该反馈以确定如何调整模型。该过程通常使用自然语言处理技术和机器学习算法来自动分析和总结用户反馈,并将其转换为可用于优化模型的数据。
当涉及到使用人工智能生成内容的算法时,它们很可能容易受到恶意攻击。这些攻击可以采取多种形式,例如生成虚假数据或篡改生成的内容。攻击者可以操纵模型的输入和输出来欺骗它并生成误导性内容,这可能会影响模型的结果和性能。这可能导致严重后果,如误导性信息的传播、社会工程攻击和伪造证据等。为了应对这些攻击,它必须提高模型的鲁棒性和安全性,采用对抗性训练技术和加密技术,并提高用户的安全意识和警惕性。
隐私保护问题
在训练大型预训练模型时,一个不可避免的问题是如何正确使用姓名、电话号码和地址等敏感的个人身份信息。在预训练期间,这些敏感信息可能会反映模型的权重和参数,这些权重和参数可能会泄露给攻击者或未经授权的第三方。此外,这些大型预训练模型也可以用作文本分类、情绪分析和图像识别任务的基础模型,这进一步增加了隐私泄露的风险。
此外,分布式计算技术通常用于将数据分布在多个计算节点上,以缓解操作压力。在此过程中,如果不采取适当的安全措施,如数据加密、访问控制和数据去标识,攻击者可能会通过监控网络流量和攻击计算节点来获取数据[87]。因此,需要采取一系列隐私保护措施来保护大型预训练模型中包含的敏感数据,包括但不限于数据去标识、模型安全、限制数据访问和问责。同时,在使用这些模型时,应采取相应的安全措施,如数据加密、访问控制和数据去标识,以最大限度地保护隐私。
通用AIGC的NLP
随着大型语言模型能力的不断提高[89],自然语言处理(NLP)面临着许多挑战(图11)。在这个时代,我们需要新一代的语言模型来进一步增强模型的生成能力,进而提高其描述能力和可计算性。此外,深入理解自然语言(NLU)还需要采用连接主义和符号化的方法来解决各种自然语言处理任务。在此基础上,我们需要确保NLP模型输出结果的可信度,同时还要考虑安全、价值观、伦理、政治、隐私和道德等问题。
为了实现这些目标,开发具有复杂推理能力和可解释性的NLP模型至关重要。解决与知识建模、获取和利用相关的问题可以提高这些模型的表现力和效率。还应考虑具有增量学习、持续学习和人在环能力的NLP模型,以及创建较小的模型、模型编辑、领域自适应、特定领域模型和针对特定应用和任务定制的模型。此外,至关重要的是要优先考虑人类的良好学习和协调,以确保NLP技术与物理、人类系统和智能信息社会的协调。通过关注这些方面,我们可以在推进NLP领域并确保其惠及整个社会方面取得重大进展。在大型语言模型时代,上下文学习(ICL),[92]的应用已经成为自然语言处理的一种新范式。通过将ICL合并到大型语言模型中,这些模型可以更好地理解上下文,并产生更准确和相关的结果。因此,考虑使用ICL来提高NLP模型的性能是至关重要的。
人类对AIGC的态度
AIGC和人工生成内容之间有区别,如图12所示。人类生成的内容是人类智慧、经验、创造力和直觉思维的产物。从另一个方面来看,AIGC利用人工智能技术训练模型学习和模拟幽默数据,分析问题,并表现得像人类。
AIGC的哪些方面需要立法监管?第一个问题是创建内容的所有权。目前,AIGC已在数字化程度高、内容需求丰富的媒体、电子商务、影视、娱乐等行业率先取得显著发展,市场潜力正在逐步显现。使用AIGC自动生成视频、音乐,甚至电脑游戏以获取利润。收入属于谁?是用户还是人工智能?各国政府需要澄清基于人工智能GC技术开发和应用的人工智能GC知识产权和数据权的保护规则。由于AIGC的商业应用将迅速成熟,市场规模将迅速增长,第二个方面是追求利润会导致人们散布谣言,使伪造比以前更容易。这促使各国政府制定适当的政策(包括积极和消极的要求)。政策应监督程序员采取控制和安全措施,以确保AIGC应用程序的安全可控。更重要的是,需要采用内容识别、内容可追溯性和其他技术来确保AIGC的可靠来源。
AIGC的活动范围是什么?人工智能系统相对于其他软件系统的主要优势在于其卓越的效率。人工智能产品已经证明了执行人类无法完成的任务的能力,例如在一小时内创建数百个独特的图像,或在一个早晨生成数十亿个单词。然而,这些能力也引起了许多人的担忧。众所周知,技术是一把双刃剑,它要么能改善人类生活,要么会产生有害后果。因此,在设计人工智能产品时,不仅要制定法律,还要考虑用户的道德。由于使用AIGC产品,已经发生了几起不道德的事件,包括作弊、抄袭和歧视。因此,有必要促进人工智能的道德发展。行业组织可以通过为值得信赖的人工智能GC制定道德准则来帮助这一努力。此外,开发AIGC应用程序的程序员应该遵循“设计伦理”范式。最后,道德委员会必须建立一个全面和普遍的道德审查制度。
人类和人工智能之间的关系是什么?我们非常习惯于在我们周围的世界中看到自己。当我们忙于通过将人类特征分配给非人类特征来看待自己时,我们有被蒙蔽的风险。俗话说,“一枚硬币有两面”。ChatGPT让一些人失去了稳定的工作,并让他们害怕失去工作。同时,它让人工智能员工看到了人工智能的曙光。由于人工智能生成的图片出人意料地击败了其他参赛者,一些评论家认为人工智能GC会降低人类的创造力。到目前为止,一直存在一种权衡:你接受人工智能产品的缺点,以获得它们带来的好处。AIGC强大的功能可能会让员工变得懒惰,安于现状。此外,这将抑制行业新生的热情。然而,我们倾向于将不同的AIGC应用程序视为强大的助手。人工智能驱动的数据驱动技术的发展将为大多数人带来更多机会。汽车行业的蓬勃发展创造了数千个新的就业机会,这远远超过了养马的数量。如果我们建立一个全面的人工智能全球治理体系,人工智能将成为人类的强大盟友。
受信任的AIGC
大型语言模型可以为各种复杂的问题提供详细和信息丰富的回答。然而,调查表明,由于某些原因,这些模型可能会产生不准确和有偏见的答案。例如,可能会收集质量较差的数据,因此模型可能无法区分信息源的可信度,甚至无法为不可靠的信息源分配更高的权重。此外,也可能因为训练而出现错误。该模型无法确定生成的答案是否符合道德标准。不幸的是,目前的算法无法有效解决上述问题。人类检查最终答案仍然是必不可少的。
最近,ChatGPT被用于总结发表在《美国医学会杂志精神病学》上的认知行为疗法(CBT)对焦虑相关疾病的有效性的系统综述。然而,ChatGPT提供了一些包含事实错误、虚假陈述和虚假数据的回复。例如,ChatGPT错误地表示,该审查基于46项研究,而该审查基于69项。此外,它夸大了CBT的有效性,这可能会产生严重后果,如误导学术研究和影响医学诊断和治疗。此外,如果ChatGPT产生不道德的反应,它可能会影响人们的价值观,并对社会产生重大负面影响,例如当违法者向ChatGPT询问有关报复和恐怖袭击的问题时,会危及社会安全。因此,过滤掉有害的响应对于改进算法/模型至关重要。
在未来,提高大型语言模型的透明度是很重要的。目前,这些算法所使用的训练集和大型语言模型尚未公开。科技公司可能会隐瞒其对话式人工智能的内部运作,并得出与现实相矛盾的答案。这些做法与开放科学透明度的趋势背道而驰。为了解决这些问题,我们建议科学研究机构,包括科学资助组织、大学、非政府组织、政府研究机构、联合国和科技公司,应该合作开发先进、开源、透明和民主控制的算法模型。通过这样做,我们可以确保这些模型是值得信赖、可靠的,并对公众负责,同时也促进了人工智能领域的公开和透明。
任何人都可以免费使用开源大型模型的源代码,这意味着组织需要对代码负责,因为这些模型的用户可能会将其用于各种目的,包括商业或恶意目的。作为贡献者或维护者,他们应该确保代码是稳定、可靠和安全的,以防止不当使用造成任何负面影响。为了确保对代码负责,组织应该添加一个适当的许可证,明确允许或禁止某些用例。他们还应与社区保持密切联系,了解代码的使用情况,并及时解决任何潜在问题。最后,他们应该时刻警惕潜在的虐待和恶意行为,并采取措施加以预防。
潜在的方向
随着硬件和算法的快速发展,AIGC的未来有望有更多实质性的应用。本文认为,AIGC最有前景的方向包括跨模态生成、搜索引擎优化、媒体制作、电子商务、电影制作和其他领域,如图13所示。
跨模态生成技术
现实世界中存在的信息是一个复杂的系统,包括文本、音频、视觉、传感器和人类触觉。为了准确地模拟真实世界,有必要利用跨模态生成功能。大规模预训练模型的发展使跨模态生成得以成熟。文本到图像和文本到视频是跨模态生成的经典例子,包括基于语言生成视觉内容。文本到图像,就像OpenAI的DALL-E一样,可以基于文本描述创建创造性的图像,并显著提高生成复杂绘画的效率。以前,专业画家必须积累多年的材料才能构建复杂的绘画,但现在人工智能绘画可以在短时间内生成无数复杂的绘画。文本到视频也产生了令人满意的实验结果。现有的文本到视频产品,如Lumen5和CogView2,允许用户输入图像和文本信息,如文章、搜索查询或PPT,以生成视频。然而,在视频持续时间、清晰度和逻辑方面仍有改进的空间。
在跨模态生成的未来应用中,有几个问题需要解决。首先,存在可用性问题,用户需要输入长文本描述才能获得高质量的内容。这很耗时。其次,存在可控性问题。尽管文本到图像可以快速生成精致的图像,但它可能无法生成符合特定用户要求的图像。当模型过度拟合时,图像结果可能无法满足预期。例如,在输入样式描述之后,模型可能产生与期望不对应的图像,因为样式模型过度拟合特定场景。
搜索引擎
搜索引擎非常适合查找网站,但它们往往不足以解决更复杂的问题或任务。每天,世界上大约有100亿个搜索查询,但其中可能有一半没有得到准确的答案[102]。现在,结合AIGC技术,这个问题似乎可以改变。在OpenAI技术的支持下,微软更新了Bing搜索引擎和Edge浏览器。新版Bing和Edge将搜索、浏览和聊天整合到一个统一的体验中。搜索引擎可以提供更好的搜索服务、更完整的答案、聊天体验和生成内容的能力。通过与OpenAI的合作,微软在其搜索引擎中添加了先进的人工智能对话模型。用户可以直接与AI聊天机器人进行交流,并在ChatGPT等聊天界面中提问。ChatGPT模型可以提供快速、准确和强大的搜索功能,以便为基本搜索查询获得最准确和最相关的答案。此外,微软还与OpenAI合作,针对有害内容实施特殊保护措施。微软团队正在根据自己的原则努力防止有害或歧视性内容的传播。
媒体
AIGC是媒体行业的游戏规则改变者。它彻底改变了新闻制作的各个方面,从新闻收集到稿件撰写、视频编辑和新闻广播。图14说明了AIGC对媒体行业的影响。通过利用AIGC,媒体组织可以提高内容生成的效率和质量,并在发布后扩大影响力。例如,在新闻收集中,AIGC可以自动对语音数据进行排序和记录,从而确保新闻发布的及时性。在稿件写作中,AIGC算法与结构化文本写作和新闻稿相结合,可以加快内容生成过程,同时实现实时纠错以提高准确性。在视频编辑中,AIGC可以执行自动编辑、字母配置和视频属性修复。例如,自动编辑可以通过从材料中快速生成视频来显著减少体力劳动。通过利用跨模态生成技术,AIGC还可以生成与视频同步的字幕。此外,AIGC的视频增强工具可以提高视频清晰度。此外,AIGC可以在新闻广播期间使用新闻文本合成广播视频,这比手动生成更高效、更准确的结果。
电子商务
电子商务是智能文本生成的另一个成熟应用领域。目前,京东、淘宝等电子商务网站上的大多数产品标题和描述都是由算法自动生成的。此外,电子商务网站通常实现智能客户服务系统,以解决用户关于购物、售后协助和其他通信必需品的询问。智能客户服务系统必须能够准确理解用户的意图,并利用文本生成技术来生成适当的响应。此外,某些电子商务网站利用对话摘要技术将客户服务和用户之间的交流浓缩为简洁的摘要。最后,为了推广他们的商品和服务,许多公司使用智能文本生成技术为他们的产品生成广告和营销副本,然后在各种多媒体平台上传播,以吸引用户的注意力并提高销售额。可以看出,智能文本生成技术已经应用到电子商务的各个方面,使用该技术可以降低人工成本。
电影
AIGC和电影的结合具有巨大的潜力,可以用新的创意激励导演。通过协助编剧、替换原始角色和场景以及简化后期编辑,AIGC可以帮助克服身体限制,提高电影质量。例如,人工智能技术可以分析大量的剧本数据,生成符合预定风格的剧本,这可以激发导演的创造力。在审查和完善人工智能生成的剧本后,导演可以显著减少剧本创作所需的时间,并提高整体生产力。在视频捕捉过程中,人工智能技术允许灵活地替换角色和背景,甚至可以创建能够进行复杂动作的数字化身。人工智能还可以创建虚拟场景,描绘无法实时捕捉的场景。它为观众提供了更身临其境的观看体验。在后期制作编辑中,人工智能可以用于修复电影图像和提高画质,以及快速生成宣传电影预告片。
在其他领域的应用
随着大数据仍处于蓬勃发展阶段,人工智能驱动的数据驱动技术的发展将在未来带来更多机会。在我们看来,AIGC在上述领域之外有着广泛的应用。例如,在教育中,人工智能技术可以将抽象的教科书转换为具体的可视化,使学生更容易学习。在金融领域,人工智能可以自动制作金融信息视频,并创建虚拟数字客户服务,以提高运营效率。在医疗保健领域,人工智能可以帮助患者康复,并增强医学成像以帮助医生诊断疾病。此外,语音合成技术可以为失语症患者生成语音音频,使他们能够有效沟通。在工业中,AIGC可以快速将数字几何转换为基于物理环境的实时3D模型,数字工厂可以分析工艺流程以减少设计时间。总而言之,仍然有太多的应用程序无法一一列出,需要进一步探索。
结论
近年来,在大量高质量数据和高性能硬件的支持下,许多用于大型模型的算法得到了快速发展。这些算法不仅能够理解文本,而且能够帮助或自动生成丰富的内容。ChatGPT等应用实例展示了AIGC技术的商业价值和应用性能,在短时间内引起了众多一线公司的广泛关注和投资。本文简要介绍了AIGC技术,并介绍了其独特的特点。此外,我们对AIGC能力的优势和劣势进行了比较分析。然而,AIGC的发展仍然面临着许多挑战和机遇。我们还提供了对AIGC挑战和未来方向的见解。总之,我们希望这篇综述将为学术界、工业界和商业界的发展提供有用的思路,并为AIGC领域的进一步探索提供有价值的思考方向和见解。
参考
[1] AI-Generated Content (AIGC): A Survey
视频课程来了!
自动驾驶之心为大家汇集了毫米波雷达视觉融合、高精地图、BEV感知、传感器标定、传感器部署、自动驾驶协同感知、语义分割、自动驾驶仿真、L4感知、决策规划、轨迹预测等多个方向学习视频,欢迎大家自取(扫码进入学习)
(扫码学习最新视频)
国内首个自动驾驶学习社区
近1000人的交流社区,和20+自动驾驶技术栈学习路线,想要了解更多自动驾驶感知(分类、检测、分割、关键点、车道线、3D目标检测、Occpuancy、多传感器融合、目标跟踪、光流估计、轨迹预测)、自动驾驶定位建图(SLAM、高精地图)、自动驾驶规划控制、领域技术方案、AI模型部署落地实战、行业动态、岗位发布,欢迎扫描下方二维码,加入自动驾驶之心知识星球,这是一个真正有干货的地方,与领域大佬交流入门、学习、工作、跳槽上的各类难题,日常分享论文+代码+视频,期待交流!
【自动驾驶之心】全栈技术交流群
自动驾驶之心是首个自动驾驶开发者社区,聚焦目标检测、语义分割、全景分割、实例分割、关键点检测、车道线、目标跟踪、3D目标检测、BEV感知、多传感器融合、SLAM、光流估计、深度估计、轨迹预测、高精地图、NeRF、规划控制、模型部署落地、自动驾驶仿真测试、产品经理、硬件配置、AI求职交流等方向;
添加汽车人助理微信邀请入群
备注:学校/公司+方向+昵称