人工智能生成内容(AIGC)
人工智能生成内容(Artificial Intelligence Generated Content, AIGC), AIGC 是指使用生成式 AI (Generative Artificial Intelligence, GAI) 技术生成的内容,而不是由人类创作者创作的内容。
近期非常流行的AIGC产品包括ChatGPT、StyleGAN、DALL·E·2、Midjourney等,覆盖了单模态(文本、图像)与多模态(文本-图像)内容生成:
发展历史
AIGC发展历史悠久,最早出现的AIGC可以追溯到 1950 年代基于马尔可夫链作曲的Iliac Suite[1]:
近年来,AIGC取得了快速的发展,可以归功于基于深度学习的生成式AI技术的发展和丰富的(多模态)训练数据的出现。俞士纶教授团队近期的一篇关于AIGC的综述论文[2]中总结了2014年以来单模态与多模态(图像-文本多模态)领域生成式AI技术的发展历史:
可以看到,自然语言处理领域,生成式AI技术围绕语言建模,从最初的由N-Gram研究的神经语言模型,到基于循环神经网络(LSTM、GRU等)的语言模型,再到基于Transformer的各种语言模型(ELMo、GPT、BART、T5等),模型规模不断扩大,已然超过了计算机视觉领域。计算机视觉领域,生成式AI技术则最早见于大名鼎鼎的GAN、VAE、Flow-based的图像生成技术,而后又逐渐发展了StyleGAN、VQVAE等模型,提升了图像生成效果,直到这两年扩散模型与Vision Transformer(ViT)大军突起,也为图像生成注入了活力。而多模态图像文本生成式AI技术也最近这几年得到了足够的重视,借助于两种模态数据的融合,可以生成更为真实的图像/文本,这也将是未来AIGC的重要发展方向。
AIGC带来的机遇
AIGC已经为各行各业带来机遇,以下谨举几个例子:
- 科学研究:图扩散模型用于分子、蛋白质和材料等领域[3]
- 医疗健康[4]
1)生成和共享计算得出的、保护隐私的合成临床健康数据;
2)语音生成,帮助聋哑人群“开口说话”
- 艺术
1)腾讯公司利用360度沉浸式展示技术、智能音视频技术、人工智能等技术手段,对敦煌古壁画进行数字化分析与修复[5]
2)39 岁游戏设计师 Jason Allen 凭借这幅《太空歌剧院》 AI 画作获得在美国科罗拉多州举办的艺术博览会数字艺术类冠军,该画作由文本到图像生成模型 Midjourney 生成[6]。
- 商业与办公
1)微软逐步推出365 Copilot与Windows Copilot
2)阿里巴巴宣布未来其旗下所有产品将全面接入大模型
AIGC带来的挑战
- 隐私问题:
生成模型在学习过程中对用户数据进行学习,一些研究指出,生成数据中泄露的隐私信息可以通过一些对抗性攻击被发现。
有研究指出,Stable Diffusion 能够再现训练数据,通过拼凑它记忆的前景和背景对象来创建图像[7]。
- 安全问题:
生成模型的真实性以及生成内容的毒性和有用性是难以完全控制的,使得规范化AIGC仍有很长的路要走。
2023年4月11日,国家互联网信息办公室(简称“网信办”)发布通知,就《生成式人工智能服务管理办法(征求意见稿)》(简称“《意见征求稿》”)向社会公开征求意见。
- 版权问题:
AIGC的版权归属在法律层面上定义仍不清晰,国际上对此问题尚未达成较为一致的意见。
AIGC的未来方向
-
多模态:多模态是AIGC比较明确的发展方向之一。 目前文本图像生成比较成熟,未来可能会融合更多模态数据,构建更强大的AIGC模型。
-
专业化:虽然AIGC基础模型是在大量通用数据上进行预训练以获得丰富的知识,但在面向专业化应用(如医疗健康)时,仍然需要收集相当规模的专用数据用于任务型 微调。 如何做到专业化,同时尽量减少对专业化数据的需求,是AIGC另一个可能的方向。
- 集成化:通用人工智能是通过集成感知能力、控制能力和更完备的知识库来实现的。
下图给出了一种利用ChatGPT和其他多种AIGC工具实现通用人工智能的可能路径[8]:
- 标准化/规范化:需要完善AI输出控制的标准化机制,完善与AIGC相关的法律法规(如用户隐私保护、产品版权等),促进AIGC与人类社会的和谐发展,以及 防止滥用 AIGC 技术,最终实现负责任的AIGC[9]。
[1] https://en.wikipedia.org/wiki/Illiac_Suite
[2] Y. Cao et al., “A comprehensive survey of AI-generated content (AIGC): a history of generative AI from GAN to ChatGPT.” arXiv, Mar. 07, 2023. doi: 10.48550/arXiv.2303.04226.
[3] M. Zhang et al., “A Survey on Graph Diffusion Models: Generative AI in Science for Molecule, Protein and Material,” 2023.
[4] B. Zhou, G. Yang, Z. Shi, and S. Ma, “Natural language processing for smart healthcare,” IEEE Rev. Biomed. Eng., pp. 1–17, 2022, doi: 10.1109/RBME.2022.3210270.
[5] 腾讯研究院, AIGC发展趋势报告
[6] https://www.nytimes.com/2022/09/02/technology/ai-artificial-intelligence-artists.html
[7] G. Somepalli, V. Singla, M. Goldblum, J. Geiping, and T. Goldstein, “Diffusion Art or Digital Forgery? Investigating Data Replication in Diffusion Models.” arXiv, Dec. 12, 2022. doi: 10.48550/arXiv.2212.03860.
[8] C. Zhang et al., “One Small Step for Generative AI, One Giant Leap for AGI: A Complete Survey on ChatGPT in AIGC Era.” arXiv, Apr. 04, 2023. Accessed: May 27, 2023. [Online]. Available: http://arxiv.org/abs/2304.06488
[9] https://towardsdatascience.com/a-pathway-towards-responsible-ai-generated-content-6c915e8155f9