在 CSDN 与《新程序员》合作举办的「新程序员大会(NPCon)——AIGC 与大模型技术应用论坛」上,来自网易伏羲实验室资深研究院 NLP 研究组及多模态算法负责人带来了《文本及多模态预训练技术的研究与应用》的精彩分享。
张荣升介绍了网易伏羲实验室在大模型方向的技术积累,包括文本多模态理解和生成预训练模型的建设,以及大模型在歌词辅助创作、文字游戏和互联网搜索推荐等领域的应用案例。
- 直播回放:https://live.csdn.net/room/programmer_editor/Nc8cfWuo
以下是张荣升的演讲内容:
我接下来跟大家分享伏羲在文本预训练和多模态预训练方面的一些研究与应用。首先是从去年下半年开始,像 ChatGPT 面世,还有 Stable Diffusion,包括后来英伟达推出的 Magic3D,其实他们的底层都是离不开这个预训练技术,或者说叫大模型。从这几年来看的话,加大预训练模型规模及提升数据质量已成为获得更好的人工智能效果的重要手段。
大家可以看到这张图,这是近几年预训练模型规模增长图。ChatGPT 虽然没有公布参数,但和它对等的谷歌的PLM已经是达到 5400 亿。
本图也是 PLM 论文里面贴出来的。在 58 个任务上,它的一个效果都已经有一个明显的提升,而且已经是超过了一个人类的平均水平。
ChatGPT 能够广受欢迎的原因在于其能够解决人与模型之间的通信问题,或者说在于其成熟的能力去理解人类的意图。数据是这一切的关键因素,不论是第一步还是第二步,都需要有高质量的数据。因此,对于现代的大型语言模型而言,数据的质量是至关重要的。
人去标注数据,然后训练这个反馈模型,它都是离不开高质量的数据,所以说目前大模型已经脱离了这种参数在无限扩大的这个时代,它已经到了去强调自我预训练模数据的一个质量。
近年来,围绕大模型,从硬件,然后到深度学习框架,以及到模型本身,还有它上层的各种各样的商业应用的发展,是非常非常多的。包括近两年在多模态领域得到一个非常快速的一个发展。
MidJourney和GPT-4等模型现在都支持多模态理解,这是未来发展的趋势之一。预训练模型正在朝着多模态的方向发展,可以理解各种数据的形式和表现形式。网易从2019年初开始就一直在研究预训练模型,已经有四年多的时间了。我们基于技术积累,申请了浙江省的一个尖兵项目,主要内容是构建一个超大规模的预训练模型平台。
在这个云平台上,我们将基于文本、图像、音乐和行为序列等数据建立大型模型。我们还将建立计算优化引擎来解决推理成本的问题,以支持另一个大型模型的应用。在此基础上,我们将开展各种应用,包括高效微调和特定垂直领域场景的应用。这是伏羲近四年来预训练模型发展的路径。
在 2020 年底至 2021 年初,即在 ChatGPT 发布之前,我们开始分析游戏中的用户行为日志,用于反外挂和推荐等方面的应用。这些分析都是基于玩家行为序列进行的。由于玩家行为序列可能有自己的符号表达形式,因此我们当时进行的预训练是针对这种行为序列的。从2亿到4亿再到如今一个9亿的预训练模型。
在图文生成领域,我们从去年5、6月份开始构建中文领域的图文生成和动图文生成的预训练模型。在预训练的过程中,我们不仅涉及到预训练模型本身,还需要构建一个计算平台。因此,我们建立了自己的云平台,该平台可以调度网易的算力,并与公有云的算力进行连接。
在大模型推理这边的话,我们也是开源的一个项目,这个项目的话,我们是针专门针对transform 为底座的这个模型去做了一系列的推理优化,推理时候的一个性能提升的大概能提升一倍到八倍的一个水平。
下面分享一下我们文本预训练方面的内容。我们文本预训练叫“玉言”。
下面分享一下我们在文本预训练模型上的具体应用落地案例。
第一个案例便是网易《遇见逆水寒》游戏内的“傀儡戏”玩法,让玩家和 AI 共同创作剧本,进行角色扮演。其实现方式为通过一个 GPT 模型,将玩家输入和故事状态连接,送入预训练的文本生成模型生成候选答案,再经过目标判定模块判定。
第二个案例是在 Loft 上进行AI 写文辅助,用户输入一些故事开头,然后让 AI 去创作故事情节,用户再此基础之上再做二次修改。
第三个案例是网易“有灵”歌词辅助创作。大模型技术让这种创作型的业务也有了工具,它可以提供内容和格式多维度定制生成,还能联系上下文进行局部修改。
在多模态预训练模型技术的研究与应用方面,我们伏羲团队基于 clip 框架构建了自己的数据库,其中大约有 9 亿条中文数据,包括 7 亿条互联网数据和 2 亿条开源数据,其模型能力在市面上已经得到了验证。
图文理解预训练模型可以利用海量的数据,处理中文情景下的文本图像理解以及对风格化图像的微调,同时针对游戏业务或互联网业务需求进行定制,进行游戏制作领域较为繁琐、需求较大的图标生成功能,甚至完成 AI 绘制视频插画。这种思路将为整个行业带来启迪,推动文本创作和多模态创作的产业革命更新。
下面是我们网易 AI 生成的一些案例图: