智能文本生成:进展与挑战

智能文本生成:进展与挑战

万小军

北京大学王选计算机研究所

摘要智能文本生成是人工智能与自然语言处理领域的前沿研究方向,也是AI生成内容(AIGC)的关键技术支撑,近些年受到学术界和产业界的高度关注,在媒体出版、电子商务等多个行业与场景下均已实现应用,能够大幅提升文本内容的生产效率。本文对智能文本生成的应用现状与主要方式进行了系统性概述,并重点介绍了基于深度学习的智能文本生成技术,同时指出现有技术所面临的挑战。

关键词智能文本生成;自然语言生成;机器写作;自然语言处理

017cb33e06ddd19e56d3ad38606797e0.jpeg

论文引用格式:

万小军. 智能文本生成:进展与挑战[J]. 大数据, 2023, 9(2): 99-109.

WAN X J. Intelligent text generation: recent advances and challenges [J]. Big Data Research, 2023, 9(2): 99-109.

ca45078a37452fea0454d85968a82582.jpeg

0 引言

随着深度学习技术的发展和应用,AI生成内容(AI-generated content,AIGC)的能力得到显著提升。文本、图像、视频、音频等内容的自动生成已成为人工智能领域的热门研究方向,同时也备受产业界的关注,在各行各业均具有重要的应用价值。

语言文字是人类最重要的交流工具和思想文化载体,实现语言智能是人工智能走向成熟的重要标志,智能文本生成则是语言智能的关键支撑技术。智能文本生成又称自然语言生成或机器写作,其目的是根据给定的输入数据(如报表数据、视觉信息、意义表示、文本素材等)自动生成高质量的不同类型的自然语言语句或篇章(如标题、摘要、新闻、故事、诗歌、评论、广告等)[考虑到绝大部分文本生成任务与应用属于有条件文本生成范畴,本文只关注有条件文本生成,而忽略无条件文本生成(根据随机噪声生成文本)。]。对于自动生成的文本,一般要求可读性好,同时内容准确可靠。需要指出的是,由于语言表达的多样性,文本生成的结果通常是不唯一的,特别是对于开放式文本生成任务(如文本复述、故事生成等)而言,同一输入生成的输出可以有成百上千种可能。举例来说,对于文本复述任务而言,针对输入语句“梅西是足坛的GOAT”,该语句可以被改写为“梅西是足坛历史最佳”,或者“足坛历史第一人是梅西”,或者“梅西的成就超越了足坛所有其他球员”,等等。

文本生成的困难之处主要有两点。一是搜索空间巨大。文本自动生成可以看作一个搜索问题,对于长度为L的文本(即文本包含L个词),假设词表大小为W(即共有W个词语),考虑到文本的每个位置都可以从W个词语中任选一个词语进行填充,那么总共有WL种可能的组合。W通常很大(一般为几万到几十万的规模),因此这个搜索空间巨大,这给文本生成算法带来了严重挑战。二是文本质量难以客观评价。尽管我们能够主观判断一个语句或一篇文章的优劣,但是很难找到一个自动评价指标对文本质量进行客观、准确的评估。目前业界使用的基于N元词重叠程度的评价指标(如BLEU、ROUGE等)与模型驱动的评价指标(如BERTScore、BARTScore等)均难以可靠地评价文本质量(特别是开放式文本生成任务及长文本生成任务),导致文本生成任务的优化目标难以准确定义和形式化,现有的基于最大似然的优化目标与文本生成的总体质量目标之间存在相当大的差异,这也是现有文本生成模型一个不可忽视的缺陷。

本文后续章节将对智能文本生成的应用现状、主要方式进行概述,重点介绍基于深度学习的智能文本生成技术,同时指出智能文本生成技术面临的挑战,最后进行总结与展望。

1 智能文本生成的应用现状

近几年智能文本生成技术有了突破性发展,各类智能写作需求广泛崛起,智能文本生成应用呈现出行业广、场景多、需求大等特点。智能文本生成已经在媒体出版、电子商务、人机交互、电子政务、智慧教育、智慧医疗、智慧司法等多个行业和领域得到了落地应用。国内外数十家单位和企业(如OpenAI、ARRIA、AutomatedInsights、NarrativeScience、Google、Microsoft、阿里、百度、腾讯、京东等)将文本生成能力作为核心竞争力之一,已相继推出各类文本内容生成工具与服务,能够自动化生产或辅助人工生产各类文本内容(包括新闻、财报、天气预报、文摘、会议纪要、综述、公文、产品说明、广告文案、对话回复、评论等),大幅提升了内容生产效率和覆盖率。特别是在OpenAI推出ChatGPT之后,业界对文本生成模型的强大能力有了更深刻的认识,因而对智能写作技术的应用有了更大的想象空间,例如辅助写论文、发言稿、小说等。下面以媒体出版和电子商务两个典型领域为例具体介绍智能文本生成技术的应用情况。

媒体出版是智能文本生成最重要和最典型的应用领域。首先,许多传统媒体单位(如报社)逐步采用智能文本生成技术进行新闻稿件的自动或辅助创作,主要面向结构和表达相对简单的天气预报、赛事简讯、财经简讯等新闻类型,同时为新闻自动生成标题、摘要等,方便读者快速浏览新闻内容。例如,美联社自2014年7月开始采用新闻写作软件自动撰写新闻稿件报道公司业绩,大大降低了记者的工作量。2019年,笔者与科学网进行了面向科技新闻类型文本生成的全新尝试与合作,研制推出了小柯写作机器人。小柯是一个跨语言科技新闻生成系统,能够基于机器翻译和文本摘要技术自动根据英文学术论文生成简短的中文科技新闻。目前小柯机器人已覆盖物理科学、地球科学、生命科学、化学科学4个学科,撰写科技新闻1万多篇,总阅读量超过1 000万次。考虑到科学网的专业性和严肃性,所有自动生成的稿件在发布前均需编辑进行人工审核。其次,互联网上出现越来越多的新媒体平台,为广大网民提供新闻资讯服务,这类平台通常采用信息推荐技术将不同话题的新闻推荐给不同用户,从而增强用户对平台的黏性和忠诚度,提高平台流量。由于新媒体平台的用户数量庞大,用户感兴趣的话题也不尽相同,因此对新闻稿件的需求量也会很大,采用人工编辑撰写新闻的传统方式已无法满足用户需求,亟须采用智能文本生成技术批量生产大量新闻稿件并进行分发。可以看到,目前很多新媒体、自媒体平台上均有大量新闻由算法生成,覆盖民生、娱乐、体育、财经、社会等各领域。考虑到新媒体用户对新闻质量的容忍度较高,自动生成的新闻通常不需要人工审核即可发布。例如, 2016年里约热内卢奥运会期间,笔者与字节跳动合作研制了小明写作机器人,该款机器人主要撰写体育赛事新闻(小明机器人的写稿类型后续进一步拓展到财经新闻,并且覆盖10多种语言。),是业界首款既能创作简讯又能创作长篇报道的写作机器人。其中体育赛事简讯基于体育赛事数据自动生成,长篇报道则基于体育直播文字进行智能筛选与组合而成。小明机器人撰写的体育新闻自动发布到今日头条平台,服务亿万用户。此外,部分出版社尝试利用智能文本生成技术进行书籍的自动编写,目前主要用于编写与科技进展介绍相关的书籍。例如,2019年施普林格出版社与德国法兰克福大学合作,开发算法自动编写了一本介绍锂离子电池最新研究进展的书籍,该算法主要对该学科大量现有的学术论文进行聚类和摘要自动生成。智能文本生成技术能够驱动媒体出版行业的流程变革,节约人力和成本,而随着智能文本生成技术的快速发展,写作机器人将有能力撰写结构更复杂、更有深度的新闻稿件,进一步扩大应用范围。

电子商务是智能文本生成另一个应用比较成熟的领域。首先,主流电商网站(如京东、淘宝)会定期上线大量的全新商品,这些商品通常需要对应的标题及描述,从而方便用户浏览和购买。考虑到商品数量巨大,人工撰写的成本会很高,而且效率低下,因此主流电商网站通常会采用智能文本生成技术基于商品的基本参数进行商品标题和描述的自动撰写。目前电商网站上的商品标题和描述大多是通过算法自动生成的,一般具有较高的质量。其次,电商网站为了应对用户在购物、售后等方面的交流需求,通常会部署智能客服系统回复用户的问题。智能客服系统需要精准理解用户意图,并利用文本生成技术生成相应的回复文本。同时,部分电商网站会基于对话摘要技术对客服与用户的对话交流进行总结,生成简短的摘要。最后,为了对商品和服务进行推广和营销,很多商家会采用智能文本生成技术自动为商品生成广告和营销类文本,然后发布到众多媒体平台,吸引用户的注意,从而提升商品销量。可以看到,智能文本生成技术已渗透、应用到电子商务的众多流程环节,成为电子商务发展的助推器。

在智能文本生成技术的应用过程中,需要甄别真需求,避免伪需求。真需求即高频率的写作需求,伪需求则是低频率的写作需求。某些场景下年均只需要撰写少数几篇稿件,这种写作需求并不需要采用智能文本生成技术来应对,因为智能写作系统带来的效益会低于开发智能写作系统的投入。在甄别出真实的智能写作需求之后,智能写作系统的开发方通常需要与应用方进行深入沟通和合作,因为智能写作系统的成功离不开应用方的数据和经验。此外,目前智能写作的技术水平与若干智能写作应用需求之间存在较大的差距,也就是说,目前的智能文本生成技术无法满足若干复杂的智能写作需求,例如,自动撰写爆款网络小说、自动撰写长篇科普文章等。

2 智能文本生成的主要方式

从文本生成输入和输出之间的关系出发,本文将智能文本生成的主要实现方式归为以下3类(对话生成(包括闲聊型、任务完成型)也属于智能文本生成范畴,但因其自身已形成一个相对独立且活跃的研究领域,因篇幅有限,本文不再列入及阐述。)。

其一,基于文本扩写的智能文本生成。文本扩写即文本从无到有,或者从少到多,该方式以非文本信息或少量文字信息为输入进行文本生成。基于数据的文本生成(Data2Text)、基于AMR的文本生成(AMR2Text)、基于视觉的文本生成(Visual2Text,主要包括图像描述生成和视频描述生成)、故事/作文生成(基于标题或关键词的篇章生成)等属于文本扩写方式。该方式的特点是输出文本中的大量或全部文字需要由算法模型进行补充或创作。

其二,基于文本缩写的智能文本生成。文本缩写即文本从多变少,该方式对输入的文本内容进行浓缩和提炼,并输出相对较短的文本,主要包括文本摘要生成、标题生成、综述生成等任务。该方式的特点是与输出文本相比,输入文本通常包含更多的信息,因此需要算法模型进行信息的重要性评估和筛选,使输出文本尽可能包含输入文本中的重要内容,同时舍弃边缘内容。

其三,基于文本改写的智能文本生成。文本改写即对文本进行改变以达到特定目标,输出文本与输入文本的长度相差不会很大。属于该方式的文本生成任务主要包括文本复述、文本简化、文本风格迁移等。该方式的特点为输出文本与输入文本通常可以进行词汇短语级别的对齐,可看作单语言机器翻译问题。

图1总结了3类主要智能文本生成方式及涵盖的典型文本生成任务。上述3类智能文本生成方式可独立应用于智能写作系统,也可进行组合,实现更加复杂的机器写作目标。例如,可以结合扩写与缩写两种方式进行财经类新闻的自动生成。具体来说,可基于Data2Text技术针对财经类数据进行描述生成,然后基于文本摘要技术总结专家观点,将两者结合在一起,形成同时包含基本财经信息和专家观点的财经新闻,更好地服务读者。

e738a4af70ac60c9f8b52ef103aa7285.jpeg

图1  智能文本生成主要方式以及典型文本生成任务

3 基于深度学习的智能文本生成

3.1 文本生成方法概述

早期的文本生成方法主要基于规则,并且采用流水线框架,将复杂的文本生成任务分解为多个阶段,对每个阶段分别进行设计和求解。其优点是不依赖大规模标注数据,可解释性较好,错误容易诊断和定位;缺点是过于依赖专家知识,领域迁移性差,流水线框架也会带来错误累积。例如,对于Data2Text任务而言,英国阿伯丁大学的Reiter E提出了基于流水线的生成框架,包括信号分析(signal analysis)、数据阐释(data interpretation)、文档规划(document planning)、微规划与实现(microplanning and realisation)4个阶段,并可以进一步将该框架简化为数据分析、文档规划、语句实现3个阶段。其中数据分析的目的为对输入数据进行分析理解,获取高层消息以及消息之间的关系;文档规划的目的为分析决定哪些消息和关系需要在文本中被提及,同时确定文本的整体结构、输出需要提及的消息及文档结构;语句实现的目的为基于选中的消息及结构进行句子规划及实现,要求最终实现的句子具有正确的语法、形态和拼写,同时采用准确的指代表达。上述框架中的每个阶段都可以考虑基于规则实现,对于语句实现可考虑利用文法信息。随着标注数据的积累和增多,业界逐步采用统计方法进行文本生成。考虑到文本生成与机器翻译的相似性(将输入信息翻译/转换为特定自然语言表达),不少研究者尝试复用机器翻译模型来完成文本生成。需要说明的是,不同文本生成任务具有不同的特点,因此不同文本生成任务的阶段分解、规则设计及适用的统计方法不尽相同,需要有针对性地考虑。

近几年,随着深度学习技术的发展和突破,基于深度学习的文本生成已成为最主流的技术路线,每年在领域重要国际会议(包括ACL、EMNLP、NAACL、EACL、AACL、AAAI、IJCAI、INLG 等)均有大量相关学术论文发表,推动文本生成任务的技术创新和性能提升。深度学习技术可用于流水线框架的各个阶段,但更主流的做法通常是将文本生成任务看作从输入到输出的端到端转换过程,因此业界通常采用深度学习模型完成端到端的文本生成。上述方式的优点是文本生成性能提升明显,且相对更容易开发(现有多个深度学习平台(如TensorFlow、Pytorch等)支持各类深度学习模型的复用与开发。),缺点是高度依赖大规模标注数据,模型的可解释性不好。

图2总结了Data2Text任务的两种框架:流水线框架和端到端框架。图2以足球比赛赛事简讯生成任务为例,通过赛事数据页面(见左上角)获得输入数据,然后采用任一框架进行赛事简讯生成,输出结果见右上角文本。

8764a2c47a833efae912ef757c4fd770.jpeg

图2   基于足球比赛数据的赛事简讯生成任务的两种框架

(左上角为足球比赛数据展示页面,右上角为输出的简讯文本)

3.2 基于编码器-解码器框架的文本生成方法

尽管不同的深度学习模型被尝试应用于文本生成,但近些年最成功的模型是基于编码器-解码器(encoder-decoder)框架的方法。编码器用于对输入数据进行理解和编码,计算数据的语义向量表示,而解码器则以编码器的输出为输入,进行词语序列的解码输出。面向不同的文本生成任务,编码器可采用不同的深度学习模型对不同类型的输入进行编码,包括循环神经网络(recurrent neural network, RNN)、长短时记忆网络(long shortterm memory,LSTM)、卷积神经网络(convolutional neural network,CNN)、Transformer网络等。不同文本生成任务的输出均为文本,也即词语序列,因此解码器可采用RNN、LSTM或Transformer网络,这些模型基于已有的词语序列预测下一个词语。具体来说,其先解码输出第一个词语,接着解码第二个、第三个词语,以此类推,直到输出结束符号为止。

许多文本生成任务可看作序列转换问题,即将输入符号序列转换为输出符号序列。输入符号序列不限于词语,也可包括数值、特殊符号等,例如Data2Text任务输入的符号序列可包括词语、数值、标签等,AMR2Text任务输入的符号序列可包括概念、概念关系标签、特殊符号等。用于求解序列转换问题的模型统称为Seq2Seq模型,其本质上也基于编码器-解码器框架。图3展示了以循环神经网络为基础的Seq2Seq模型框架。图3将输入符号序列(A, B,C,D)转换为输出符号序列(X,Y),其中<BOS>为起始符号,<EOS>为结束符号。

为获得更好的文本生成结果,Seq2Seq模型一般采用注意力机制,使解码阶段能够关注到输入端的序列信息。例如,对于图3的例子,解码第二个符号Y时可能更关注输入符号序列中的符号C,而其他符号A、B、D对Y的生成影响较小。模型会根据当前解码状态与编码器每个状态的相关度计算注意力权重,然后基于注意力权重计算获得关于输入信息的上下文向量,并用该向量帮助解码。

7226a142c162d33596e0dac21d21dc87.jpeg

图3  以循环神经网络为基础的Seq2Seq模型框架

Transformer模型同样基于编码器-解码器框架,也适用于处理序列转换问题,可看作一种充分利用注意力机制的特殊Seq2Seq模型。Transformer模型的编码器主要由多头注意力(multi-head attention)、残差连接与层归一化(add &norm)、前向反馈(feed forward)网络等模块构成,为每个输入符号获得一个上下文感知的语义向量表示。解码器与编码器类似,主要由隐码多头注意力(masked multi-head attention)、多头注意力、残差连接与层归一化、前向反馈网络等模块构成。解码器通过多头注意力对编码器输出信息进行有效的访问和利用,同时通过隐码多头注意力访问和利用已经生成的序列信息。Transformer模型在各类文本生成任务上均具有卓越的性能表现,已成为当前文本生成乃至整个自然语言处理领域的代表性和突破性技术之一,具有重要的落地应用价值。

不同于Seq2Seq模型的其他代表性文本生成模型有变分自动编码器(variational autoencoder,VAE)、生成对抗网络(generative adversarial network,GAN)、扩散模型(diffusion model)等,这些模型要么难以训练,要么当前的性能表现仍不理想,难以在实际场景得以应用,需要进一步探索和完善。

Transformer模型同样基于编码器-解码器框架,也适用于处理序列转换问题,可看作一种充分利用注意力机制的特殊Seq2Seq模型。Transformer模型的编码器主要由多头注意力(Multi-head attention)、残差连接与层归一化(Add&Norm)、前向反馈网络(Feed Forward)等模块构成,为每个输入符号获得一个上下文感知的语义向量表示。解码器与编码器类似,主要由隐码多头注意力(Masked multi-head attention)、多头注意力、残差连接与层归一化、前向反馈网络等模块构成。解码器通过多头注意力对编码器输出信息进行有效的访问和利用,同时通过隐码多头注意力访问和利用已经生成的序列信息。Transformer模型在各类文本生成任务上均具有卓越的性能表现,已成为当前文本生成乃至整个自然语言处理领域的代表性和突破性技术之一,具有重要的落地应用价值。

不同于Seq2Seq模型的其他代表性文本生成模型包括变分自动编码器(VAE)、对抗生成网络(GAN)、扩散模型(Diffusion Model)等,这些模型要么难以训练,要么当前的性能表现仍不够理想,难以在实际场景应用,需要进一步的探索和完善。

3.3 基于预训练语言模型的文本生成方法

预训练语言模型(pretrained language model, PLM)是对海量语料(一般是未标注语料,也可包括标注语料)进行训练得到的语言模型。语料一般不带任何标注信息,因此模型通常采用一个或多个自监督任务作为训练目标,例如基于文本中前面的词语序列预测下一个词语等。预训练语言模型通常由多层基础神经网络模块(如Transformer网络)堆叠而成,参数规模大(从数亿增长到数千亿),需要大量的数据进行训练。不同的预训练语言模型具有不同的架构,通过模型预训练能获得性能卓越的文本编码器(如BERT、RoBERTa模型)或文本解码器(如GPT系列模型),或者二者兼得(如BART、T5 模型)。其中,OpenAI推出的GPT系列模型是最具代表性同时也是到目前为止最成功的文本生成大模型,特别是2022年推出的ChatGPT模型具有令人印象深刻的文本生成能力。其能够根据用户的提示和引导完成各类文本生成任务,例如文本摘要、复述、故事生成、文案生成等,还具有回答问题、生成代码等多种能力,被部分学者视为走向通用人工智能(artificial general intelligence,AGI)的一条可行路径。GPT系列语言模型总结见表1。可以看到,GPT系列模型的发展趋势是首先增加模型参数和训练数据规模使其具备足够强的生成能力,然后考虑利用人类反馈信息优化模型生成更加安全并符合人类价值观的内容。

971aa832ea23d6fc3701367c7b45c736.png

预训练语言模型的超强能力可以总结为“一种泛化的记忆能力”,通过大规模模型参数以某种隐式方式获取并存储数据中的语言学及事实、常识等各类知识,同时具备一定程度的涌现能力(emergent ability),解决相对复杂、困难的任务。目前对于语言大模型内在机理的研究还处于起步阶段,语言大模型对人们而言仍然像是一个黑盒子,亟待业界共同努力破解其内在奥秘。

预训练语言模型相当于“巨人的肩膀”,已成为解决各类文本生成任务的关键支撑,众多研究试验对比发现,采用预训练语言模型能大幅提升文本生成效果。业界通常采用如下两种典型方式(业界还提出基于任务标注数据对预训练模型的一部分参数或者额外增加的参数进行训练的方法,但此类方法既不简洁,效果也不突出,因此不再赘述。)利用预训练语言模型帮助特定文本生成任务:一是面向特定任务的模型微调(finetuning);二是对模型进行提示和示例(prompting &demonstration)。第一种方式基于特定任务的标注数据对预训练语言模型进行进一步训练,调整优化预训练语言模型的全体参数,从而取得在特定任务上的更佳效果。例如,可以基于文本简化数据进一步训练BART模型,使得BART模型能够更好地应对文本简化任务。与第一种方式不同,第二种方式不用进一步训练预训练语言模型,甚至可以不利用特定任务的标注数据,或者只利用极少量的数据样例。该方式高度依赖人工或自动构造的自然语言提示(不同的提示可能会导致不同的生成效果,如何构造好的提示也是值得探讨的问题。),在该提示的引导下,预训练语言模型能够理解任务并生成相应的结果。例如,对于文本简化任务,可以构造这样的提示“请将这句话改写为更简单易懂的句子:【*】,改写结果如下:”,然后用待改写的句子替换“【*】”作为GPT-3模型的输入,模型会生成/续写相应的简化结果。为了进一步提升模型对特定任务的理解,可以提供一个或多个样例(包括样例的输入和标注结果),与提示文本拼接在一起作为模型输入,使得模型能够通过样例更好地理解特定任务的目标和要求,从而更好地完成任务。可以看到,对模型进行提示的方式不需要重新训练模型,因此能够节约资源且更加方便,但是要求模型已经具备多任务、少样本甚至零样本文本生成能力。从实际效果来看,GPT-3和ChatGPT能够比较好地支持以该方式完成各类主流文本生成任务,而对于独特、小众、领域相关的文本生成任务,可能仍需要采用模型微调的方式才能取得较好的生成效果。

4 智能文本生成面临的挑战

基于深度学习和预训练语言模型的智能文本生成已经展现出强大的能力,但是仍面临可控性不好、缺乏可解释性、资源消耗大等问题和挑战。首先,模型无法精准控制生成结果,导致生成文本的质量时好时坏,进而影响其在关键场景的落地应用,这方面的具体问题稍后会展开详述。其次,基于深度学习的文本生成模型缺乏可解释性,其工作机理更像是一个黑盒子,不利于错误诊断和分析。关于预训练语言模型的内在机理,业界虽然有各种推测和假设,但目前并没有令人信服的答案。最后,目前的预训练语言模型都非常庞大,训练和使用会耗费巨大的资源(GPU卡、存储空间、能源消耗、资金投入等),与人类社会的绿色环保发展理念相背离,且容易形成垄断,不利于行业生态的健康发展。目前针对GPT系列大模型的压缩和小型化工作极少,且难度很大,轻量级文本生成模型的研制需要得到业界更多的关注和重视。文本生成模型的结果不可控问题具体体现在以下几个方面。

● 内容覆盖性不佳(“写得不够”)。典型的有条件文本生成任务(如文本摘要、Data2Text、AMR2Text等)均要求输出结果能够覆盖输入数据中的重要信息。然而,当前的文本生成模型可能会遗漏输入数据中的某些重要事件/关系/实体等信息,导致出现内容覆盖性不佳的问题。例如,对输入的句子“小丽的爸爸和妈妈来美丽的校园看望她了”进行摘要和压缩,模型可能会生成“小丽的爸爸来校园看望她了”,这个结果文本遗漏了输入句子中的重要信息“小丽的妈妈”,因此内容覆盖性较差。当前解决该问题的方法包括显式利用句法语义知识增强模型编码端对输入数据/文档的理解,也可以考虑首先提取重要信息(如关键词、实体、关系等),然后在模型解码端增加约束,要求模型输出覆盖重要的词语/实体/关系。

● 文本多样性欠缺(“写得雷同”)。目前的文本生成模型倾向于在类似的条件下生成相似的文本表达,使得输出文本欠缺多样性,给读者千篇一律的感受。例如,对不同场次的足球比赛,模型可能会生成类似的语句“A队X-Y战胜了B队”介绍比赛结果(其中A、B为比赛队伍名,X-Y为比分),这样的赛事报道文本表达雷同,给读者不好的阅读感受。该问题的根本原因在于文本解码算法在每一步均倾向于输出(给定上下文条件下)神经网络模型计算得到的概率最大的词语。业界解决该问题的方法主要是在解码过程中简单引入随机性(如top-k、top-p),或者通过采样不同的随机向量帮助多样性文本生成。这些方法虽然能够部分改善这个问题,然而会引起文本基本质量(如流畅性)下降。

● 信息保真性不好(“写得有错”)。当前文本生成模型的输出结果中通常会出现关键信息与输入数据或客观世界不一致或相互冲突的情况,也会出现某些无法验证的信息。例如ChatGPT在用户的引导下会输出“曹雪芹的丈夫名叫高鹗”这样与客观事实不符的文本。文本摘要模型会在生成结果中用错实体、数量、性别等关键信息(例如原文中为“张三”,而在摘要结果中为“李四”)。这个问题严重影响了文本生成模型的应用。可以看到,由于模型在训练阶段见识过大量数据,并记忆各类信息,这些信息仍有可能在测试使用阶段出现在模型输出中,也有可能与当前输入信息进行某种形式的组合作为输出。因此,业界主要考虑对模型输出增加语义约束从而提升文本生成结果的语义保真性,或者利用强化学习手段进行模型优化。此外,业界也探索利用纠错模型来修正文本生成结果的错误,提升信息保真性。

● 内容安全性不足(“写得有害”)。目前的文本生成模型在一些特定的条件或提示下会生成不安全、不友好的文本内容,例如侮辱性言论、种族歧视言论、性别歧视言论等不当言论,也可能会生成诸如“请食用从山上采到的彩色蘑菇”这类威胁人身安全的语言。业界设计了多个可控文本解码算法(例如DEXPERTS)在解码过程中控制输出文本的属性类别。ChatGPT则通过基于人类反馈的强化学习手段,利用人工标注数据优化模型,尽量让模型与人类价值观对齐,在实际测试中具有良好表现,但受限于标注数据的规模和领域覆盖性,以及强化学习方法自身的能力,内容安全性不足的问题并没有得到真正的解决。

● 文本生动性不够(“写得不美”)。智能文本生成的最终目标之一是能够自动生成更加生动和形象的文本,让读者感受到语言之美,体会到文字的感染力。实现这个目标的主要方式包括巧用修辞手法(如双关、隐喻、比喻、夸张等)、引经据典、巧用幽默和词语等。然而,当前的文本生成模型不具有上述写作能力,仅能生成相对平实、直白的语言。业界已有少数工作分别聚焦在不同类型修辞语言的生成、引文推荐、简单幽默的生成,但任务定义和实现方法均比较初级,距离实现文本生动性的目标还有很大的差距。

● 篇章连贯性不强(“写得不通”)。当前的文本生成模型通常具有能力较强的解码器,能够生成流畅的语句,但是在生成长文本时会出现句间连贯性的问题,语句之间可能存在连贯性较差或相互矛盾的情况,也会存在篇章逻辑方面的问题。例如,文本生成大模型会生成“……我不是你的主人,我是你的主人……”这样前后矛盾的文本,这样的结果会严重影响读者的阅读和理解。业界已尝试利用强化学习手段提升连贯性,或利用内容规划信息指导文本生成,但是长文本的连贯性问题仍有待深入探索。

5 结论与展望

本文对智能文本生成的应用现状、主要方式、主流方法及面临的挑战进行了全面的阐述。智能文本生成技术不仅能用于智能写作,还能用于解决其他几乎所有自然语言处理任务,即“万物皆可生成”。从近几年的研究趋势可以看到,绝大部分自然语言处理任务(包括智能问答、信息抽取、句法分析、语义分析等)可以通过序列转换模型或预训练语言模型加以解决,并能取得突出的试验效果。因此,更好的文本生成方法/模型将能够促进整个自然语言处理领域的发展。

展望未来,除了继续探索可控性文本生成方法之外,业界还可以探索人在回路的文本生成,使模型可以充分、持续利用人类与模型交互过程中所提供的显式或隐式反馈信息(例如基于模型生成结果完成下游任务的成功率和时间开销等)实现自我进化。此外,尽管自然语言处理任务通过文本生成方式基本实现了大一统的解决框架,但是能否跨越不同模态,研制同时支持图像、视频、语音和文本的大一统模型,也是一个极具挑战性的问题,业界针对这个问题已有一些尝试,但目前效果还不能令人满意。最后,文本质量评估是衡量和驱动文本生成技术研究的“尺子”和“利器”,然而当前文本质量自动评估方法可靠性不高,人工评价方法可重复性低,业界亟须探索更可信的自动评价指标与可重复的人工评价框架。

作者简介

万小军(1979-),男,博士,北京大学王选计算机研究所博士生导师,主要研究方向为自动文摘与文本生成、情感分析与语义计算、多语言与多模态NLP等。曾担任计算语言学重要国际期刊ComputationalLinguistics编委、国际会议EMNLP2019程序委员会主席,现任CCF-NLP专委会秘书长、中国中文信息学会理事与NLGIW专委会副主任、TACL与ARR执行编委、NLE编委、JCST编委,多次担任相关领域重要国际会议(ACL、NAACL、EMNLP、EACL、AACL)高级领域主席或领域主席。荣获ACL2017杰出论文奖、IJCAI2018杰出论文奖。研制推出多款AI写作机器人,如小明、小南、小柯等,应用于多家媒体单位。

联系我们:

Tel: 010-81055490

       010-81055534

       010-81055448

E-mail:bdr@bjxintong.com.cn 

http://www.infocomm-journal.com/bdr

http://www.j-bigdataresearch.com.cn/

转载、合作:010-81055307

大数据期刊

《大数据(Big Data Research,BDR)》双月刊是由中华人民共和国工业和信息化部主管,人民邮电出版社主办,中国计算机学会大数据专家委员会学术指导,北京信通传媒有限责任公司出版的期刊,已成功入选中国科技核心期刊、中国计算机学会会刊、中国计算机学会推荐中文科技期刊,以及信息通信领域高质量科技期刊分级目录、计算领域高质量科技期刊分级目录,并多次被评为国家哲学社会科学文献中心学术期刊数据库“综合性人文社会科学”学科最受欢迎期刊。

55633294ddd8227e1bbff8b92c432baa.jpeg

关注《大数据》期刊微信公众号,获取更多内容

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/23068.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2023.3.20-3.26 AI行业周刊(第142期):AI创业过程中的思考和实践

最近一段时间&#xff0c;因为开始接触更多的市场用户&#xff0c;包括和一些AI公司的创始团队沟通&#xff0c;越来越感觉创业的不容易。 因为需要考虑的因素太多&#xff0c;市场分析后产品的定位&#xff0c;产品打磨出来后用户的推广&#xff0c;用户使用后商业化的落地等…

【热点抢先看】智能文本生成:进展与挑战

智能文本生成&#xff1a;进展与挑战 万小军 北京大学王选计算机研究所 摘要&#xff1a;智能文本生成是人工智能与自然语言处理领域的前沿研究方向&#xff0c;也是AI生成内容&#xff08;AIGC&#xff09;的关键技术支撑&#xff0c;近些年受到学术界和产业界的高度关注&…

吴恩达与OpenAI官方合作的ChatGPT提示工程课程笔记

吴恩达与OpenAI官方合作的ChatGPT提示工程课程笔记 &#x1f978; 下述代码均在煮皮特上运行喔 LLMs(large language models) Base LLM&#xff1a;基于文本训练数据来预测做“文字接龙” Instruction Tuned LLM&#xff08;指令调整型LLM&#xff09;:接受了遵循指示的培训&am…

会议学习笔记

目录 1.标注高效的核心思路&#xff1a;1.部分监督PSL2.自监督SSL魔方复原 3.单一标注无标注 2.深度通用学习DUL1.通用特征点检测2.通用MRI重建 3.学习与知识融合 如何把大数据小任务转换成小数据大任务 1.标注高效的核心思路&#xff1a; 以一变二&#xff1a;数据增广无中生…

【Android知识笔记】Parcelable 为什么速度优于 Serializable ?

Q:Parcelable 为什么速度优于 Serializable ? 首先,抛开应用场景谈技术方案都是在耍流氓,所以如果你遇到有面试官问这样的题目本身就是在给面试者挖坑。 序列化 将实例的状态转换为可以存储或传输的形式的过程。 Serializable 实现方式: Serializable 是属于 Java 自带的…

计算机IO模型二、pageCache、mmap作用

前言 文章开始前先推荐两本书&#xff0c;《深入理解linux内核》可以帮助大家对内核有一个系统的理解&#xff0c;《深入理解计算机系统》可以夯实对操作系统的了解 1. 物理内存&#xff1a; 物理内存中有内核&#xff0c;有应用程序&#xff0c;程序在物理内存中是不连续的。…

一个JavaSript信息提示框的实现

在很多时候我们需要在一个Html控件获得光标的时候在控件旁边显示一个提示框,实现这个关键在于怎么定位当前控件的位置。这个位置可以是相对于浏览器左上角窗口的x,y坐标,也可以是相对于Body的X,Y坐标。相对于第一种方法,第二种方法实现起来会方便些,因为要获得相对于浏览器…

ospf协议

一、路由协议基础&#xff1a; 1. 静态路由协议缺点&#xff1a; 1&#xff09;路由不能随着拓扑的变化而自动变化&#xff08;网络中接口关闭或者故障是不可知的&#xff0c;有无汇总都会有黑洞的——接口故障关闭断电或者网段不存在之后&#xff0c;此时如果有缺省就会出现…

D3D12渲染技术之顶点着色器

相信大家以前用过D3D9的或是编写过Shader的对顶点着色器都比较了解&#xff0c;现在我们回顾一下&#xff1a; cbuffer cbPerObject : register(b0) {float4x4 gWorldViewProj; };void VS(float3 iPosL : POSITION, float4 iColor : COLOR, out float4 oPosH : SV_POSITION,o…

chatgpt赋能python:Python编程教程之抽签程序

Python编程教程之抽签程序 介绍 对于喜欢玩抽签、体育彩票等游戏的人来说&#xff0c;抽签程序是一款非常有用的小工具。抽签程序可以用来随机抽取一定数量的幸运儿&#xff0c;而且运行速度快&#xff0c;结果随机性高&#xff0c;不需要人工干预。 那么&#xff0c;Python…

《大众证券报》报道云创大数据等企业谋取新春“开门红”

近日&#xff0c;《大众证券报》以《拼研发、抓项目、拓市场 南京上市公司谋取新春“开门红”》为题发表新闻报道&#xff0c;描绘包括南京云创大数据科技股份有限公司等南京本地上市公司在新春伊始的生机活力景象&#xff0c;报道这些企业是如何围绕主业谋发展&#xff0c;力争…

游戏版《西部世界》来了!NPC全由AI操控,行动自如有理想和记忆,基于最新GAEA技术系统打造

​ChatGPT彻底引爆了AI领域&#xff0c;也点燃了各赛道玩家的热情。 以虚拟交互体验为例&#xff0c;就已经有不少新产品冒头。 不仅像Chat D-ID这类以ChatGPT驱动的虚拟女友bot花样百出&#xff0c;就连游戏AI NPC也变得火热起来&#xff0c;这几天知名游戏公司育碧要推出AI…

游戏版《西部世界》来了!NPC全由AI操控,行动自如有理想和记忆,基于最新GAEA技术系统打造...

萧箫 发自 凹非寺量子位 | 公众号 QbitAI ChatGPT彻底引爆了AI领域&#xff0c;也点燃了各赛道玩家的热情。 以虚拟交互体验为例&#xff0c;就已经有不少新产品冒头。 不仅像Chat D-ID这类以ChatGPT驱动的虚拟女友bot花样百出&#xff0c;就连游戏AI NPC也变得火热起来&#x…

无人出租车被警察截停后逃逸!AI:我当时害怕极了

新智元报道 编辑&#xff1a;好困 袁榭 snailnj 【新智元导读】愚人节当晚&#xff0c;在美国旧金山上演了史上第一场无人驾驶汽车被警察截停后逃逸的事件&#xff0c;画面爆笑。 警察拦车很常见&#xff0c;但是拦AI开的出租车你见过么&#xff1f; 在最近爆火的一段视频中&…

H5营销海报如何制作,在线制作平台分享

互联网影响着我们的生活习惯&#xff0c;很多人获取消息不再是从别人口中听到、从电视上看到、从报纸上阅读到&#xff0c;但一切消息皆可以从互联网上来获取。而商家们也可以通过互联网进行高效、精准的宣传&#xff0c;方式很简单。通过H5海报制作&#xff0c;巧妙的利用互联…

fast-poster 海报生成器,一分钟完成海报开发。

fast-poster 海报生成器&#xff0c;一分钟完成海报开发。 曾几何时&#xff0c;开发一个海报功能&#xff0c;需要调用底层的绘图API&#xff0c;要熟悉各种不友好的GUI代码。 经过N次迭代和线上生产环境的考验。 现在&#xff0c;开发一个海报功能&#xff0c;只需三步。 …

漫画:是喜,还是悲?AI竟帮我们把Office破活干完了

图文原创&#xff1a;亲爱的数据 国产大模型烈火制造。阿里百度字节美团各科技大佬不等闲。 大模型嘛&#xff0c;重大工程&#xff0c;对我等“怀保小民”来说&#xff0c;只关心怎么用&#xff0c;不关心怎么造。 我来介绍一下自己&#xff0c;我是一个写稿男团组合的成员&am…

腾讯云开发者2022年度热文盘点

01 十亿人都在用的健康码运维体系如何设计&#xff1f; 随着疫情防控模式的迭代&#xff0c;健康码访问DAU逐渐趋于下跌&#xff0c;意味着健康码将逐步完成历史使命&#xff0c;见证着疫情的结束。本文特邀腾讯研发工程师李雄政将从技术架构、可观测体系、运营保障体系等运维体…

“F1 车王”昏迷 10 年能受访了?某杂志 AI 生成“舒马赫专访”惹众怒,涉事主编遭解雇...

整理 | 郑丽媛 出品 | CSDN&#xff08;ID&#xff1a;CSDNnews&#xff09; 在赛车世界中&#xff0c;“车王”迈克尔 舒马赫&#xff08;Michael Schumacher&#xff09;是无数人心中最伟大的 F1 赛车手&#xff1a;前 16 年的职业生涯几乎刷新了每一项纪录&#xff0c;共获…

马斯克损失126亿美元,仍为世界第二富!网友:“公司太多的烦恼?”

整理 | 朱珂欣 出品 | CSDN程序人生&#xff08;ID&#xff1a;coder_life&#xff09; 送人类移民火星&#xff0c;一直是“钢铁侠”马斯克的梦想。 然而&#xff0c;作为拥有 SpaceX 42% 的股份大股东&#xff0c;马斯克近来却事与愿违——火星没去成&#xff0c;还交足了…