【论文阅读】EssayGAN:基于生成对抗网络的数据增强用于自动作文评分

摘要

  • 构建一个基于AES的深度学习系统,需要一个包含人为打分的训练数据集。
  • 本文介绍了EssayGAN,一个基于生成对抗网络的自动文章生成器
  • 为了生成打分了的文本,EssayGAN有每个分数范围对应的生成器以及一个鉴别器。每个生成器致力于一个特定的分数,并且生成打分为该分数的文本。这样,生成器能够只关注于产生一个看起来实际可行的文章,这个文章能够欺骗鉴别器,使得鉴别器不用考虑目标分数。
  • 尽管普通文本的生成对抗网络(GANs)基于词来产生文本,EssayGAN基于句子来产生文本。所以,EssayGAN不仅能够通过在每一步预测一个句子的方式来创作长文章,而且能够通过应用针对不同目标分数的生成器来创作已经打好分的文本。
  • 由于EssayGAN能够产生打好分的文本,产生的文本能够被用在AES的有监督的学习过程中。
  • 实验结果显示使用扩充的文章来进行数据增强有助于提升AES系统的性能。我们得出结论,EssayGAN不仅能产生包含多个句子的文本,并且能够保持文章中句子之间的连贯性

引言

  • 在构建一个边缘的打分系统时候,收集人为打好分的文章的代价很高,这是一个瓶颈。自动数据增强能够作为一个对长期以来缺乏训练数据这一问题的解决方案。
  • 传统的GANs包含两个子网络:一个产生假数据的生成器 以及 一个用于区分真实数据和假数据的鉴别器。GAN的核心想法是在鉴别器和生成器之间做一个min-max game,比如说对抗训练。生成器的目标是产生鉴别器相信是真的的数据。
  • 为了产生具有不同的分数的文章,EssayGAN有多个生成器和一个鉴别器。每个生成器只致力于产生某个分数的文本。生成器被训练用来区分真实和生成的文本。
  • 总体而言,用GAN来生成文本,包含从一集合的预定义好的tokens中,预测下一个token,来产生最真实可信的文本。沿用同样的脉络,我们将文本生成考虑成,基于一集合预先选择好的句子的,一系列的对下一个句子的预测操作。
  • 对于EssayGAN为什么对句子进行采样,而不是对token,有两个原因:一个时GAN很难产生长文本,即使是一个前沿的GAN模型也不能才是一篇长度有150-650个词的组织结构很好的文本。另一个是通过从目标分数下的文本中采样句子,能够使得更加容易得创作出对应于这个特定分数的文本。

相关工作

CS-GAN和SentiGAN

  • 一些研究是基于整合额外的类型信息到GANs中,有两个主要的方法来处理GANs中的类别信息。辅助分类器GAN(ACGAN,Auxiliary classifier GAN)是其中一个最流行的类别数据生成的架构。ACGAN在鉴别器上部署了一个分类层。一个生成器被训练用来最小化通过鉴别器和分类器计算的损失。另一个是采用多个生成器,每个生成器对应于一个类别。SentiGAN是一个有着多个生成器的代表。
  • 在文本生成中,类别句子GAN(CS-GAN),它是一个ACGAN,把类别信息整合进GAN来合成具有类别分类的句子。CS-GAN开发了长短期记忆网络(LSTM,long short-term memory),它是句子生成的最常用的方法。在CS-GAN中,一个强化学习的梯度方针被用来更新生成器的参数。
  • SentiGAN包含多个生成器和一个多类别的判别器。SentiGAN被设计用来产生具有不同情感标签的文本。它的鉴别器是一个多类别的分类器,该分类器具有k个类比和一个附加的假类别。

基于预训练模型的自动作文评分

  • XLNet是一个预训练的模型,它通过消除预训练数据中的mask tokens来减少预训练和微调之间的差异。相反地,它产生自回归的预训练方法,它通过排列输入的序列,来使得模型能学习到双向的上下文。
  • 一个叫做多损失(multi-loss)的新方法被提出用来微调AES任务的BERT模型。它的最终层输出两个结果:一个回归分数和一个排序。那么,所有的权重在微调的过程中是根据回归和排序损失的结合来更新的。在训练过程中,回归损失的重要性增加,排序损失的重要性减少。
  • 预训练模型的适应器模块被提出,不是微调整个模型,二十冻结模型的一部分,并且更新只几千的参数来达到优秀的性能。适应器模块利用预训练模型的大量的知识,以及相对少的微调来达到高的性能表现。

EssayGAN

  • EssayGAN从一个句子集合中采样句子来创作一篇新的文章。
  • 假设文章被 r r r 个评分段/等级来打分,那么我们使用 r r r 个生成器和 1 个鉴别器。
    在这里插入图片描述
  • i i i 个带有参数 θ i \theta _i θi的生成器 G i G_i Gi,表示为 G θ i G_{\theta _i} Gθi,并且带有参数 ϕ \phi ϕ 的鉴别器被表示为 D ϕ D_{\phi} Dϕ。第 i i i 个鉴别器的目标是产生能够被评估为分数为 c i c_i ci 的文本。每个生成器 G θ i G_{\theta _i} Gθi 产生一篇假文本来欺骗鉴别器 D ϕ D_{\phi} Dϕ,鉴别器辨别真和假的文本。
  • 我们应用了一个增强学习的方法来训练生成器。鉴别器的输出分数被反馈给生成器。

句子表示

  • 由于 EssayGAN 把句子作为它们的输入,每个句子需要被表示为一个单独的嵌入向量。
  • 采用语言不可知(language-agnostic)的BERT句子嵌入(LaBSE),它能够产生对于109种语言的跨语言的语言无关的句子嵌入。

鉴别器

  • 鉴别器的目标是区分人类写的和生成器创作的文章。
  • 鉴别器的构建是基于双向LSTM网络的。通过查询向量表,第 i i i 个句子 s i s_i si
    被转换为 一个嵌入向量 E s i E_{s_i} Esi
  • 句子嵌入被馈入LSTM的隐藏层,第一个和最后一个隐藏状态会被连接成一篇文章表示。鉴别器的最后一层输出一个值,表征输入的文章有多大可能是真的。并且输出的值会被提供给生成器作为反馈值。
    在这里插入图片描述

生成器与增强学习

  • 下图是第 i i i个生成器,它被分配生成打分为 c i c_i ci的文章。
    在这里插入图片描述
  • 我们使用LSTM网络作为生成器的基础架构。LSTM网络最初是使用训练数据集采取一个句子级别的语言模型进行预训练的,并且采用了一个常规的最大似然估计方法。这样,预训练的LSTM能够基于先前选择了的句子,来预测最可能的下一个句子。在预训练阶段之后,对抗训练被轮流得应用于生成器和鉴别器。
  • 每个LSTM单元的输出层有和句子级别的独热向量一样的维度,它能够标识一个特定的句子。每个LSTM单元的隐藏层输出 h t h_t ht 被递归的定义如公式(1),并且LSTM预测的句子能够被定义如公式(2):
    h t = L S T M ( h t − 1 , E s t ) ( 1 ) p ( s t + 1 ^ ∣ S 0 , s 1 , . . . , s t ) = s o f t m a x ( V h t + b ) ( 2 ) \begin{array}{cr} h_t=LSTM(h_{t-1},E_{s_t})&(1)\\ p(\hat{s_{t+1}}|S_0,s_1,...,s_t)=softmax(Vh_t+b)&(2) \end{array} ht=LSTM(ht1,Est)p(st+1^S0,s1,...,st)=softmax(Vht+b)(1)(2)
  • 下一个句子是通过基于期望概率的随机采样来选择的。
  • 在应用对抗训练来文章生成的时候有一个障碍:鉴别器只能对一整篇文章提供一个反馈值,但是生成器需要在每一个采样步骤时得到不完整的文章的反馈值。这样,为了在每个采样步骤对生成器给予反馈,我们在评估下一个位置句子的时候应用了蒙特卡洛搜索来给出一篇完整的文章。
  • i i i 个生成器 G i G_i Gi 使用鉴别器 D ϕ D_{\phi} Dϕ 提供的反馈,采用REINFORCE算法的方式进行更新。生成器的目标是最大化期望的反馈。 R n R_n Rn 是一整篇长度为 n n n 的文章的反馈。 Q D ϕ G θ i ( s , a ) Q_{D_{\phi}}^{G_{\theta _i}}(s,a) QDϕGθi(s,a) 是一个序列的行动值函数,比如说,期望的累计反馈从状态 s s s 开始,之后采取行动 s s s,并且遵循 G θ i G_{\theta _i} Gθi的方式。
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

实验结果

训练EssayGAN和数据集

  • 对抗训练算法
    在这里插入图片描述
  • 数据集:ASAP数据集,8个话题(prompts)
  • 分数范围的处理:
    采用一个分区模型,将分数离散化为几个分区。比如,分数范围为0-60,将其离散化为5个分区0,1,2,3,4。

扩充文本的特征

  • 我们设置了两个baseline模型来做数据增强,来与EssayGAN做比较。 R a n d o m Random Random 是一个数据增强模型,它通过随机组合选择的句子来产生新文本。
  • 训练数据集中的每篇文本中的所有句子都被假设是有序编号的。 R a n d o m O r d e r Random_{Order} RandomOrder 通过以非降序的顺序收集句子来产生文本,来保证句子之间最低的连贯性。
  • 源文本数:如果一个新生成的文本的源文本数太多,那么它的内容一致性就会降低;
  • 句子逆序数:如果新产生的文本的句子逆序数很少,那么文本的连贯性就会更高。
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
  • 一个更加显式的指标来检验扩充文本的连贯性。语义相似度衡量了一篇文本内的语义相似度。
    在这里插入图片描述
    在这里插入图片描述

实验结果

  • 以下实验的目的是展示产生的文本作为训练数据是否对AES系统有用。
    在这里插入图片描述
    在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/46154.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

WSDM2023推荐系统论文集锦

嘿,记得给“机器学习与推荐算法”添加星标 第16届国际网络检索与数据挖掘会议WSDM将在2023年2月27日到3月3日于新加坡举行。今年此次会议共收到了690份有效投稿,最终录取篇数为123篇,录取率为17.8%。该会议历年的论文投稿量以及接收率可见下图…

创业者心中排名第一的VC,投资了OpenAI

我把时间花在工程师身上,向他们学习。所有这些真正聪明的企业家,他们头脑中始终构想着伟大的技术,这些人才是我的老师。 ——Vinod Khosla *本文为原创,写作目的为学习,信息来源为公开资料,不属于任何PR向文…

deepl翻译器中文版

使用教程: 1、将下载好的压缩包解压后根据提示安装好软件 2、安装完成之后,如图所示,点击Got it进入软件 3、在软件内输入你想要翻译的内容 4、可看到软件支持多种语言进行翻译,满足用户不同使用需求 5、在这里,用户…

探索ChatGPT技术在文本生成、机器翻译领域的简单应用

自然语言处理技术——文本生成 ChatGPT的应用领域越来越广泛,关于文本生成,我们可以使用Python中的文本生成库来实现。其中,最常用的是基于深度学习的文本生成模型,如循环神经网络(RNN)和长短时记忆网络(LSTM)。 可以使用Python中…

DeepL 或许会成为你今年首选的翻译工具

在没有知道 DeepL 之前,我都会推荐使用 Google Translate(谷歌翻译)进行翻译工作。因为相较于微软翻译,或是国内的网易有道、百度翻译,Google Translate 在语义以及专业名词上都要更胜一筹。但是大部分情况&#xff0c…

10款翻译引擎全面对比,别再无脑吹DeepL了,根本不好用!

最近在给自己收藏的一些本地歌曲文件手动加歌词的时候,遇到这样一句念白: It’s been a long time. Yes,ma’am. A lot of water under the bridge. 我去百度查了这句词,一眼就觉得不对啊,别人说好久不见,你回一个「…

一款优秀的翻译软件DeepL

最近,一款在线机器翻译软件在日本大火。 这款翻译软件名叫DeepL,大火的原因正是因为它工作太负责了,翻译得太过准确,在日本引起了热议。 从日本网友的民间测评来看,不仅日语方言翻译效果杠杠的,连文言文也…

程序员的需要掌握的数学知识

程序员的需要掌握的数学知识 人工智能跟开发 APP 、后台服务器、前端相比,人工智能需要大量的数学知识。一般都需要用到哪些呢? 微积分线性代数概率论最优化 关于书籍,特别说明一下,除非你是数学知识遗忘的特别厉害了,…

全网最详细中英文ChatGPT-GPT-4示例文档-读书书单推荐从0到1快速入门——官网推荐的48种最佳应用场景(附python/node.js/curl命令源代码,小白也能学)

从0到1快速入门读书书单推荐应用场景 Introduce 简介setting 设置Prompt 提示Sample response 回复样本API request 接口请求python接口请求示例node.js接口请求示例curl命令示例json格式示例 其它资料下载 ChatGPT是目前最先进的AI聊天机器人,它能够理解图片和文字…

使用 Python 进行网页抓取

如果您知道如何做到这一点,那么对于企业和个人使用来说,网络抓取似乎是一种非常有用的节省时间的工具。我们将重点介绍为什么您应该使用 Python 进行网页抓取,并为您提供有关如何完成它的快速教程,包括使用哪些Python 开发工具。 …

GPT-4太强,OpenAI也不懂!智能到底是怎么突然「涌现」的?

来源丨新智元 编辑丨LRS 点击进入—>3D视觉工坊学习交流群 2023年至今,ChatGPT和GPT-4始终霸占在热搜榜上,一方面外行人都在惊叹于AI怎么突然如此强大,会不会革了「打工人」的命;另一方面,其实内行人也不明白&#…

【视频课程】持续更新中!算法工程师如何从零掌握ChatGPT大模型

前言 自从2022年11月ChatGPT发布之后,迅速火遍全球。其对话的交互方式,能够回答问题,承认错误,拒绝不适当的请求,高质量的回答,极度贴近人的思维的交流方式,让大家直呼上瘾,更是带火…

GDOI2022游记

文章目录 Day -1Day 0Day 1Day 2Day 3()Day ?~?Day ? Day -1 考前好像写题状态不太好(可能是纯粹的懒)。 开始写板子,很多算法都很久没碰了,有的调了很久才过。树剖都调了一个多小时,身败名裂。不过想想省选应该不…

Web3.0与ChatGPT4如何开创未来创业机会?

随着Web3.0时代的到来,人们对于新一代互联网的期望越来越高,越来越多的企业开始关注区块链技术、人工智能技术和金融科技等方面的创新应用。在这个新时代的背景下,ChatGPT4作为最先进的自然语言处理技术之一,也将在未来创业机会中…

Virus Total 曝数据泄露大事件:涉及多国情报部门

The Hacker News 网站披露,可疑文件和病毒在线检测平台 VirusTotal 曝出数据泄露事故,一名员工无意中将部分 VirusTotal 注册客户的姓名、电子邮件地址等敏感数据信息上传到了恶意软件扫描平台,此举导致约 5600 名用户数据泄露。 据悉&#x…

深度学习博士自救指南

点击上方“AI遇见机器学习”,选择“星标”公众号 第一时间获取价值内容 来自|AI科技评论 编译 | 青暮、陈大鑫 关于如何攻读机器学习博士学位,这个嘛,主要是不要重蹈我的覆辙,哈哈。 你已经开始了博士的学习课程&…

NLP发展关键模型:BERT,GPT

文章目录 chat bot重大进展基于编码器的预训练模型word embeddingELMOBERT GPT:基于解码器的预训练模型GPT1:Improving Language Understanding by Generative Pre-Trainingfinetune如何实现实验 GPT2:Language Models are Unsupervised Multitask Learn…

GitHub更改username,注销账号的方法

小编很久之前就开始使用GitHub,那时候只要求能创建个账号,随便起了个username。 如今,随着GitHub深度使用,项目和粉丝都多了起来,对username也有了新的想法,毕竟username是显示在url里的。 方法&#xff…

[简易的网站登录注册,注销退出操作]

ml 数据库字段前端页面java处理信息 先看看最终效果吧 ;在登录提交时,前端页面会用JS点击事件判断; 1.首先判断的是账户框和密码框输入的是否符合规则(基本是判断不能为空,全部输空格是不允许的(用了字符串的trim()函数,将输入字符两边的空格去除,然后再判断),)然后就是密码不…

计算机账户注销重新登录,win10系统注销账户切换账号登录的方法

相信有很多用户在使用win10系统的电脑时经常需要切换账号进行登录,使用多个账号操作电脑的话可以对账号的一些权限进行限制,根据最高管理员对这些账户权限的分配可以限制某个账户对电脑进行某些操作,于是用户在使用的过程中就会遇到需要注销账…