V-Net 《Multi-Passage Machine Reading Comprehension with Cross-Passage Answer Verification》阅读理解笔记

V-Net 《Multi-Passage Machine Reading Comprehension with Cross-Passage Answer Verification》

这篇文章是发表在2018年ACL上的,是抽取式的。在微软发布的MS MARCO数据集和百度发布的中文数据集DuReader上得到了SOTA效果。

分以下四部分介绍:

  • Motivation
  • Model
  • Experiment
  • Discussion

1、Motivation

在MARCO和DuReader这样多文档的阅读理解当中,我们有可能会从多个passage中得到多个疑惑的答案候选(这些答案可能是正确的,也可能是错误的)。
人往往通过比较多个候选答案归结出最终答案,我们希望机器也可以。

为了解决这个问题提出了一个神经网络模型能够让答案选集去彼此验证。

下面是一个例子,答案1是不太好的;6是可以作为答案;3,4,5是可以佐证6的。(但是3,6好像是一样的,笑哭)
在这里插入图片描述

2、Model

模型是基于一个这样的假设。在候选里面大部分的候选答案都是和参考答案比较相似的。这样我们可以通过候选里面的语义相似性来佐证彼此。

2.1 overview

  • 输入:问题和文档
  • 输出:从某一篇文档中抽取的答案片段

在这里插入图片描述
该模型主要获得三部分的得分,然后把这三部分的得分乘起来,取一个最高的得分对应的那一个文档抽取的片段,作为最后的输出答案。

2.2 Answer Boundary Prediction

同样获得词向量和字符向量,通过双向LSTM获得问题和文章的表示。
在这里插入图片描述
在使用BI-DAF,获得融合问题的文章的表示。
在这里插入图片描述
然后类似的,使用一个指针网络去计算开始和结束位置的概率分布。
在这里插入图片描述
t 表示指针网络的某个时刻,k 表示某个词。 V k P V_k^P VkP 这个P 也没有角标,是指passage的concatenation还是指一篇文档。(我觉得看图把,就是一篇文章一个预测的位置,在计算loss的时候,把所有的log似然损失都加起来。)

文章说道:It should be noted that the pointer network is applied to the concatenation of all passages, which is denoted as P so that the probabilities are comparable across passages.
指称网络应用到所有文章的串联,不太理解。难道不应该是每一个段落都会预测一个位置吗?

2.3 Answer Content Modeling

定位了候选答案之后,为了执行候选答案之间的验证,我们需要去得到候选答案表示。通过下面这个公式计算某个词的概率:
在这里插入图片描述
其实就是对每个词进行二分类。

为了能够去更好的训练,如果这个词在参考答案当中出现了,那么他的标签是1,否则0。这样我们可以算一个损失函数:在这里插入图片描述
算到概率之后,我们可以用这个概率和词向量做一个加权求和得到候选的表示。
在这里插入图片描述

2.4 Cross-Passage Answer Verification

得到表示之后下面感觉上就像是做了一个self attention。用每一个表示彼此去做一下点积,然后计算得分。
在这里插入图片描述
类似于attention的原理,将得分和表示做加权求和。得到了一个新的表示记为 r ~ A j \widetilde r^{A_j} r Aj

然后将这个表示和表示过一个全连接:
在这里插入图片描述再进行归一化得到候选答案的得分:
在这里插入图片描述
训练时计算log似然:
在这里插入图片描述

2.5 Joint Training and Prediction

Training

将上面三个部分的损失联合进行训练,实验证明效果也比较好:
在这里插入图片描述
Prediction

在预测的时候首先可以算到一个边界的得分,第2部分每一个词的概率求平均以及最后一部分的得分。把这三部分的得分乘起来,然后选最大的那个对应的片段作为答案。

3、Experiment

1、先用斯坦福的NLP工具进行预处理,并且选择有着Rouge最高得分的片段作为参考答案。

2、在训练过程当中提出了两个有效的方法。第1个方法是针对英文数据集,通过训练一个简单的是/否分类器去回答那些有着特定模式的问题。
第2个方法是针对中文数据集,因为该数据集的段落非常的多,原始论文的使用一个简单的启发式规则,选择一个有代表性的段落。我们则是去训练一个段落排序模型(PR)。
在这里插入图片描述
在这里插入图片描述

3、从下面实验结果来说也可以说明,答案的内容确实和得分是在一定程度上有所联系的。对于那些彼此语义相似的答案,如3,4,6,在验证模型上的得分都比较高。
在这里插入图片描述
4、答案候选往往有着相同的边界,如果用边界模型直接计算概率的话,那么所有的候选答案的Content probability就一样了,也无法分辨这些候选答案。从图中也可以看到,content model还是很有必要的。
在这里插入图片描述

4、Discussion

优点:

  • 充分的利用了候选答案的信息,在答案验证模型借鉴了gate self attention思路。
  • 运用三个模块,不仅仅有边界模型,而且对文章的内容去进行建模还在此基础上对答案候选相互验证。
  • 通过多任务学习是相互的促进而不是分开训练。

缺点:

  • 缺点就是回答的问题一定是有多个候选答案的集合。否则的话没有办法进行cross passage answer verification(就是说每篇文档最后都有答案的相关部分,可以是错的,但是一定要多数都是正确答案)

问题就是这个,上面说过。
文章说道:It should be noted that the pointer network is applied to the concatenation of all passages, which is denoted as P so that the probabilities are comparable across passages.
指称网络应用到所有文章的串联,不太理解。难道不应该是每一个段落都会预测一个位置吗?

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/63342.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

掌握这15个可视化图表,小白也能轻松玩转数据分析

大数据时代,数据驱动决策。处理不好庞大、复杂的数据,其价值将大打折扣。 那如何缩短数据与用户的距离?让用户一眼Get到重点?让老板为你的汇报方案鼓掌? 本文通过连环15关,层层深入,传你数据匹…

几种可视化数据分析图表的使用

图表简洁大方、一目了然,利用图表工具就能轻松实现,是数据分析中常采用的方式。今天利用在雀书无代码平台搭建的图表来介绍几种常见数据分析图表的使用。 1. 柱状图 柱状图可以显示一段时间内的数据变化或显示各项之间的比较情况,主要使用颜…

数据分析——可视化图表

1、柱状图 展示多个分类的数据变化和同类别各变量之间的比较情况。 适用:对比分类数据(比较不同的数值)。 局限:分类过多则无法展示数据特点。 相似图表: 1)堆积柱状图。比较同类别各变量和不同类别变量…

掌握这6个可视化图表,小白也能轻松玩转数据分析

今天我们来说一说数据可视化,想必很多人在入门数据分析之后,就会经常进行可视化的工作,所谓一图胜千言,图表用的好,真的是会事半功倍的。但现实情况下,很多人遇到的问题是: 你做的图表太丑了&am…

excel数据分析 - 13个图表可视化技巧

目录 一、对比分析类图表 1 漏斗图 2 指标完成度 3 完成度对比图 4 滑珠图 5 仪表盘 6 跑道图 二、分布分析类图表 1 旭日图 2 瀑布图 3 气泡图 4 箱形图 5 旋风图 三、图表优化 1 添加底部数据表 2 更改条形图的样式 ① 操作说明 ② 应用-五星级图制作 一、…

数据分析--Excel数据可视化(图表)

Excel组成元素 Excel图表类型与用途 饼状图(个体占总比的时候选择使用) 案例1:地区/销售额---》饼状图 方案:(1)生成图表:选中---》插入---》二维饼图(2)数据显示:➕---》数据标签--…

数据分析利用pyechart套模版制作图片,解决数据轻松出图!

pyechart 官网地址:pyecharts - A Python Echarts Plotting Library built with love. 柱状图: from pyecharts.charts import Bar from pyecharts import options as opts # 内置主题类型可查看 pyecharts.globals.ThemeType from pyecharts.globa…

Excel数据分析(八)图表

一,图表的理论基础 1,什么情况下需要用到图表 1)为了揭示数据规律时,可以用图表,比纯数据的文本更形象。 2)需要用数据说服他人 3)为了展示专业素养,可以参照一些国际知名出版社…

60 种数据图表,制作工具和使用场景(建议收藏)

来源:数据分析1480 全文共 9459 个字,建议阅读 15 分钟 可视化图表种类如此之多,什么场景下应该用什么图表展示,是一个让人头秃的难题。 数据可视化的爱好者Severino Ribecca,他在自己的网站上收录了 60 种可视化图表样…

33种经典图表类型总结,轻松玩转数据可视化

导读:随着时代的发展,越来越多的数据量堆积,然而这些密密麻麻的数据的可读性较差并且毫无重点,而数据可视化更加直观有意义,更能帮助数据更易被人们理解和接受。 因此运用恰当的图表实现数据可视化非常重要&#xff0c…

图表数据分析怎么做,举实例给你说清楚

现在工作离不开图表数据分析,但是图表数据分析却容易出错。而且容易出现错误的地方不是在对数据的处理上,而是在对图表的选择上。 要正确的做好图表数据分析就要选择合适的图表再进行分析。下面跟大家说说怎么解决这个难题,做好图表数据分析&…

Excel数据分析之图表

目录 图表基本结构 图表的分类 一、图表的基本结构 组成元素 Excel图表类型与用途 二、 图表的分类 柱形图 介绍:在竖直方向比较不同类型的数据 适用场景:用于二维数据集,对于不同类型的数据进行对比,也可用于同一类型的数据在不同…

四.数据关联性分析

数据关联分析用于挖掘数据对象之间的关系,例如啤酒和尿布的案例 一.基本概念 通过实例认识项集,支持度,频繁项集,关联规则,置信度,强关联规则,支持度,置信度 运动器的历史购买数据 TID网球拍网球运动鞋羽毛球111102110031000410105011161100 TID: 表示每一次购物单的序号0…

不同数据类型的相关性分析总结

在进行数据建模之前,我们一般会进行数据探索和描述性分析,发现数据规律及数据之间的相关性,本文主要从检验方法和可视化图形两个方面对不同数据类型的相关性分析方法进行总结,以加强对数据的了解和认识,为建模打下基础…

(9)数据分析-相关性分析

文章目录 1、运用场景2、图形描述相关性2.1使用场景2.2 代码实现2.3 效果呈现 3、正态资料相关性分析3.1 使用场景3.2 皮尔森相关系数3.3 代码实现3.4 结果分析 4、非正太资料的相关分析4.1 使用场景4.2 斯皮尔曼等级相关系数4.3 代码实现4.4 结果分析 1、运用场景 相关性分析是…

数据分析之数据相关性分析

相关性分析 作者:学者科技 时间:2022/12/25 应用场景 发现数据之间的关联性 比如 啤酒 和 尿布 删减统计指标 比如 城市里的温度传感器,相关性强的可以去掉以节约成本 挑选回归建模的变量 选择与因变量相关性高的自变量自变量间如果有高度…

数据特征分析技能—— 相关性检验

数据特征分析技能—— 相关性检验 相关性分析是指对两个或多个具备相关性的变量元素进行分析,从而衡量两个变量因素的相关密切程度 一般常用四种方法: - 画图判断 - pearson(皮尔逊)相关系数 - sperman(斯皮尔曼&a…

印刷品的排版技巧

印刷品的精美离不开精美的排版,排版设计能够让书本杂志标题规整好看。随着设计素材的丰富,现在设计师可以有越来越多的选择,不过有时候过多的元素在设计并不能起到画龙点睛的作用,相反经常会发现一些排版设计十分杂乱,…

微信公众号排版方法及相关素材网站

作者:杨坤龙 链接:https://www.zhihu.com/question/23640203/answer/375921114 来源:知乎 著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。 关于排版 前段时间我发了条朋友圈:有哪些东西是你…

关于文案排版的一些基本技巧

一、主文案 1. 什么是主文案 关于首页,会涉及到主文案,副文案,装饰性文案等。一个文案中最重要的是主文案,所谓主文案就是你想突出什么,什么就是主文案,主文案一般就是口号类的,标语&#xff0c…