Semantic Text Matching for Long-Form Documents(长格式文档的语义文本匹配)笔记

ABSTRACT

1、大多数现有的语义文本匹配方法在此设置中取得的成功有限,因为它们无法从长格式文本中捕获和提取主要思想和主题。

2、提出了SMASH RNN,综合了来自不同文档结构级别的信息,包括段落、句子和单词。基于注意力的分层 RNN 导出每个文档结构级别的表示。然后,将从不同级别学习的表示聚合起来,以学习整个文档的更全面的语义表示。对于语义文本匹配,连体结构耦合一对文档的表示,并推断概率分数作为它们的相似性。

3、通过三个实际应用对SMASH RNN进行了广泛的实证评估,包括电子邮件附件建议,相关文章推荐和引文推荐。

1 INTRODUCTION

语义匹配的困难有两个方面:

第一,单词和短语的语义可能是模棱两可的;

第二,当文本较长时,单个单词,短语和句子的语义可能被埋在复杂的文档结构中。

网络搜索使用短源查询,同时针对长格式文档; 在左下方,像Twitter搜索 这样的短文本检索任务使用短源查询,并针对短文档; 在右下方,像情感分析这样的文档分类任务旨在将长格式文档分类为一组有限的类。图的右上部分在语义文本匹配设置中探索的相对较少,并且,正如我们经验证明的那样,当源和目标文档变长时,许多先前提出的语义匹配方法会恶化。这提出了一个重要的研究挑战,因为长格式文档的语义文本匹配可以使无数应用程序受益,例如相关文章推荐,电子邮件附件建议,引文推荐等。 

现有的深度学习方法显着提高了语义文本匹配的领域,但它们主要集中在短文档上,并且在处理长格式文档时存在明显的缺陷。首先,核心主题或想法可能很难从长篇文档的复杂叙述中识别和提取。以前的一些研究利用注意力机制从句子中提取重要的单词,但是有价值的信息仍然可以在长篇文档中的大量句子和段落中被稀释。其次,尚未考虑到长格式文件的复杂结构信息。大多数现有方法都依赖于单词级知识来计算文本相似性。诸如句子和段落之间的关系之类的结构信息通常被忽略。第三,文档的语义可能会在漫长的叙述过程中漂移。例如,在多个段落的范围内,找到作者在一系列主题中移动的文档并不少见。RNN或CNN都不能自然地捕捉或遵循这样的语义漂移。基于RNN的方法可以通过顺序处理具有不同语义的句子来获得令人困惑的文档表示。当尝试汇集和过滤不同的语义时,基于CNN的方法可能会恶化。

自然语言文档一般遵循层次结构,以帮助人们阅读和理解它们。因此,利用这些结构来训练机器学习模型至关重要,该模型可以完全捕获长格式文档的语义。最一般地,文档可以表示为段落,句子和单词序列的层次结构。文档中的不同段落和句子可以具有不同的语义含义和重要性。与这项工作最相似的研究是使用句子级信息进行文档分类。正如我们将在实验部分中显示的那样,对于长格式文档,基于句子级别的文档表示仍然不能令人满意,因为同一文档中的句子可能与不同的重要性和不同的语义相关联。相反,对文档结构的深刻理解可以有效地促进语义文本匹配。

在本文中,我们提出了基于 Siamese 多深度注意力的分层 RNN(SMASH RNN)来解决长格式文档语义匹配的问题。在连体网络的two-tower结构下,所提出模型的每个tower都是一个多深度的基于注意力的分层RNN(MASH RNN)。MASH RNN作为我们模型的主要组成部分,可以导出全面的文档表示来自多层次的文档结构。例如,文档的单词、句子和段落级别的知识可以通过三个不同深度的基于注意力的分层 RNN 导出。为了生成全面的文档表示,MASH RNN 连接所有这些文档级别的表示,旨在捕获具体的低级别观察和抽象的高级见解。结合来自 MASH RNN 的源文档和目标文档的文档表示,SMASH RNN 根据源文档和目标文档的表示以及一个额外的全连接层来估计语义匹配分数。

        我们的贡献可以总结如下:

         •     据我们所知,本文是在改善长格式文档语义文本匹配模型的最新性能的背景下,广泛利用文档结构以实现更好的文档表示的第一项工作。

        •  我们提出了用于长格式文档语义文本匹配的SMASHRNN框架。MASH RNN是SMASH RNN的主要组件,它从文档结构的多个抽象级别学习文档表示。

        •  在三个不同应用程序的公开可用数据集上进行了实验: 电子邮件附件建议,相关文章推荐和引文推荐。实验结果证明了smash RNN的有效性。我们还提供了深入的实验分析,以证明我们提出的框架的鲁棒性。

3 SEMANTIC TEXT MATCHING FOR LONG-FORM DOCUMENTS WITH SMASH RNN

3.1 Problem Statement

我们假设层次结构分为三个级别-段落,句子和单词。图2给出了文档d具有不同深度的层次结构的图示。d中的单词可以拟合为三个层次结构,即Wp,Ws和ww,深度3 (段落级),深度2 (句子级),和深度1 (单词级别) 分别。更准确地说,Wp (k,j,i) 是第k段第j句中的第i个单词,给定了段落级别; Ws (j,i) 是第j个句子中的第i个单词,给定句子级别的层次结构; Ww (i) 是深度为1的单词级别的第i个单词,这只是一个长序列。三个不同层次结构中的底层单词完全相同,而它们的注释根据层次深度和文档结构而不同。

3.2 Framework Overview

图3和4说明了我们提出的基于Siamese多深度关注的分层RNN (SMASH RNN) 的框架。在Siamese结构下,每个SMASH RNN都有两个基于多深度注意力的分层RNN (MASH RNN) 塔。对于每个文档,MASH RNN根据来自不同文档结构级别的知识得出信息表示。对于每个级别,基于注意力的分层RNN (具有相应的级别深度) 被构造为编码器,以生成该级别的表示。例如,段落级编码器使用深度3编码器生成段落级表示,而句子级编码器使用深度2编码器生成句子级表示。然后通过连接不同级别的表示来获得最终的文档表示,全面覆盖所有文档结构级别的知识。为了估计语义文本匹配的语义相似性,SMASH RNN采用带有两个MASH RNN塔的暹罗结构。给定由MASH RNN为源和目标文档生成的表示形式,具有非线性的全连接层推断概率得分,以检查具有sigmoid函数的两个文档之间的语义关系 [34]。

 3.3 MASH RNN for Document Representation

我们将重点放在三个层次的文档结构上——段落、句子和单词层次。

MASHRNN中编码器的计算遵循自下而上的原则,并带有双向递归神经网络 (bi-rnn)。以段落级编码器为例。给定段落级层次结构中第k段中的第j个句子,我们首先通过单词嵌入层将句子中的单词嵌入到向量中,如下所示:

单词级:

 Lp ,k,j是句子的长度,单词嵌入层emb(·) 将单词嵌入到带有嵌入矩阵的向量中。要对句子进行编码,bi-rnn会在前向传递和后向传递期间读取嵌入向量的序列。在前向传递中,bi-rnn创建了一系列前向隐藏状态

 计算单词注意

 句子级:

 计算句子注意力

段落级: 

计算段落注意力:

 最终结果:

 3.4 SMASH RNN for Semantic Text Matching

估计源文档ds和候选文档dc之间的语义相似性的SMASH RNN的结构,给定ds和dc,它们是MASH RNN对两个文档生成的表示,最终的特征向量可以表示为xf = [ds ;dc]。

3.5 Learning and Optimization

损失函数:

 4 EXPERIMENTS

5 CONCLUSIONS

(1) 长格式文档的语义文本匹配具有影响力,具有许多有用的应用;

(2) 分层文档结构的使用对于语义文本匹配至关重要,尤其是对于长格式文档的建模;

(3) SMASH RNN可以准确地捕获长格式文档的复杂语义,即使重要消息可能发生在文档结构的任何位置以及任何级别。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/65967.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

有哪些科研人员看文献必用的软件?

你可曾因为在电脑上找不到某篇已读文献而急躁? 你可曾因为向手机、平板一篇篇传输文献而厌倦? 你可曾因为检索各网站找不到想要的论文而烦恼? 如果答案是: 有、是、甚至想砸电脑 !那今天推荐软件一定合您口味&#xff…

让ChatGPT告诉你如何学习SAP FICO模块的系统知识

文章目录 目录 文章目录 SAP FICO模块介绍 ChatGPT介绍 想要了解SAP系统的FICO模块,如何学习 学习FICO模块,有哪些步骤 学习FICO模块,需要哪些基础知识 学习FICO模块,有哪些注意事项 总结 SAP FICO模块介绍 FICO&#x…

光凭验证码就可以盗号!微信盗号新手段揭秘

 光凭验证码就可以盗号!微信盗号新手段揭秘 91.com移动互联网第一平台 时间:2014-06-30 [网站合作] 快速评论 分享到QQ好友新浪微博91娱乐 目前有一种新型盗号方式即骗取用户手机验证码来盗取用户微信QQ等帐号,从…

不用下载应用也能联调信息流广告?

在日常的投放当中,我们总会经常遇到需要联调广告来确认数据回传是否正常,因此在需要经历下载应用——安装——激活——注册——付费等一系列过程来进行每个事件的确认,单纯下载安装还可以,但是每次都需要付费的话,对我…

常见信息流广告有哪些展现形式

信息流广告指的是通过精准的用户标签定向,将广告内容嵌入到产品生态之中,做到不打扰用户的广告体验,激发用户对广告的主动性,促使其主动接受和分享。信息流广告与传统的展示广告在展现样式上最大的区别就在于传统的展示广告有固定…

什么是信息流?如何投放信息流广告?如何收费?

什么是信息流?如何投放信息流广告?如何收费?什么是信息流?如何投放信息流广告?如何收费?什么是信息流?如何投放信息流广告?如何收费? 随着互联网的发展,信息时代已经到来,信息流广告逐渐得到众多广告主的青睐。 进行广告投放,不仅需要投入大量的精力,还要投入一…

信息流广告投放的技巧

随着互联网的发展,信息时代已经到来,信息流广告逐渐受到众多广告主的青睐。 做广告,不仅需要投入大量的精力,还需要一定的资金,花这么多,自然是要收获不错的收益。广告主在广告信息流的时候都追求高ROI&am…

网络文化与伦理【0948】

1、网络伦理规约的具体原则有哪些? 2、简述网络文化霸权带来的伦理问题及其对策。 3、学校网络道德教育的基本途径有哪些? 随着网络的普及,网恋已越来越成为一种普遍的现象,人们对网恋的态度也褒贬不一。然而,网络是…

IT伦理与道德

1.个人隐私问题 个人隐私包括传统的个人隐私和现代个人数据。传统的个人隐私有姓名,出生年月,身份证编号,婚姻家庭,教育等。现代个人数据有用户名和密码,IP地址等。合理合法的隐私应受到保护。在计算机时代&#xff0c…

IT道德与伦理

IT道德与伦理 “在这样一个高科技、高技术的时代,关于对IT的探讨永远是不可以回避的问题。。。” 一、个人安全隐私 在说起这一点的时候,很多人或许没有什么感觉,但是我举个例子你就能够明白现在个人隐私的安全程度了。 例子:当…

非暴力沟通:简介及内容导航

目录 1. 简介1.1. 非暴力沟通(NonViolent Communication, NVC)1.2. 异化的沟通方式1.2.1. 评价1.2.2. 强迫 2. 四元素3. 倾听4. 场景5. 博主对《非暴力沟通》的读后感 1. 简介 1.1. 非暴力沟通(NonViolent Communication, NVC) …

IT的道德与伦理

首先,我们先谈下IT的道德。 什么是IT道德,怎么理解职业道德在工作中的应用。 对于各行各业都有它的行为准则和道德底线,对于IT行业来说它的道德准则在于一下几点。 1:创新 创新在于不抄袭别人的创意,出于对他人的尊重…

IT 伦理与道德

在1942年的短篇小说中,科幻作家Isaac Asimov提出了机器人的3条准则——工程安全措施和内置的道德准则,以保证机器人会友善对待人类并使人们免于机器末日。这些准则一是机器人不能伤害人类,或无所作为而导致人类受伤害;二是机器人必…

chatGPT的基本工作原理

chatGPT是一个基于人工智能技术的聊天机器人,其基本工作原理是通过深度学习模型意识和能力来模拟人类的语言交互,并利用历史上大量的开源文本数据进行训练,以实现聊天机器人的语言生成与理解。北京木奇移动技术有限公司,专业的软件…

借助Google搜索找客户和邮箱

怎么用Google怎么找客户呢? 通过Google找客户,是外贸人绕不开的一个话题,公司没有平台,没有展会,仅靠业务员找客户的话,那Google就是一个很好的工具。想要通过Goolge搜索去主动开发客户的话,重…

英特尔不为人知的 B 面

从 PC 时代至今,众人只知在 CPU、GPU、XPU、制程、工艺等战场中,英特尔在与同行硬件芯片制造商们的竞争中杀出重围,且在不断的成长进化中,成为全球知名的半导体公司。殊不知,在「刚硬」的背后,英特尔「柔性…

一口气说出 OAuth2.0 的四种授权方式,面试官会高看一眼

本文收录在个人博客:www.chengxy-nds.top,技术资源共享,一起进步 上周我的自研开源项目开始破土动工了,《开源项目迈出第一步,10 选 1?页面模板成了第一个绊脚石 》 ,密谋很久才付诸行动&#x…

国际植物基博览会将首次亮相上海;伊利刷新中国乳业在东南亚投资纪录 | 食品饮料新品...

伊利、百事、百威亚太、国际植物基博览会、索迪斯等企业最新动态。 新店开业 北京西南华邑酒店“簋”现代融合火锅店即将开业 即将于2021年12月31日新开业的“簋”现代融合火锅餐厅突破传统火锅概念,将中式火锅体验升级至富有当代时尚感的全新高度。这种传统北京人喜…

中国半导体企业IPO激增;英特尔拆分显卡业务部门;特斯拉将开启新一轮裁员丨每日大事件...

‍ ‍数据智能产业创新服务媒体 ——聚焦数智 改变商业 01.中国半导体企业IPO激增 中国的芯片公司正处于一波IPO热潮中。截至12月15日的一年,生产芯片或芯片制造设备的公司通过国内IPO筹集了约合120亿美元资金,几乎是2021年的三倍。此外,该行…

雷克萨斯全球首发新纯电车型RZ;中国海油正式登陆A股 | 美通企业日报

美通社要闻摘要: LEXUS雷克萨斯全新纯电车型RZ全球首发。LG和麦格纳合资墨西哥新工厂计划2023年投入使用。Novavax新冠疫苗在日本获批。富士胶片AI技术可预测认知症是否会进展为阿尔茨海默病。此芯科技获顺为领投超亿元天使轮融资。飞利浦磁吸轨道系列全新上市。中国…