基于《知网》的词汇语义相似度计算以及复现

基于《知网》的词汇语义相似度计算复现源码:点击下载
源来自gittub:https://github.com/daishengdong/WordSimilarity

问题描述:
“西红柿”和“茄子”这两个词,基于字面检测相似度为0,但是我们都知道它是一个东西,所以引入基于语义的相似度检测。1

1.语义相似定义

两个任意的词语如果在不同的上下文中可以相互替换且不改变文本的语义的可能性越大,那么两者之间的相似度就越高,否则相似度就越低。2

2.语义距离

定义:数值在0到正无穷,0表示相似度为1,正无穷表示相似度为0。

检测方法:
1.基于世界知识。根据世界知识方法一般是利用一部同义词词典来计算词语语义距离,现在常用的同义词词典有同义词词林、WordNet 和 HowNet 等,其中同义林词林和 WordNet 都是将所有的概念归结到一个树状的概念层次体系中,而 HowNet 是将用来描述概念的义原组织在多棵树状的层次体系中,处于同一棵树状图中的任意两个节点之间有且只有一条可达路径,因此,两个概念之间的语义距离就可以通过这条可达路径的长度来表示。

2.基于大规模语料库。根据词汇上下文信息的概率分布计算词语语义相似度,该方法所计算得到的词语语义相似度结果精确度较高,但是计算量比较大,计算方法也比较复杂,因为该方法需要依赖于训练所用的语料库,此外,由于数据稀疏和数据噪声等因素对基于统计的方法干扰较
大,故该方法一般很少使用。

3.知网(Hownet)简介

知网是由机器翻译专家董振东借助计算机建立的一个基于知识的系统,创建知网的本意是为了解决机器翻译的问题,它是一个以汉语和英语词语所代表的概念为描述对象的知识库和常识库。

知网中主要包含义项和义原两个概念。
义项(概念):对词语语义的一种描述。例如“组织”这个词,其义项为‘组织’活动这个动词以及世界卫生‘组织’这个名词等。
义项(概念)组成,即三元组:〈W_X = 词语 G_X = 词语词性 DEF = 概念定义〉(表达一个词语的其中一个意思
义原是用于描述义项(概念)的最小意义单位。2
一个义项(概念)由多个义原构成。

《知网》的知识描述语言2

《知网》对概念的描述是比较复杂的。在《知网》中,每一个概念用一个记录来表示,如下所示:
NO.=017144
W_C=打
G_C=V
E_C=~ 网球, ~ 牌,~ 秋千,~ 太极,球~得很棒
W_E=play
G_E=V
E_E=
DEF=exercise|锻练,sport|体育
其中NO.为概念编号,W_C,G_C,E_C分别是汉语的词语、词性和例子,W_E、G_E、E_E分别是英语的词语、词性和例子,DEF是知网对于该概念的定义,我们称之为一个语义表达式。其中DEF是知网的核心。我们这里所说的知识描述语言也就是DEF的描述语言。
在这里插入图片描述
注:表中描述符号含义可以参考2

在这里插入图片描述
每个义原是有层次结构的。

4.基于《知网》的语义相似度计算方法

4.1.把词语相似度等价于第一独立义原的相似度。

优点:简单。
缺点:没有充分利用知网的其他语义。

4.2.词语语义相似度计算

思路:比较两个词语所有概念的相似度,找出最相似的那个。
注:考虑的是独立词语,如果有上下文,则可以排除一些概念在比较。

4.3.义原相似度比较

由于所有的概念都最终归结于用义原(个别地方用具体词)来表示,所以义原的相似度计算是概念相似度计算的基础。
在这里插入图片描述

其中p1和p2表示两个义原(primitive),d是p1和p2在义原层次体系中的路径长度,是一个正整数。α是一个可调节的参数。

缺点:1)只利用了义原的上下位关系,可以考虑其他关系,如:具有反义或者对义关系的两个义原比较相似,因为它们在实际的语料中互相可以互相替换的可能性很大。2)一些义原可能再出现具体词(概念),容易造成无限递归,增加算法复杂度。
解决2):
具体词与义原的相似度一律处理为一个比较小的常数(γ);
具体词和具体词的相似度,如果两个词相同,则为1,否则为0。

4.4虚词概念的相似度的计算

我们认为,在实际的文本中,虚词和实词总是不能互相替换的,因此,虚词概念和实词概念的相似度总是为零。
由于虚词概念总是用“{句法义原}”或“{关系义原}”这两种方式进行描述,所以,虚词概念的相似度计算非常简单,只需要计算其对应的句法义原或关系义原之间的相似度即可。

4.5实词概念的相似度的计算

思路:
假设两个整体A和B都可以分解成以下部分:A分解成A1,A2,……,An,B分解成B1,B2,……,Bm,那么这些部分之间的对应关系就有m×n种。问题是:这些部分之间的相似度是否都对整体的相似度发生影响?如果不是全部都发生影响,那么我们应该如何选择那些发生影响的那些部分之间的相似度?选择出来以后,我们又如何得到整体的相似度?
我们认为:一个整体的各个不同部分在整体中的作用是不同的,只有在整体中起相同作用的部分互相比较才有效。例如比较两个人长相是否相似,我们总是比较它们的脸型、轮廓、眼睛、鼻子等相同部分是否相似,而不会拿眼睛去和鼻子做比较。
对于实词概念的语义表达式,我们将其分成四个部分:
1)第一独立义原描述式:我们将两个概念的这一部分的相似度记为Sim1(S1,S2);
2)其他独立义原描述式:语义表达式中除第一独立义原以外的所有其他独立义原(或具体词),我们将两个概念的这一部分的相似度记为Sim2(S1,S2);
3)关系义原描述式:语义表达式中所有的用关系义原描述式,我们将两个概念的这一部分的相似度记为Sim3(S1,S2);
4)符号义原描述式:语义表达式中所有的用符号义原描述式,我们将两个概念的这一部分的相似度记为Sim4(S1,S2)。

分成的部分各自比较,按照第一义原权重最高,其余各自对应添加权重进行比较。具体参考2


  1. 李蕾, 大数据环境下相似重复记录数据清洗关键技术研究, 2019, 南京邮电大学. ↩︎

  2. 刘群, 李素建. 基于《 知网》 的词汇语义相似度计算[J]. 中文计算语言学, 2002. ↩︎ ↩︎ ↩︎ ↩︎ ↩︎

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/48635.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

知网的html查重报告看不了,知网查重报告单怎么看

当我们使用 一、 知网查重报告单是以网页形式(或PDF,PDF还是网页,知网论文检测系统随机)呈现的。报告初稿知网论文检测系统有1-2份;定稿知网论文检测系统有四份,这四份检测报告分别从4个角度来呈现检测结果,如下图所示…

知网查重报告html乱码,知网查重报告出现乱码怎么办

在提交知网查重后,知网系统完成检测,将提示详细的知网查重报告,小伙伴拿到知网查重报告后,可以打开查阅报告,同时根据报告里的内容进行有针对性的修改和降低重复率。 不过有的小伙伴也会碰到一些问题,比如知…

知网海外版(硕博论文pdf下载方式)

CNKIhttps://oversea.cnki.net/index/进入该网站后输入要下载的硕博论文名,即可下载到pdf格式的文件。

中国知网系统的结构服务器,中国知网数据库网络版和本地镜像的不同之处

通常,CNKI数据库中的学生可能会在生活中多听一些,但是CNKI数据库的子网版本和镜像版本可能不太清楚,或者他们可能不知道镜像版本是什么,所以今天小编会给你带来一个具体的理解。 镜像知网查重数据库和本地映像有什么区别&#xff…

知网搜论文没有服务器响应,CNKI知网论文检测使用中的十四个常见问题

原标题:CNKI知网论文检测使用中的十四个常见问题 1、初检段落A未发现抄袭,复检的时候A段怎么又发现抄袭了? 这是因为系统设置的阈值有关,大概3%左右的阀值;也就说每次大概3%左右重复内容不能检测出来,也就不会标红,当再一次测时,字符的变动,引起算法改变,原来阀值内的…

如何检测文档里含有非英字符_知网检测失败的原因是什么

毕业时,同学们在检测知网的时候总会遇到各种问题。例如:提交时系统显示文件过大,导致上传失败、出现检测失败的情况。 大部分同学们都是初次接触知网,对知网检测并不是很了解,下面小编给同学们分析一下为什么知网会检测…

paperpass与知网检测有什么区别?

首先我们先看下paperpass的检测库包含哪些: 总体:总体相似度是指本地库,互联网的综合比对结果 本地库:本地库相似度是指论文与学术期刊,学位论文,会议论文数据库的比对结果 互联网:互联网相似度…

知网查重提交论文显示服务器错误,知网查重时显示检测失败是什么原因?

无论是毕业抑或是评职称升职,写论文基本都成了标配,而论文重要又是毕业论文或者发表前必经的一个步骤,在国内无论是高校还有杂志社,95%以上都是使用知网查重,在使用知网查重的过程中,同学们经常会遇到检测失…

只要学会这些AI工具,一个人就是一家营销咨询公司

本教程收集于:AIGC从入门到精通教程 只要学会这些AI工具,一个人就是一家营销咨询公司 随着AI工具的不断涌现,您只需掌握市面上热门的AI工具,便可独自开展营销咨询公司。通过一系列AI工具,您可以为企业提供全案服务,收获丰厚回报。 例如,在协助一家美妆初创公司出海时,…

【报告分享】2023微博美妆用户趋势观察手册:“试”着发现美.pdf(附下载链接)...

省时查报告-专业、及时、全面的行研报告库 省时查方案-专业、及时、全面的营销策划方案库 【免费下载】2023年3月份热门报告合集 【限时免费】ChatGPT4体验,无需翻墙直接用 ChatGPT调研报告(仅供内部参考) ChatGPT的发展历程、原理、技术架构…

最新转转闲鱼源码 带后台和教程

带一款非常简洁好看的后台。 搭建教程:修改数据库账号密码直接使用。 源码下载:下载地址 网盘下载地址:https://pan.baidu.com/s/19iOsoyK-J-Rhi2dZYqzMMg?pwdiumr 提取码:iumr

转转闲鱼源码搭建【带后台管理】

教程:修改数据库账号 程序下载:下载地址

2023 最新闲鱼自动收货源码

资源简介 搭建很简单 上传源码解压 php版本7.4 不需要数据库。。 后台路径:域名/admin 后台账号:admin 后台密码:123456

彻底搞懂标准盒模型和怪异盒模型

一:标准盒模型:box-sizing:content-box; 1:首先强调一点:这个盒子真正的的大小是由文本区域content内边距padding和边框border组成。 但在标准盒模型的代码中的with和height是只指向content的大小不包含padding和border的。我们…

标准盒模型与怪异盒模型的区别

文章目录 前言一、标准盒模型二、怪异盒模型三、css样式四、测试代码总结 前言 盒模型本质上是一个盒子,封装周围的HTML元素,它包括:边距,边框,填充,和实际内容。它允许我们在其它元素和周围元素边框之间的…

标准盒模型和怪异盒模型的区别及box-sizing应用场景

一:标准盒模型和怪异盒模型的区别 标准盒模型:这种盒模型设置width的时候的值是内容区的宽度,如果再设置padding和margin,border的话盒子的实际宽度会增大 怪异盒模型:这种盒子的width设置的值为盒子实际的宽度,border和padding的设置不会影响盒子的实际宽度和高度 如下实验: …

标准盒子模型和怪异盒子模型

标准盒子模型和怪异盒子模型 一、概念二、计算方法三、默认盒模型四、盒模型转换五、演示代码六、总结 今天来为简单介绍一个在HTMLCSS中的一个重要概念:标准盒子模型和怪异盒子模型。 一、概念 标准盒模型采用的W3C标准,盒子的content内容部分由width宽…

标准盒模型和怪异盒模型的区别?

什么是怪异盒模型?今天我帮大家整理一篇详细的有关于标准盒模型和怪异盒模型的区别在哪里。 首先要知道,什么是盒模型? 盒模型是css布局的基石,它规定了网页元素如何显示以及元素间相互关系。css定义所有的元素都可以拥有像盒子一…

【什么是盒模型】标准盒子模型、怪异盒子模型

一、上图 标准盒子模型 和IE盒子模型 什么是盒子模型 CSS盒子模型(Box model)就是在网页设计中经常用到的CSS技术所使用的一种思维模型。网页中所有元素都具备以下四个属性: 内容(content),也就是元素的 width、height内边距(pa…

标准盒模型和怪异盒模型有哪些区别?

标准盒模型和怪异盒模型有哪些区别? 盒模型的指定: 在CSS3中,我们可以通过设置 box-sizing 的值来决定具体使用何种盒模型: box-sizing: content-box; 标准盒模型box-sizing: border-box; 怪异盒模型 标准盒模型: …