基于Python CNN和词向量的句子相似性度量

毕业设计:基于CNN和词向量的句子相似性度量

注意:因为要计算WMD距离所以需要安装依赖库pyemd

开发环境

Anaconda + Pycharm

项目说明

按照老师要求复现论文(论文提出了一个新概念'相似元',通过相似元来计算两个句子的相似度‘),同时参考WMD以及论文中提到的WJ算法实现三个算法的比较

毕业设计主要针对于句子相似度的计算,尤其是长句相似度,使用GoogleNews预训练的模型

GoogleNews-vectors-negative300.bin

TODO

由于项目只实现了GoogleNews预训练模型中有的单词的句子相似度,没有拓展到中文

  • 将相似度的计算拓展到中文
  • 可以进行多个预训练模型的选择,而非GoogleNews
  • 使用FAISS 框架优化相似向量的搜索

数据来源

存放于本项目DataSet下

项目运行

  1. 配置config.json文件:model_path用于存放预训练模型存放的路径;dataset_path用于存放最后作实验评估的数据集存放的路径
  2. 从main.py开始运行,首先要点击初始化按钮加载预训练模型
  3. 在句子1和句子2处输入要计算相似度的句子
  4. 计算结果显示在 相似度,WJ,WMD距离三个地方
  5. 可以每次换一个句子,并点击计算
  6. 计算完成,点击退出

结论验证

参考资料

  1. WMD算法以及WJ算法参考
  2. Word2Vec中的sentence_similarity方法出处
  3. 理论依据
  4. From Word Embeddings To Document Distances -- Matt J. Kusner等

代码结构

毕业设计源代码存放于GraduationDesign下,这里没有提到的代码文件均已过时,请以最新的代码为准

.
├── GraduationDesign
│   ├── main.py	项目运行点
│   ├── SSFN_V6_02		第6版:实现功能的垂直分割,同时实现三个算法的实验评估
│   │   ├── Methods
│   │   │   ├── SSFN
│   │   │   │──── └── SSF_V3.py 	复现论文中的SSF函数
│   │   │   ├── WJ
│   │   │   │──── └── wj_similarity.py	论文中的比对方法:计算两个句子的余弦相似度
│   │   │   ├── WMD
│   │   │   │──── └── wmd_distance.py	 论文中的比对方法2:计算两个句子的WMD距离
│   │   │   ├── Word2Vec.py			加载并使用GoogleNews预训练的模型进行计算
│   │   ├── util
│   │   │   │──── └── util.py	 工具模块,实现词语权重计算,模型的加载等
│   │   ├── view
│   │   │   │──── └── view_data.py	 使用PyQt5编写界面
│   │   ├── datahelper
│   │   │   │──── └── data_process.py	 对实验评估数据集的处理
│   │   ├── experiment_show
│   │   │   │──── └── result_img.py	 三种实验方法比对并在本地生成最后的比对结果图

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/21880.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

CPU安装pytorch(别点进来)

终于! 深度学习环境配置5——windows下的torch-cpu1.2.0环境配置_requirement怎么写torch cu-CSDN博客

Django-Vue 学习-VUE

主组件中有多个Vue组件 是指在Vue.js框架中,主组件是一个父组件,它包含了多个子组件(Vue组件)。这种组件嵌套的方式可以用于构建复杂的前端应用程序,通过拆分功能和视图,使代码更加模块化、可复用和易于维…

MATLAB基础学习相关知识

MATLAB安装参考:抖音-记录美好生活 MATLAB基础知识学习参考:【1小时Matlab速成教程-哔哩哔哩】 https://b23.tv/CnvHtO3 第1部分:变量定义和基本运算 生成矩阵: % 生成矩阵% 直接法% ,表示行 ;表示列 a [1,2,3;4,5,6;7,8,9];%…

TypeScript - 数据类型 - 声明变量

TypeScript 是一种强类型的 JavaScript 超集,它引入了静态类型检查和类型注解。基础类型是 TypeScript 中最基本的类型,用于定义变量的类型。 一、数据类型 常用基本类型:boolean 、number 、string 常用,都是小写 1.布尔类型&…

有序任务规划的局限性

有序任务规划的局限性(Limitation of Ordered-Task Planning) 1. 任务前向分解(TFD)的限制 TFD(Task Forward Decomposition)是一种 基于完全有序方法(Totally Ordered Methods)的任…

MATLAB学习之旅:数据插值与曲线拟合

在MATLAB的奇妙世界里,我们已经走过了一段又一段的学习旅程。从基础的语法和数据处理,到如今,我们即将踏入数据插值与曲线拟合这片充满魅力的领域。这个领域就像是魔法中的艺术创作,能够让我们根据现有的数据点,构建出更加丰富的曲线和曲面,从而更好地理解和描述数据背后…

ASP.NET Core 下载文件

本文使用 ASP .NET Core,适用于 .NET Core 3.1、.NET 5、.NET 6和.NET 8。 另请参阅: 如何在将文件发送到浏览器后自动删除该文件。 如何将文件从浏览器上传到服务器。 如何在 ASP.NET Core 应用程序中从 URL/URI 下载文件。 如果使用.NET Framework&am…

Part 3 第十二章 单元测试 Unit Testing

概述 第十二章围绕单元测试展开,阐述了单元测试的实践与重要性,通过对比其他测试类型,突出其特点,还介绍了单元测试的最佳实践、避免的反模式以及与测试替身相关的内容,为编写高质量单元测试提供指导。 章节概要 1…

SpringCloud-Eureka初步使用

什么是REST是一组用于规范资源在网络中转移的表现形式软件架构设计风格.简单来说就是客户端和服务器之间的一种交互形式 什么是RESTful,满足了REST风格的接口或者程序,RESTful API是其中的接口,spring中提供了RestTemplate这个类,他强制执行了REST的规范,包括使用HTTP协议的状…

Linux 高级篇 日志管理、定制自己的Linux系统、备份与恢复

一、日志管理 (1)基本介绍 日志文件是重要的系统信息文件,记录了如用户登录、系统启动、系统安全、邮件及各种服务等相关重要系统事件在安全方面,日志也至关重要,它能记录系统日常发生的各类事情,可用于检…

SpringMVC 请求参数接收

目录 请求 传递单个参数 基本类型参数传递 未传递参数 ?传递参数类型不匹配 传递多个参数 传递对象 后端参数重命名 传递数组 传递集合 传递JSON数据 JSON是什么 JSON的优点 传递JSON对象 获取URL中的参数 文件上传 在浏览器与程序进行交互时,主要…

深度学习之图像回归(一)

前言 图像回归任务主要是理解一个最简单的深度学习相关项目的结构,整体的思路,数据集的处理,模型的训练过程和优化处理。 因为深度学习的项目思路是差不多的,主要的区别是对于数据集的处理阶段,之后模型训练有一些小…

23. AI-大语言模型-DeepSeek简介

文章目录 前言一、DeepSeek是什么1. 简介2. 产品版本1. 类型2. 版本3. 参数规模与模型能力 3. 特征4. 三种访问方式1. 网页端和APP2. DeepSeek API 二、DeepSeek可以做什么1. 应用场景2. 文本生成1. 文本创作2. 摘要与改写3. 结构化生成 3. 自然语言理解与分析1. 语义分析2. 文…

京东cfe滑块 分析

声明: 本文章中所有内容仅供学习交流使用,不用于其他任何目的,抓包内容、敏感网址、数据接口等均已做脱敏处理,严禁用于商业用途和非法用途,否则由此产生的一切后果均与作者无关! 逆向分析 headers {"accept&qu…

什么是事务?并发事务引发的问题?什么是MVCC?

文章目录 什么是事务?并发事务引发的问题?什么是MVCC?1.事务的四大特性2.并发事务下产生的问题:脏读、不可重复读、幻读3.如何应对并发事务引发的问题?4.什么是MVCC?5.可见性规则?参考资料 什么…

火语言RPA--Excel插入空行

【组件功能】:在Excel内指定的位置插入空行 配置预览 配置说明 在第n行之前 支持T或# 填写添加插入第n行之前行号。 插入n行 支持T或# 插入多少行。 Sheet页名称 支持T或# Excel表格工作簿名称。 示例 Excel插入空行 描述 在第3行之后插入3行。 配置 输…

【算法基础】--前缀和

前缀和 一、一维前缀和示例模板[寻找数组的中心下标 ](https://leetcode.cn/problems/tvdfij/description/)除自身以外的数组乘积和可被k整除的子数组 一、一维前缀和 前缀和就是快速求出数组某一个连续区间内所有元素的和。 示例模板 已知一个数组arr,求前缀和 …

buuctf-[极客大挑战 2019]Knife题解

一个很简单的web题,进入界面 网页名还加白给的shell,并且给的提示也很明显,给了一个一句话木马再加上菜刀,很怀疑是一个webshell题,那么直接打开蚁剑测试连接拿shell 用提示的一句话木马的密码,测试链接发现…

基于YOLO11深度学习的半导体芯片缺陷检测系统【python源码+Pyqt5界面+数据集+训练代码】

《------往期经典推荐------》 一、AI应用软件开发实战专栏【链接】 项目名称项目名称1.【人脸识别与管理系统开发】2.【车牌识别与自动收费管理系统开发】3.【手势识别系统开发】4.【人脸面部活体检测系统开发】5.【图片风格快速迁移软件开发】6.【人脸表表情识别系统】7.【…

零食店收银pos源码

各位零食店老板,你是否还在为以下问题头疼? 连锁门店越来越多,管理起来力不从心?散装称重商品收银效率低,顾客排队抱怨?线上订单激增,库存混乱,配送跟不上?营销活动花样少…