【从0做项目】Java文档搜索引擎(9)烧脑终章!

   

阿华代码,不是逆风,就是我疯

你们的点赞收藏是我前进最大的动力!!

希望本文内容能够帮助到你!!

目录

文章导读

零:项目结果展示

一:导入

二:问题引入

1:情景引入

2:思考

3:处理设计

(1)问题总结

(2)设计

(3)核心思路

三:代码讲解

1:search方法

2:mergeResult

(1)Pos定位类

(2)看图说话

(3)步骤拆解

四:前后优化结果对比


文章导读

阿华将发布项目复盘系列的文章,旨在:

1:手把手细致带大家从0到1做一个完整的项目,保证每2~3行代码都有详细的注解

2:通过文字+画图的方式,对项目进行整个复盘,更好的理解以及优化项目

3:总结自己的优缺点,扎实java相关技术栈,增强文档编写能力

零:项目结果展示

项目目前已经上线,小伙伴们可以进行使用!!!

Java 文档搜索

简述:在我的搜索引擎网站,用户进行关键字搜索,就可以查询到与这个关键字相关的java在线文档,(包含标题,关键字附近的简述,url),用户点击标题,即可跳转到相关在线文档,适用于JDK17版本。

一:导入

在前文(8)中我们使用停用词表对用户的搜索词句进行了过滤,并且在后端处理正文描述的时候使用正则表达式进行优化,让返回结果更加合理。本篇文章将会有点烧脑~

二:问题引入

1:情景引入

这里我们同样搜索array空格list

惊奇的发现array这个文档返回了两次,什么鬼~~!! 

2:思考

为什么一个文档会返回两次。想后端处理逻辑,我们拿到array这个词,在倒排索引中返回一堆docId;再拿到list这个词,再在倒排索引中返回一堆docId

注:(这里拿到的其实是一个集合,里面有好多Weight对象,对象里包含docId和weight权重,这里这么说是方便大家理解)

思考:那有没有一种可能就是说,一个文档中既包含array,又包含list,所以这个文档被查到了两次,就返回给前端两遍,显然,这种情况是非常有可能的!! 

不多bb直接上图,这里图解可能更清楚。

3:处理设计

(1)问题总结

①一个文档不能出现两次 

②像Array.html这样的文档,同时包含多个分词结果,意味着这个文档的“相关性”更高——所以就应该提高这个文档的权重!!

设计

(2)设计

①去重:把多个分词结果触发出来的文档,按照docId进行去重

②权重合并

(3)核心思路

①把分词结果进行排序处理(按照docId升序排序)

②对于docId相同的情况,进行权重的相加

注意:这里的分词结果可能不止两个,当有多个的时候,每一个分词都对应一个list集合,这里就是多路数组的归并了。

这里不理解的看下面这个图文字

不多bb上图理解

三:代码讲解

1:search方法

不要捉急,我们一点点的看代码

在search方法中我们使用mergeResult方法来进行合并,这里的参数传递,可以理解成把所有查到的docId相关文档作为参数进行传参,实际上传的是一个双重集合,这个集合中装的全都是Weight对象

    public List<Result> search(String query){//1:对query分词List<Term> oldTerms = ToAnalysis.parse(query).getTerms();//未过滤的分词结果集合List<Term> terms = new ArrayList<>();//过滤后的分词结果集合//针对分词结果,使用暂停词表进行过滤for(Term term : oldTerms){if(stopWords.contains(term.getName())){continue;}terms.add(term);}//2:对分词查倒排List<List<Weight>> termResult = new ArrayList<>();
//        List<Weight> allTermResult = new ArrayList<>();for (Term term : terms){String word = term.getName();List<Weight> invertedList = index.getInverted(word);//如果查不到就返回一个nullif(invertedList == null){continue;}
//            allTermResult.addAll(invertedList);//把集合中所有Weight对象都扔到allTermResult中termResult.add(invertedList);}//3:[合并]对多个分词结果处发出的相同文档,进行权重合并List<Weight> allTermResult = mergeResult(termResult);//4: 按权重降序排序allTermResult.sort(new Comparator<Weight>() {@Overridepublic int compare(Weight o1, Weight o2) {return o2.getWeight() - o1.getWeight();//降序排列}});//5:查正排,构造出想要的Result,返回结果List<Result> results = new ArrayList<>();for(Weight weight : allTermResult){//对每一个Weight都构建result,可能最后的结果会很多,但是用户一般只看第一页查询出来的信息,一般懒得翻页DocInfo docInfo = index.getDocInfo(weight.getDocId());//获取当前Weight对应的文档信息Result result = new Result();result.setTitle(docInfo.getTitle());result.setUrl(docInfo.getUrl());
//            result.setDesc(docInfo.getContent());//很明显把正文全部返回不合理result.setDesc(GenDesc(docInfo.getContent(),terms));//搞个正文简述,这个词前60个字符为起始,往后截取160个results.add(result);}return results;}

2:mergeResult

(1)Pos定位类

用来描述,我们Weight对象所在的位置

    static class Pos{public int row;public int col;public Pos(int row , int col){this.row = row;this.col = col;}}

(2)看图说话

搞一个优先级队列,比较规则就是,docId值更小的往里面放

(3)步骤拆解

①对每一路按docId的升序给Weight对象排个序

②new一个集合用来存放最后的Weight对象的合集

③把每一行的第一个元素放进队列中(初始化)

④优先级队列的比较规则是docId升序排列,放的是Pos对象也就是Weight对象的位置!!

⑤当队列不为空时,循环弹出元素Pos,找到对应的Weight对象,将这个Weight对象与我们target集合中最后一个位置的Weight对象进行对比看是不是同一个对象,若不是则直接加入集合,若是则合并权重。

⑥指针移动

喵喵喵~~妙脆角!跟着我的注解,看着图,敲一遍代码会更清楚内部的一个逻辑!

 private List<Weight> mergeResult(List<List<Weight>> source) {//把多路合并成一路//1:先给每一路按升序排个序for (List<Weight> curRow : source){curRow.sort(new Comparator<Weight>() {@Overridepublic int compare(Weight o1, Weight o2) {return o1.getDocId()- o2.getDocId();}});}//2:借优先级队列合并多路List<Weight> target = new ArrayList<>();PriorityQueue<Pos> queue = new PriorityQueue<>(new Comparator<Pos>() {@Overridepublic int compare(Pos o1, Pos o2) {Weight w1 = source.get(o1.row).get(o1.col);//用下标找到Weight对象Weight w2 = source.get(o2.row).get(o2.col);return w1.getDocId() - w2.getDocId();}});//2.1:初始化队列——把每一行第一个元素放到队列当中for(int row = 0 ; row < source.size() ; row++){queue.offer(new Pos(row,0));}//2.2:循环取队首元素(也就是当前若干行中最小的元素)while(!queue.isEmpty()){Pos curMinPos = queue.poll();Weight curWeight = source.get(curMinPos.row).get(curMinPos.col);//2.3:检查当前的Weight对象,与上一个插入到target中的对象是否是相同的对象,这里可以用Weight对象中的docId作为比较依据if(target.size() > 0){Weight lastWeight = target.get(target.size()-1);if(lastWeight.getDocId() == curWeight.getDocId()){//文档id若相等则合并int weightSum = lastWeight.getWeight() + curWeight.getWeight();lastWeight.setWeight(weightSum);}else{//文档id不相等就直接入targettarget.add(curWeight);}}else{//若当前的target为空,就直接加入target.add(curWeight);}//2.4:考虑移动光标,当前元素处理完了之后,要把对应的这个元素光标往后移动,取这一行的下一个元素Pos newpos = new Pos(curMinPos.row , curMinPos.col+1);if(newpos.col > source.get(newpos.row).size() - 1){//说明光标已经超出这一行的范围了,到达末尾了,这一行就处理完了continue;//直接进入下一次循环}//否则把新的坐标扔到队列当中queue.offer(newpos);}return target;}

四:前后优化结果对比

暴减500条结果,说明有200多个结果都是重复的。

至此Java文档搜索引擎博客讲解就结束了,这里的图解和测试,花费了阿华很大的精力,希望这个系列能够帮助到你~~塔塔开!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/22595.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

gsplat 抗锯齿

关键代码 无论时候开启抗锯齿&#xff0c;都会进行二维膨胀&#xff1a; template <typename T> inline __device__ T add_blur(const T eps2d, mat2<T> &covar, T &compensation) {T det_orig covar[0][0] * covar[1][1] - covar[0][1] * covar[1][0];…

根据音频中的不同讲述人声音进行分离音频 | 基于ai的说话人声音分离项目

0.研究背景 在实际的开发中可能会遇到这样的问题&#xff0c;老板让你把音频中的每个讲话人的声音分离成不同的音频片段。你可以使用au等专业的音频处理软件手动分离。但是这样效率太慢了&#xff0c;现在ai这么发达&#xff0c;我们能否借助ai之力来分离一条音频中的不同的说…

一台服务器将docker image打包去另一天服务器安装这个镜像

一台服务器将docker image打到去另一天服务器安装这个镜像 1. 打包2.另一台服务器执行 1. 打包 docker save -o nebula-graph-studio.tar harbor1.vm.example.lan/dockerio/vesoft/nebula-graph-studioxxx.tar 是打包好的文件 后面的是 docker image 2.另一台服务器执行 docke…

STM32-心知天气项目

一、项目需求 使用 ESP8266 通过 HTTP 获取天气数据&#xff08;心知天气&#xff09;&#xff0c;并显示在 OLED 屏幕上。 按键 1 &#xff1a;循环切换今天 / 明天 / 后天天气数据&#xff1b; 按键 2 &#xff1a;更新天气。 二、项目框图 三、cjson作用 https://gi…

自由学习记录(37)

课 对于这一方面&#xff0c;先把课都过一遍吧&#xff0c;尽量快的摸清楚底 软件工程 没有复杂的逻辑推理&#xff0c;概念性和理论很强&#xff0c;所以靠记 ------ 数据&#xff1a;是使程序能够适当处理信息的数据结构 程序&#xff1a;是能够完成预定功能和性能的可执行…

Docker仿真宇树狗GO1

1. 启动容器 docker run -it --rm humble_suo bash2. 安装Go1 的仿真包 apt update apt install -y git cmake build-essential git clone https://github.com/unitreerobotics/unitree_ros.git cd unitree_ros colcon build source install/setup.bash3. 启动仿真环境 ros2…

《游戏人工智能编程 案例精粹》阅读心得

最近读完了这本《游戏人工智能编程 案例精粹》&#xff0c;感觉获益匪浅&#xff0c;在对游戏人工智能的设计上有了更深的感悟。 这本书既适合初学者学习&#xff0c;因为次书会从最基础的数学物理公式推导一步一步介绍到完整的人工智能开发&#xff1b;同时也适合进阶程序员&a…

黑马点评_商品信息缓存模块

保证缓存不要有空档期 删除后马上要写入中间不能插入任何阶段(如查询数据库) 对于单体系统1&#xff0c;将缓存与数据库操作放在同一个事务中&#xff08;当前项目就是一个单体项目&#xff0c;所以选择这种方式&#xff09; 对于分布式系统2&#xff0c;利用TCC&#xff08;Tr…

OnlyOffice:前端编辑器与后端API实现高效办公

OnlyOffice&#xff1a;前端编辑器与后端API实现高效办公 一、OnlyOffice概述二、前端编辑器&#xff1a;高效、灵活且易用1. 完善的编辑功能2. 实时协作支持3. 自动保存与版本管理4. 高度自定义的界面 三、后端API&#xff1a;管理文档、用户与权限1. 轻松集成与定制2. 实时协…

面阵工业相机提高餐饮业生产效率

餐饮行业是一个快节奏、高要求的领域&#xff0c;该领域对生产过程中每一个阶段的效率和准确性都有很高的要求。在食品加工、包装、质量控制和库存管理等不同生产阶段实现生产效率的优化是取得成功的关键步骤。面阵工业相机能够一次性捕捉对象的二维区域图像&#xff0c;并支持…

现场可以通过手机或者pad实时拍照上传到大屏幕的照片墙现场大屏电子照片墙功能

现场可以通过手机或者pad实时拍照上传到大屏幕的照片墙现场大屏电子照片墙功能&#xff0c;每个人都可以通过手机实时拍照上传到大屏幕上,同时还可以发布留言内容&#xff0c;屏幕上会同步滚动播放展示所有人的照片和留言。相比校传统的照片直播功能更加灵活方便&#xff0c;而…

【多线程】线程安全

目录 一、初识线程安全 什么是线程安全问题 理解线程不安全的原因 原因总结 二、解决线程不安全 加锁&#x1f510; 锁对象 synchronized几种使用方式 死锁&#x1f50f; 死锁的三个场景 (1)一个线程针对一把锁连续加锁两次 (2)两个线程两把锁 (3)N个线程M个锁 如…

传统文旅+AI构建数字文旅新生态

传统文旅AI构建数字文旅新生态 前言&#xff1a; 当前许多旅游景区在旅游管理和旅游基础设施配套上都下足了功夫&#xff0c;在一定程度上也给旅客和消费者带来了舒适的体验感。但是针对于我们游客而言&#xff0c;似乎只有欣赏沿途风景、了解景区历史文化、拍照打卡和品尝特色…

VSCode - VSCode 切换自动换行

VSCode 自动换行 1、基本介绍 在 VSCode 中&#xff0c;启用自动换行可以让长行代码自动折行显示&#xff0c;避免水平滚动条频繁使用&#xff0c;提升代码阅读体验 如果禁用自动换行&#xff0c;长行代码就需要手动结合水平滚动条来阅读 2、演示 启用自动换行 禁用自动换…

解锁音频新境界:LALAL.AI 与 Audo Studio 深度解析

在音频处理的世界里&#xff0c;噪音常常是困扰我们的一大难题。无论是专业的音频工作者&#xff0c;还是普通的音频爱好者&#xff0c;都渴望拥有一款强大的工具来解决这个问题。今天&#xff0c;就为大家介绍两款来自 AI 工具导航&#xff08;AIDH.NET&#xff09;的 AI 语音…

线上死锁问题排查和处理

Java 死锁排查 通过 jps jstack 来定位和排查 如果线程长时间处于阻塞&#xff0c;就需要考虑是否是死锁了。 模拟死锁 public class DeadlockDemo {private static final Object lock1 new Object();private static final Object lock2 new Object();public static vo…

5 分钟用满血 DeepSeek R1 搭建个人 AI 知识库(含本地部署)

最近很多朋友都在问&#xff1a;怎么本地部署 DeepSeek 搭建个人知识库。 老实说&#xff0c;如果你不是为了研究技术&#xff0c;或者确实需要保护涉密数据&#xff0c;我真不建议去折腾本地部署。 为什么呢&#xff1f; 目前 Ollama 从 1.5B 到 70B 都只是把 R1 的推理能力…

MT7628基于原厂的SDK包, 修改ra1网卡的MAC方法。

1、在/etc/config/wireless文件添加多个WIFI网卡的方法。 2、修改WIFI驱动&#xff0c;在src/embedded/ap/ap.c文件里面&#xff0c;从系统文件信息来修改ra1网卡的MAC内容&#xff0c;添加红色部分源代码。 RTMP_IO_WRITE32(pAd, RMAC_RMACDR, Value); if (idx > 0) …

brew Nushell mac升级版本

运行命令&#xff1a; brew upgrade nushell 国内更新比较慢建议架个梯子。 如果没有更新则先更新一下brew brew update 更新后看下版本是否死最新的了

windows怎样查看系统信息(处理器等)

首先打开命令行工具 win R 输入 cmd&#xff0c; 输入 msinfo32 &#xff0c;然后回车 这个页面就可以看到 电脑的锐龙版就是 AMD 芯片 酷睿版就是 intel 芯片