开源的全文搜索引擎总结,chatbot和chatgpt项目必备资源

全文搜索引擎就是通过从互联网上提取的各个网站的信息(以网页文字为主)而建立的数据库中,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户。

1、Apache Lucene Java 全文搜索框架

许可证:Apache-2.0 开发语言:Java 官网:https://lucene.apache.org/

Apache Lucene 是完全用 Java 编写的高性能、功能齐全的全文检索引擎架构,提供了完整的查询引擎和索引引擎、部分文本分析引擎。目的是为软件开发人员提供一个简单易用的工具包,以方便地在目标系统中实现全文检索的功能,或者是以此为基础建立起完整的全文检索引擎。

项目地址:https://www.oschina.net/p/lucene

2、Apache Solr 全文搜索服务器

许可证:Apache-2.0 开发语言:Java 官网:https://solr.apache.org/

Apache Solr 是基于 Lucene 的全文搜索服务器,也是最流行的企业级搜索引擎,其主要功能包括全文检索、命中高亮、分面搜索、动态聚类、数据库集成,以及对富文本(如 Word、PDF)的处理。Solr 高度可扩展,并提供了分布式搜索和索引复制,Solr 4 还增加了 NoSQL 支持。

项目地址:https://www.oschina.net/p/solr

3、Elasticsearch 分布式搜索引擎

许可证:Apache-2.0 开发语言:Java 官网:https://www.elastic.co/cn/elasticsearch/

Elasticsearch 是一个分布式、RESTful 风格的搜索和数据分析引擎,能够解决不断涌现出的各种用例。作为 Elastic Stack 的核心,Elasticsearch 会集中存储你的数据,让你飞快完成搜索,微调相关性,进行强大的分析,并轻松缩放规模。

项目地址:https://www.oschina.net/p/elasticsearch

4、Nutch 搜索引擎

许可证:Apache-2.0 开发语言:Java 官网:https://nutch.apache.org/

Nutch 是一个开源 Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和 Web 爬虫。

Nutch 的创始人是 Doug Cutting,他同时也是 Lucene、Hadoop 和 Avro 开源项目的创始人。

项目地址:https://www.oschina.net/p/nutch

5、RediSearch 高性能全文搜索引擎

许可证:AGPL 开发语言:C/C++ 官网:https://redis.io/docs/stack/search/

RediSearch 是一个高性能的全文搜索引擎,可作为一个 Redis Module 运行在 Redis 上,是由 RedisLabs 团队开发的。实现了Redis的查询、二级索引和全文搜索。这些功能在文本查询的基础上实现了多字段查询、聚合、精确短语匹配、数字过滤、地理过滤和矢量相似性语义搜索。

项目地址:https://www.oschina.net/p/redisearch

6、Sphinx Search 全文搜索引擎

许可证:GPL 开发语言:C/C++ 官网:http://sphinxsearch.com/

Sphinx 是一个开源的全文搜索服务器,从头开始设计时就考虑到了性能、相关性(又名搜索质量)和集成的简单性。它是用 C++ 编写的,适用于 Linux(RedHat、Ubuntu 等)、Windows、MacOS、Solaris、FreeBSD 和其他一些系统。

Sphinx 让你可以快速轻松地批量索引和搜索存储在 SQL 数据库、NoSQL 存储或文件中的数据,或者即时索引和搜索数据,使用 Sphinx 就像使用数据库服务器一样。各种文本处理功能可以根据你的特定应用程序要求微调 Sphinx,并且许多相关功能确保你也可以调整搜索质量。

项目地址:https://www.oschina.net/p/sphinxsearch

7、ftserver 轻量精准全文搜索服务器

开发语言:Java FTServer (FTS) 是一个轻量精准全文搜索服务器,使用英文规则处理英文,使用中文规则处理中文,不需要切割中文为单词,可以支持中文字的任意排列,精准搜索中文长句子,轻松处理古文古诗词,写意句子不影响搜索,不依赖词库,搜索中文不漏词。非常容易按需定制,直接编译就可以使用,无需额外配置,同时可以嵌入到各种应用内部。

项目地址:https://www.oschina.net/p/ftserver

8、Xapian C++检索引擎

许可证:GPL 开发语言:C/C++ 官网:https://xapian.org/

Xapian 是一个用 C++ 编写的全文检索程序,他的作用类似于 Java 的 lucene。尽管在 Java 世界 lucene 已经是标准的全文检索程序,但是 C/C++ 世界并没有相应的工具,而 Xapian 则填补了这个缺憾。

Xapian 是一个高度适应性的工具包,它允许开发人员轻松地将高级索引和搜索工具添加到他们自己的应用程序中。它内置支持多个权重模型系列,还支持一组丰富的布尔查询运算符。

项目地址:https://www.oschina.net/p/xapian

9、Hibernate Search Hibernate搜索框架

许可证:LGPL 开发语言:Java 官网:https://hibernate.org/search/

Hibernate Search 的作用是对数据库中的数据进行检索的。它是 hibernate 对著名的全文检索系统 Lucene 的一个集成方案,作用在于对数据表中某些内容庞大的字段(如声明为 text 的字段)建立全文索引,这样通过 hibernate search 就可以对这些字段进行全文检索后获得相应的 POJO,从而加快了对内容庞大字段进行模糊搜索的速度(sql 语句中 like 匹配)。

Hibernate Search 自动从 Hibernate ORM 实体中提取数据,以将其推送到本地 Apache Lucene 索引或远程 Elasticsearch 索引。

项目地址:https://www.oschina.net/p/hibernate+search

10、MeiliSearch 轻量搜索引擎

许可证:MIT 开发语言:Rust 官网:https://www.meilisearch.com/

Meilisearch 是 Rust 实现的高性能开源搜索引擎,支持方便地集成到任何网站或应用程序,支持自托管 (self-hosting),可作为 Algolia 和 Elasticsearch 的轻量替代方案。Meilisearch 内置了许多实用功能,比如:

  • 快速的输入即搜索 (search-as-you-type) 体验,也称作 “即时搜索”
  • 支持冗错 / 纠错搜索 (typo tolerance)
  • 支持多面搜索 (faceted search)
  • 支持基于地理位置的搜索 (geosearch)
  • 支持多租户 (multi-tenancy)

Meilisearch 提供了一整套完整的 SDK 和库,让开发者便捷地将其连接到流行的编程语言和 Web 工具。Meilisearch 的搜索功能支持所有语言,对任何使用空格分隔单词的语言以及中文、日语、希伯来语、泰语和韩语都进行了特殊优化。

项目地址:https://www.oschina.net/p/meilisearch

11、Manticore Search C++ 开发的高性能搜索引擎

许可证:GPL-2.0 开发语言:C/C++ 官网:https://manticoresearch.com/

Manticore Search 是一个使用 C++ 开发的高性能搜索引擎,创建于 2017 年,其前身是 Sphinx Search 。Manticore Search 充分利用了 Sphinx,显着改进了它的功能,修复了数百个错误,几乎完全重写了代码并保持开源!这一切使 Manticore Search 成为一个现代,快速,轻量级和功能齐全的数据库,具有出色的全文搜索功能。

来自 MS 官方的测试表明 Manticore Search 性能比 ElasticSearch 有很大的提升。

项目地址:https://www.oschina.net/p/manticoresearch

12、Tantivy 全文搜索引擎库

许可证:MIT 开发语言:Ruby

Tantivy 是一个用 Rust 编写的搜索引擎库,其灵感来自于 Lucene。得益于 Rust 语言加持,Tantivy 性能比 Lucene 要好得多。

项目地址:https://www.oschina.net/p/tantivy

13、Tantiny Ruby 全文搜索引擎库

许可证:MIT 开发语言:Ruby、SHELL、Rust

Tantiny 是一个基于 Tantivy 的 Ruby 的最小化全文搜索库。当你手头的任务需要全文搜索,但配置一个完整的分布式搜索引擎会比任务本身花费更多的时间时,它是非常好的选择。

即使你已经在你的项目中使用了这样的引擎(实际上这是很有可能的),使用 Tantiny 仍然可能更容易,因为与 Solr 和 Elasticsearch 不同,它不需要任何东西来工作(没有单独的服务器或进程或其他什么),它是纯粹的可嵌入的。所以,当你发现自己在使用你所选择的搜索引擎会很麻烦 / 不方便,或者需要额外的设置时,你总是可以回到一个快速和肮脏的解决方案,但还是很灵活和快速。

Tantiny 并不完全是对 Tantivy 的 Ruby 绑定,但它试图接近。主要理念是提供对 Tantivy 倒排索引的低级访问,但具有漂亮的 Ruby 风格的 API、合理的默认设置和附加功能。

项目地址:https://www.oschina.net/p/tantiny

14、DataparkSearch 搜索引擎

许可证:GPL-2.0 开发语言:C/C++ 官网:http://www.dataparksearch.org/

DataparkSearch 搜索引擎是一个 C 语言的全功能的开源基于 Web 的搜索引擎。

项目地址:https://www.oschina.net/p/dataparksearch

15、GoFound 基于 Go 的全文检索引擎

许可证:Apache-2.0 开发语言:Google Go

GoFound 是一个 go 语言全文检索引擎, 基于平衡二叉树 + 正排索引、倒排索引实现。可支持亿级数据、毫秒级查询。使用简单,使用 http 接口,任何系统都可以使用。技术栈:

  • 平衡二叉查找树
  • 二分法查找
  • 快速排序法
  • 倒排索引
  • 正排索引
  • 文件分片
  • golang-jieba 分词
  • leveldb

项目地址:https://www.oschina.net/p/gofound

16、Compass 搜索引擎

许可证:Apache-2.0 开发语言:Java、Perl 官网:http://www.compass-project.org/

Compass 是一个建立在 Lucene 之上的开源项目,旨在简化搜索与任何 Java 应用的整合。Compass 提供了广泛的功能,旨在集成搜索引擎功能。下图显示了不同的 Compass 模块,然后是每个模块的简短描述。

项目地址:https://www.oschina.net/p/compass

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/17640.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

搜索框功能实现

搜索框功能实现 在开发搜索框过程中需要实现两个小功能,技术栈是nuxt.js 功能描述如下功能1:当鼠标聚焦的时候搜索框下方出现热门推荐,如下图所示 功能2:当输入搜索内容的时候,热门推荐消失,出现搜索结果…

input type=search 实现搜索框。

欲实现一个文字搜索的功能,要求输入时,键盘回车按钮提示显示为“搜索”。效果如下: input typetext并不能达到这种效果,google了一下,html5 增加的typesearch可以做到(但需要input typesearch外面包上一层带action属性…

chatGPT网站报错:Sorry,you have been blocked

打开charGPT网站突然进不去,显示:Sorry,you have been blocked. 尝试清理了chatGPT网站的cookie数据,还是不行。 最后解决方法: 关掉网站,换一个VPN国家,再次打开网站,登录进入成功。

一种解决ChatGPT报错“Sorry, you have been blocked“的方法

ChatGPT突然不能用,尝试了网上说的重启V某N,打开隐私模式等方法都不管用。 采用下面方式,解决: 1.打开浏览器的 “设置”。 2.找到语言设置 3.将首选语言改成英语 搞定!

最强绘图AI:一文搞定Midjourney(附送咒语)

最强绘图AI:一文搞定Midjourney(附送咒语) Midjourney官网:https://www.midjourney.com 简介 Midjourney是目前效果最棒的AI绘图工具。访问Midjourney需要科学姿势。 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下…

教培行业的“智能GPT私教”?WorkPlusAI助理帮助教培机构实现十倍人效!

从横空出世到掀起高潮,当下,AIGC(人工智能生成内容)模式下的ChatGPT它正以惊人的速度席卷各个领域,在线教培行业也不例外。那么,正式进入落地期的ChatGPT,在在线教培行业有那些应用前景呢&#…

智能教育卷入GPT混战!三路玩家火拼,“AI老师”成标配

大模型教育场景落地,供给侧军备竞赛已开启。 作者 | 周炎 编辑 | 云鹏 明天,2023世界人工智能大会将正式开幕,据悉,30余款大模型都将悉数亮相,这其中就包括科大讯飞星火认知大模型、网易有道子曰大模型、百度文心一言…

智能教育卷入GPT混战,三路玩家火拼,“AI老师”成标配

大模型教育场景落地,供给侧军备竞赛已开启。 作者 | 周炎 编辑 | 云鹏 明天,2023世界人工智能大会将正式开幕,据悉,30余款大模型都将悉数亮相,这其中就包括科大讯飞星火认知大模型、网易有道子曰大模型、百度文…

最近火出圈的chatGPT智能AI聊天机器人

最近火出圈的chatGPT智能聊天机器人,相信大家都有所了解,那你们是否已经亲身体验过呢?今天,很高兴通知大家,我们最新上线了一个AI智能聊天机器人,让你可以随时随地与它进行自然语言交互。 无论聊天对话、查…

ChatGPT提示大解析:如何有效定制Prompt并用插件管理

有时候,你可能在编程时遇到难题,需要解决方法。有时候,你在学习新的语言时,想要找到一位悉心的教师。又或者,你可能只是需要一些新的灵感,来润色你的文章。在所有这些情况下,ChatGPT都可以发挥巨…

如何用ChatGPT1分钟内撰写完几万字的教学文件?

对于教师和培训工作者来说,进行上课之余,撰写教案也是一项十分耗费时间的任务,但是 Upskillr可以按照你的需要,在一分钟的时间里,为你撰写一份数万字的教学文件,供你下载。 首先登陆您的 ChatGPT帐号&#…

ChatGPT了吗,老师

ChatGPT 火了 让我们来挑战一下 人工智能 能不能取代老师 看我怎么难倒它 请写一份教案 主题是“锐角三角函数” 教学对象是初中生 字数不少于2,000字 哇 当他写出教学目标教学重难点的时候 我真的有这么一丝丝惊讶 因为他真的懂 我的需求是什么 老师们 来看一下ChatGPT写的这…

chatgpt赋能python:Python桌面程序——为您打造高效办公环境

Python桌面程序——为您打造高效办公环境 随着信息化办公的不断发展,桌面应用程序的需求越来越大。Python作为一种高效的编程语言,不仅适用于网络应用开发,也可以应用于桌面程序开发。本文将带您了解Python桌面程序的优势和应用场景。 Pyth…

chatgpt赋能python:Python桌面应用程序开发教程

Python桌面应用程序开发教程 Python是一种高级程序设计语言,具有简单、易读、易学、易用、可扩展和强大的功能,被广泛应用于Web开发、数据分析、机器学习等领域。除了在Web开发和数据处理方面得到广泛的应用之外,Python也能用于桌面应用程序…

chatgpt赋能python:Python如何编写桌面应用程序?

Python如何编写桌面应用程序? 随着Python的日益普及和发展,它在不同领域中得到了广泛应用。其中之一就是编写桌面应用程序。Python语言拥有丰富的GUI(图形用户界面)库,可以帮助开发者轻松地创建漂亮、跨平台的桌面应用…

windows 服务程序和桌面程序集成(一)

本系列文章介绍如何将windows服务程序和桌面程序集成在一起,也就是说一个EXE程序,既可以作为服务程序运行,也可以作为桌面程序运行的双模程序。 在十几年前,曾经给客户开发一套C/S架构的出单程序,当时不是很清楚window…

整合ChatGPT:微软与谷歌的搜索大战

本文总共探讨了以下几个问题:OpenAI和微软什么关系?整合ChatGPT的微软搜索引擎Bing面临什么潜在问题?对这件事,谷歌怎么考虑?整合的产品能长什么样?微软需要解决的问题,和面临的机遇在哪&#x…

小冰李笛:ChatGPT在向“让你认为它有知识”的方向发展 | MEET 2023

衡宇 整理自 MEET2023量子位 | 公众号 QbitAI ChatGPT技惊四座,甚至不少人认为它已经能“取代搜索引擎”。 然而就在MEET2023智能未来大会上,却出现了这样一种迥然相异的观点: 未来5年里,大家想要获取知识,最好的方法还…

苹果CMS仿T5资源站影视资源分享网站模板

简介: 苹果cms仿T5资源站影视资源分享网站模板,包括首页、详情页、留言页、和播放弹窗!适合拿去做资源站! 云盘地址: http://zijieyunpan.cn/eF3crCQyWVO 演示:

美团实践:交互式推荐在外卖场景的探索与应用

省时查报告-专业、及时、全面的行研报告库 省时查方案-专业、及时、全面的营销策划方案库 【免费下载】2023年1月份热门报告合集 ChatGPT的发展历程、原理、技术架构及未来方向 《ChatGPT:真格基金分享.pdf》 2023年AIGC发展趋势报告:人工智能的下一时代…