Workplace Search 的演变:使用 Elasticsearch 搜索你的私人数据

作者:Dana Juratoni, Aditya Tripathi

Workplace Search 功能将来将与 Elastic Search 合并。 这是你需要了解的内容。

生成式人工智能技术的最新进展为搜索带来了一系列可能性。 随着开发人员构建新的体验,用户正在采用新的搜索使用方式 —— 从用自然语言编写的搜索查询到通过上传图像或语音样本进行搜索。 在 Elastic®,我们一直致力于确保 Elasticsearch® 拥有开发人员构建现代搜索所需的正确机器学习工具。

在我们继续这一旅程的过程中,我们希望分享有关工作场所(Workplace)搜索的一些进展:

  • Elasticsearch 是推荐的工具,用于为未来的内部知识搜索用例构建搜索体验。
  • 独立的 Workplace Search 产品将继续以其当前形式获得支持。 Elasticsearch 将添加新功能,Workplace Search 将获得安全升级和修复。

如果你正在使用独立的 Workplace Search 产品或有兴趣为工作场所搜索用例构建搜索体验,则此博客将为你提供重要信息。

历史背景

当 Swiftype 于 2017 年与 Elastic 联手时,独立的 Workplace Search 产品成为我们产品的一部分。从那时起,我们向 Workplace Search 的流行数据库、文件系统和其他工具添加了许多内容源。 虽然用户喜欢 Workplace Search 包含各种数据源的集成,但有明确的反馈表明,开发人员希望通过透明度和灵活性来调整搜索体验。 这些调优工具仅在直接使用 Elasticsearch 平台时才可用。

随着最近 ChatGPT 和生成式 AI 技术的流行,内部知识搜索用例(即能够搜索所有私人内容源 —— 数据库、知识库、文件系统、协作或票务工具)对我们的用户来说变得越来越重要。 毫无疑问,私人数据的搜索检索和 LLM 在一起效果更好。

Elasticsearch 连接器是未来

客户喜欢使用 Workplace Search 内容源

使用 Workplace Search 产品的客户喜欢通过内容源提取数据、在搜索体验中使用索引数据以及使用内置工具管理数据和搜索的简单性。 这些功能不会消失,而是会作为我们 Elastic Search 产品的一部分不断发展 —— 其中一些工作从早期的 8.x 版本开始。 内容源已被连接器 (connectors) 取代和提升为一种 Elastic 集成。 这些连接器直接写入搜索优化的 Elasticsearch 索引,而不是使用使用抽象隐藏索引 (以 . 为开始的系统索引)。 通过这样做,利用平台功能(例如与第三方 transformer 模型集成)来转换索引数据的能力变得直观且易于配置。 因此,设置搜索体验比以往更加灵活,并且 Elasticsearch 本机功能提供了多种数据和搜索管理方式。

Elastic 连接器的典型部署

内部知识搜索用例最常见的架构涉及通过原生连接器和/或自我管理连接器客户端将私有组织数据引入 Elastic。 然后,自我管理的搜索应用程序会公开最终授权用户通过搜索体验查看的数据。

两个选项:Elastic Cloud 上的原生连接器或自托管客户端

连接器可作为原生连接器直接在 Elastic Cloud 部署中使用,无需额外的基础设施。 如果你更喜欢自行托管原生连接器,则可以将它们用作连接器客户端,以便在你自己的基础设施上轻松部署和自我管理,无需进行开发。 为此,你可以选择从源运行连接器或通过 Docker 进行部署。 连接器客户端是开放代码的,可以进行定制以满足你的特定需求。 此外,你可以利用我们的连接器框架创建新的连接器客户端,与我们当前目录中可能未涵盖的数据源集成。

在我之前的文章中,有一个例子 “Enterprise:使用 MySQL connector 同步 MySQL 数据到 Elasticsearch”。

转换数据以支持你的搜索

同步内容被索引到常规搜索优化的 Elasticsearch 索引,这些索引可直接在你的搜索体验中使用。 默认情况下,连接器特定逻辑和捆绑的 ent-search-generic-ingestion 管道会按照部署中的配置提取和转换数据。 对于更高级的用例,可以使用以下工具过滤和转换数据:

  • 基本同步规则,对于所有连接器都是相同的
  • 用于数据源级别远程过滤的高级同步规则
  • 适用于连接器客户端的自我管理提取服务
  • 自定义管道过滤,然后通过摄取管道持久化到 Elasticsearch(请阅读搜索中的摄取管道以了解更多详细信息。)
  • 摄取管道特别强大,因为它们为 ML 模型(例如 ELSER)以及通过连接器索引的任何私有数据提供了极其易于访问的集成点。

使用 Elastic Search 构建体验

一旦你在 Elasticsearch 中拥有数据,你就可以使用 Search UI 和 SearchKit 等前端组件项目构建自己的自定义搜索体验。 我们的内部知识搜索示例应用程序向你展示了如何使用现有工具开始使用。

Javascript 客户端库使你能够轻松构建搜索或将搜索集成到你的 Web 应用程序中,或使用众多 Elasticsearch 客户端库之一。

我们正在快速添加功能以使搜索更加强大。 使用 Elasticsearch 构建你的内部搜索系统,你可以在这些功能发布后立即使用它们。

  • Elasticsearch 支持向量、语义、混合和生成式 AI 搜索用例。 查看我们的一些语义和向量搜索功能,包括强大的开箱即用的稀疏向量模型。 在 8.11 中,此模型已正式发布,只需单击几下即可将其应用于使用 Elastic 连接器或网络爬虫写入的数据。
  • 借助基于搜索模板的完全可定制的搜索应用程序 API,如果你的用例需要的话,这个新 API 可以抽象化 Elasticsearch Query DSL 的学习曲线。 你可以随时使用 Query DSL 深入了解详细信息。
  • 新的搜索管理工具可让你直接管理特定查询的结果,例如提升或隐藏结果,并以编程方式使用同义词管理 API。

Workplace Search 产品和 workplace search 用例

独立的 Workplace Search 产品将继续成为受支持的体验,因此虽然建议迁移到新功能,但这不是必需的。 任何希望提升内部知识搜索以包括语义搜索、向量搜索或基于聊天提示的体验的用户都将从过渡到使用 Elastic 连接器中受益。 在 Elastic Search 的支持下,企业中的工作场所搜索用例范围取得了许多引人注目的进步。 现在是考虑升级内部知识搜索的好时机,以使其为你的用户带来惊人的体验!

为你提供的资源

  • 用于为你的内部知识源构建搜索体验的示例应用程序
  • Elastic Search 和 Workplace Search 功能比较(请参阅我们文档中的表格)
  • 新的! 搜索实验室在 GitHub 上有代码 notebooks、工程博客和示例项目。
  • 你知道 Elasticsearch 是向量数据库超集吗?

本文中描述的任何特性或功能的发布和时间安排均由 Elastic 自行决定。 当前不可用的任何特性或功能可能无法按时交付或根本无法交付。

在这篇博文中,我们可能使用或引用了第三方生成人工智能工具,这些工具由其各自所有者拥有和运营。 Elastic 对第三方工具没有任何控制权,我们对其内容、操作或使用不承担任何责任,也不对你使用此类工具可能产生的任何损失或损害负责。 使用人工智能工具处理个人、敏感或机密信息时请务必谨慎。 你提交的任何数据都可能用于人工智能培训或其他目的。 无法保证你提供的信息将得到安全或保密。 在使用之前,你应该熟悉任何生成式人工智能工具的隐私惯例和使用条款。

Elastic、Elasticsearch、ESRE、Elasticsearch Relevance Engine 和相关标记是 Elasticsearch N.V. 在美国和其他国家/地区的商标、徽标或注册商标。 所有其他公司和产品名称均为其各自所有者的商标、徽标或注册商标。

原文:https://github.com/elastic/elasticsearch-labs/tree/main/example-apps/internal-knowledge-search

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/193545.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于SSM的员工信息管理系统设计与实现

末尾获取源码 开发语言:Java Java开发工具:JDK1.8 后端框架:SSM 前端:采用JSP技术开发 数据库:MySQL5.7和Navicat管理工具结合 服务器:Tomcat8.5 开发软件:IDEA / Eclipse 是否Maven项目&#x…

大厂必备的6款React UI框架

优秀的ReactUI框架可以为您节省开发时间,提高开发效率,统一设计语言。你还在为你的项目寻找高质量的ReactUI框架吗?为了让您更容易找到易于使用的UI框架,分享6个优秀的ReactUI框架选项,并介绍了每个UI框架的不同功能和…

【Flink】Flink任务缺失Jobmanager日志的问题排查

Flink任务缺失Jobmanager日志的问题排查 问题不是大问题,不是什么代码级别的高深问题,也没有影响任务运行,纯粹因为人员粗心导致,记录一下排查的过程。 问题描述 一个生产环境的奇怪问题,环境是flink1.15.0 on yarn…

机器学习深度学习服务器推荐

大学生、研究生未免找不到还有的GPU服务器,这边博主推荐 https://featurize.cn?s3d13789cb8184f16bb6133b20c353207 方便,便宜,不会自动删除上传项目文件,支持VScode、pycharm、SSH链接,上传文件速度快。强烈推荐&am…

JS-项目实战-编辑单价单元格,可以点击单价单元格并且出现文本框,并自动选中输入框内部的文本

1、鼠标悬浮和离开事件.js //当页面加载完成后执行后面的匿名函数 window.onload function () {//get:获取 Element:元素 By:通过...方式//getElementById()根据id值获取某元素let fruitTbl document.getElementById("fruit_tbl");//table.rows:获取这个表格…

windows安装maven,配置环境变量

官网下载: 其他版本找 Other Releases 配置环境变量 1、解压缩之后开始配置环境变量 2、右键此电脑,选中属性->高级系统设置->高级->环境变量。 3、①和②任选一个都可 ①在系统变量那边增加MAVEN_HOME,路径是解压缩后的文件路径。…

深度学习之基于Django+Tensorflow商品识别管理系统

欢迎大家点赞、收藏、关注、评论啦 ,由于篇幅有限,只展示了部分核心代码。 文章目录 一项目简介 二、功能三、系统四. 总结 一项目简介 项目简介 本系统是一个基于DjangoTensorflow的商品识别管理系统。通过深度学习技术,实现商品的自动识别…

C++二分查找算法:132 模式解法二枚举2

题目及解法一: https://blog.csdn.net/he_zhidan/article/details/134362273 分析 第一步,选择各3对应的1,如果有多个符合对应最小的1,记录num[0,j)中的最小值iMin,如果nums[j]大于iMin,则m3To1 [nums[j…

anaconda中安装pytorch和TensorFlow环境并在不同环境中安装kernel

❤️觉得内容不错的话,欢迎点赞收藏加关注😊😊😊,后续会继续输入更多优质内容❤️ 👉有问题欢迎大家加关注私戳或者评论(包括但不限于NLP算法相关,linux学习相关,读研读博…

远程创建分支本地VScode看不到分支

在代码存放处右击,点击Git Bash Here 输入git fetch–从远程仓库中获取最新的分支代码和提交历史 就OK啦,现在分支可以正常查看了

竞赛 题目:垃圾邮件(短信)分类 算法实现 机器学习 深度学习 开题

文章目录 1 前言2 垃圾短信/邮件 分类算法 原理2.1 常用的分类器 - 贝叶斯分类器 3 数据集介绍4 数据预处理5 特征提取6 训练分类器7 综合测试结果8 其他模型方法9 最后 1 前言 🔥 优质竞赛项目系列,今天要分享的是 基于机器学习的垃圾邮件分类 该项目…

python科研绘图:绘制X-bar图

目录 1.X-bar 图的基本概念 2.X-bar 图的绘制过程 3.X-bar 图的优势 4.X-bar 图的绘制 1.X-bar 图的基本概念 X-bar控制图是一种统计工具,用于监控和控制生产过程中的质量变量。它是过程能力分析和统计过程控制(SPC,Statistical Process…

EtherCAT从站EEPROM组成信息详解(1):字0-7ESC寄存器配置区

0 工具准备 1.EtherCAT从站EEPROM数据(本文使用DE3E-556步进电机驱动器)1 字0-字7ESC寄存器配置区组成信息详解 1.1 ESC寄存器配置区组成规范 对于EtherCAT从站来说,EEPROM的字0-字7组成的ESC寄存器配置区决定了从站上电后ESC能否正常工作…

载誉前行 | 求臻医学MRD检测方案荣获金如意奖·卓越奖

2023年11月11日 由健康界、海南博鳌医学创新研究院 中国医药教育协会数字医疗专业委员会联合主办的 第三届“金如意奖”数字医疗优选解决方案 评选颁奖典礼 在2023中国医院管理年会上揭晓榜单并颁奖 求臻医学MRD检测解决方案 荣获第三届金如意奖最高奖项——卓越奖 这一…

JavaEE初阶(18)(JVM简介:发展史,运行流程、类加载:类加载的基本流程,双亲委派模型、垃圾回收相关:死亡对象的判断算法,垃圾回收算法,垃圾收集器)

接上次博客:初阶JavaEE(17)Linux 基本使用和 web 程序部署-CSDN博客 目录 JVM 简介 JVM 发展史 JVM 运行流程 JVM的内存区域划分 JVM 执行流程 堆 堆的作用 JVM参数设置 堆的组成 垃圾回收 堆内存管理 类加载 类加载的基本流…

2023.11.15 每日一题(AI自生成应用)【C++】【Python】【Java】【Go】 动态路径分析

目录 一、题目 二、解决方法 三、改进 一、题目 背景: 在一个城市中,有数个交通节点,每个节点间有双向道路相连。每条道路具有一个初始权重,代表通行该路段的成本(例如时间、费用等)。随着时间的变化&am…

VirtualBox+Vagrant安装虚拟机

文章目录 一、下载Virtualbox和Vagrant1、下载2、安装 二、安装虚拟机1、新建目录D:\VirtualMachine2、执行vagrant init centos/7命令,就会在该目录下创建Vagrantfile文件3、执行vagrant up命令4、查看当前主机分给虚拟机的网关网段5、找到D:\VirtualMachine下的Va…

BUUCTF 九连环 1

BUUCTF:https://buuoj.cn/challenges 题目描述: 下载附件,解压得到一张.jpg图片。 密文: 解题思路: 1、一张图片,典型的图片隐写。放到Kali中,使用binwalk检测,确认图片中隐藏zip压缩包。 使…

java初探之代理模式

代理模式 代理模式一般有三种角色: 没有使用代理模式的话可能就会直接去操作真实的对象 加入代理模式就是加入了 隔离 把我们的真实对象与调用者隔离了一下(代理对象) 代理对象的好处? 使用者(client)跟真实的对象是没有直接的交集的。不会直接操作到…

.Net8 Blazor 尝鲜

全栈 Web UI 随着 .NET 8 的发布,Blazor 已成为全堆栈 Web UI 框架,可用于开发在组件或页面级别呈现内容的应用,其中包含: 用于生成静态 HTML 的静态服务器呈现。使用 Blazor Server 托管模型的交互式服务器呈现。使用 Blazor W…