Elasticsearch:在 Elastic 中访问机器学习模型

作者:Bernhard Suhm, Josh Devins

Elastic 支持你需要的机器学习模型

Elastic® 让你可以应用适合你的用例和 ML 专业水平的机器学习 (ML)。 你有多种选择:

  1. 利用内置的模型。 除了我们的可观察性和安全解决方案中针对特定安全威胁和系统问题类型的模型外,你还可以开箱即用地使用我们专有的 Elastic Learned Sparse Encoder 模型,以及语言识别 —— 如果你使用非英文文本数据。
  2. 从任何地方访问第三方 PyTorch 模型,包括 HuggingFace 模型中心。
  3. 加载你自己训练的模型 —— 此时主要是 NLP transformer。

使用内置模型可以让你获得开箱即用的价值,不需要你具备任何 ML 专业知识,而且你可以灵活地尝试不同的模型并确定哪种模型对你的数据表现最好。

我们将模型管理设计为可扩展到集群中的多个节点,同时确保高吞吐量和低延迟工作负载的良好推理性能。 这在一定程度上是通过授权摄取管道运行推理,并通过使用专用节点进行计算要求高的模型推理 —— 在摄取阶段,以及数据分析和搜索。

继续阅读以了解有关 Eland 库的更多信息,该库可让你将模型加载到 Elastic 中,以及它如何对你可能在 Elasticsearch® 中使用的各种类型的机器学习发挥作用 —— 从最新的 transformer 和自然语言处理 (NLP) 模型到提升 tree 回归模型。

Eland 让你可以将 ML 模型加载到 Elastic

我们的 Eland 库提供了一个简单的界面,可以将 ML 模型加载到 Elasticsearch 中 —— 前提是它们是使用 PyTorch 训练的。 使用原生库 libtorch,并期望已导出或保存为 TorchScript 表示的模型,Elasticsearch 避免在执行模型推理时运行 Python 解释器。

通过与 PyTorch 中用于构建 NLP 模型的最流行格式之一集成,Elasticsearch 可以提供一个可处理各种 NLP 任务和用例的平台。 我们将在接下来的 transformer 部分对此进行更多介绍。

你可以通过三种方式使用 Eland 上传模型:命令行、Docker 和你自己的 Python 代码。 Docker 不那么复杂,因为它不需要在本地安装 Eland 及其所有依赖项。 访问 Eland 后,下面的代码示例显示了如何上传 DistilBERT NER 模型,例如:

下面我们将详细介绍 eland_import_hub_model 的每个参数。 你可以从 Docker 容器发出相同的命令。

上传后,Kibana 的 ML 模型管理用户界面可让你管理 Elasticsearch 集群上的模型,包括增加额外吞吐量的分配,以及在(重新)配置系统时停止/恢复模型。

支持哪些模型?

Elastic 支持多种 transformer 模型,以及最流行的监督学习库:

  • NLP 和 embedding 模型:所有符合标准 BERT 模型接口,使用 WordPiece 分词算法的 transformer。 查看支持的模型架构的完整列表。
  • 监督学习:来自 scikit-learn、XGBoost 和 LightGBM 库的训练模型被序列化并用作 Elasticsearch 中的推理模型。 我们的文档提供了一个示例,用于训练 XGBoost 对 Elastic 中的数据进行分类。 你还可以使用我们的 data frame 分析导出和导入在 Elastic 中训练的受监督模型。
  • Genarative AI:你可以使用为 LLM(Large Language Model) 提供的 API 来传递查询 —— 可能使用从 Elastic 检索到的上下文进行丰富 —— 并处理返回的结果。 有关更多说明,请参阅此博客,该博客链接到 GitHub 存储库,其中包含用于通过 ChatGPT 的 API 进行通信的示例代码。

下面我们提供了有关你最有可能在搜索应用程序上下文中使用的模型类型的更多信息:NLP transformer。

如何在 Elastic 中轻松应用 transformers 和 NLP!

让我们引导你完成加载和使用 NLP 模型的步骤,例如来自 Hugging Face 的流行 NER 模型,并检查以下代码片段中标识的参数。

  1. 指定 Elastic cloud 标识符。 或者,使用 --url
  2. 提供身份验证详细信息以访问你的集群。 你可以查找可用的身份验证方法。
  3. 在 Hugging Face 模型中心指定模型的标识符。
  4. 指定 NLP 任务的类型。 支持的值为 fill_masknertext_classificationtext_embeddingzero_shot_classification

加载模型后,接下来需要部署它。 你可以在 Kibana 中机器学习选项卡的模型管理屏幕上完成此操作。 然后,你通常会测试模型以确保其正常工作。

现在你已准备好使用部署的模型进行推理。 例如,要提取命名实体,你可以在加载的 NER 模型上调用 _infer 端点:

该模型识别两个实体:人 “Josh” 和地点 “Berlin”。

有关其他步骤,例如在推理管道中使用此模型和调整部署,请阅读描述此示例的博客。

想看看如何应用语义搜索 —— 例如,如何为文本创建嵌入,然后应用向量搜索来查找相关文档? 该博客逐步说明了这一点,包括验证模型性能。

不知道哪个模型的任务类型? 该表应该可以帮助你入门。 

Hugging Face Model

task-type

Named entity recognition

ner

Text embedding

text_embedding

Text classification

text_classification

Zero shot classification

zero_shot_classification

Question answeringquestion_answering

Elastic 还支持将两段文本彼此的相似程度作为 text_similarity 任务类型进行比较 —— 这对于在将文档文本与另一个提供的文本输入进行比较时对文档文本进行排名很有用,有时也称为交叉编码。

查看这些资源以获取更多详细信息

  • 支持 PyTorch transformer,包括 Eland 的设计注意事项
  • 将 transformers 加载到 Elastic 并在推理中使用它们的步骤
  • 描述如何使用 ChatGPT 查询专有数据的博客
  • 使预训练的 transformer 适应文本分类任务,并将自定义模型加载到 Elastic
  • 内置语言识别,让你在传递到仅支持英语的模型之前识别非英语文本

Elastic、Elasticsearch 和相关标记是 Elasticsearch N.V. 在美国和其他国家/地区的商标、徽标或注册商标。 所有其他公司和产品名称均为其各自所有者的商标、徽标或注册商标。

本博文中描述的任何特性或功能的发布和时间安排均由 Elastic 自行决定。 当前不可用的任何特性或功能可能无法按时交付或根本无法交付。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/30226.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

谁是Al生成内容的作者?从法律视角的探讨

我们知道Al作品也可以具有独创性,并具备成为作品的条件。那么谁才是Al作品的作者呢?这次我们来一起分析下。 一、作者的定义 在版权法中,作者通常被定义为作品的创造者,是作品的原始所有者,并享有对作品的各种权利。通…

【电路原理学习笔记】第2章:电压、电流和电阻:本章习题

第2章:电压、电流和电阻 以后还是分开做,每一节习题都按节做,不集中在一起做了,太累了,而且要忙其他事,好不容易凑了几天时间做这个题 本章习题 同步练习 (2-1)3C电荷对应于多少…

深耕视听领域的匠人,如何看多媒体技术未来? | 专访上海交大宋利

引言 20 世纪 80 年代,当多媒体技术诞生,一个全新的多媒体应用时代大幕徐徐开启。四十年间,一代代技术人不断投身多媒体事业,这其中有许多深耕该领域的匠心人,埋首研究并持续创新,引领和推动多媒体技术不断…

怎么系统的阅读文献

文章目录 一、文献阅读1、综述类文献 review article2、研究类文章 research article3、方法学的文章第一部分 综述类文章的阅读第二部分 研究型文章的阅读a. 研究型论文结构b. 如何有选择阅读文献c. 如果整理笔记 Citation和Reference的区别 二、文献阅读工具1、Connected Pap…

微信登录——授权登录获取用户信息

引言 实现微信扫码登录关键之处就是获取到微信用户信息,那么这就涉及到了微信授权,通过微信授权我们可以获取到用户信息;微信官方文档写的还是比较详细的,但是没有代码演示,这里我就用代码演示一下如何实现微信授权登…

空指针的传说——从神秘出生到打败AI败类

大家好,我是数行天下,某C9双985硕士,交叉学科专业背景,具有多元化思维视角,拥有金融科技、互联网等多行业职业经历,现为某头部金融机构高级系统架构师。热爱思考,从过去到未来都有强烈的好奇心&…

LLM-2023:Auto-GPT

从本质上来看,Auto-GPT 是一种自动文本生成技术,它使用深度学习算法来生成类似人类的文本。它基于生成式预训练转换器 ( GPT ) 架构,是一种旨在生成自然语言文本的神经网络。 来源:https://github.com/Significant-Gravitas/Auto-GPT 据开发者介绍,Auto-GPT 是由 GPT-4 …

强烈推荐一个Python可视化模块,简单又好用!

超级无敌干货,第一时间送达!!! 数据可视化动画还在用Excel做? 现在一个简单的Python包就能分分钟搞定! 而且生成的动画也足够丝滑,效果是酱紫的: 这是一位专攻Python语言的程序员开发…

如何在家赚钱?宅在家里做点什么能挣钱

当今社会,由于各种原因,越来越多的人宅在家里,或者说下班之余宅家的空闲时间很多。这个时候呢,大家就会想利用空闲时间做点兼职副业来增收。 在这个信息爆炸的时代,互联网无疑是你实现在家赚钱的理想平台。宅在家里&am…

2023年,知识付费行业呈现哪些发展趋势?

艾媒咨询数据显示,2022年中国知识付费市场规模达1126.5亿元,较2015年增长约70倍,预计将在2025年超过2800亿元。随着疫情形势持续好转,知识付费的“居家红利”或将逐渐消退,但三年来用户的付费求知和在线学习习惯已经养…

一起推动更为广泛的创新发生!AIGC分布式创新联盟#工作小组介绍

AIGC 破圈前行 闯荡星际 分布式 无地域限制 跨领域整合 社区参与~ 游戏化积分激励 开放共享的创新生态 对于时代的声音,你会选择 一探究竟 加入我们 一波正经的自我介绍 AIGC分布式创新联盟由无界社区Mixlab、青年DAO、AIGC涌现小酒馆发起。联盟采取超级个体社群的共…

如何通过AI图片数字人引流变现,轻松日入1000+

AI图片数字人项目 项目分析 今天要跟大家分享关于AI图片数字人项目的玩法思路,最近有一个大佬通过玩AI图片数字人,在各大平台获得了惊人的涨粉效果,通过收徒变现和电商带货,轻松日收1000,我希望每一次的分享不仅仅是…

对不起,ChatGPT 不会干掉你,而是干掉整个行业

观点| Mr.K 主笔| Wendy.L 来源| 技术领导力(ID:jishulingdaoli) 近日,根据网站流量监测平台SimilarWeb的数据,自从OpenAI的对话人工智能工具ChatGPT推出以来,程序员们交流技术问题的问答网站平台Stack Overflow的流量骤降&…

借助ChatGPT,每天制作100条短视频

原文:‍‬‍‍⁡‬‌‬⁤‌⁡⁣‌⁡⁣⁤‬⁣‌‌⁢⁡‌⁤‍⁢⁣‌‌⁣‍⁤⁣⁤⁡⁢⁡⁣⁢https://wfscknagql.feishu.cn/docx/HZAPd1iIXoHo5mxcUBZcd3ILnsc 一直研究ChatGPT究竟能做什么,网上有太多的文章,不管别人…

43 岁硅谷技术大拿命丧街头,真凶落网:熟人作案,是 Expand IT 创始人

整理 | 朱珂欣 出品 | CSDN程序人生(ID:coder_life) 据旧金山警察局( SFPD )官网发布的警情通报显示,4 月 4 日凌晨 2 点 35 分左右,旧金山南站警察在 Main Street 的第 300 街区接到一起刺伤案,一名 43…

Twitter CEO辞任,硅谷印度裔高管再添一人

“不知道你们听说了没,但是我已辞去推特的工作了”。 当地时间11月29日, Twitter联合创始人、CEO杰克多西(Jack Dorsey)发布推文正式宣布辞去CEO职位,由CTO帕拉格阿格拉瓦尔(Parag Agrawal)接替…

硅谷华人天才CEO被开除,是否会有奇迹发生?

目录 1、事件始末2、侯晓迪是谁?3、全球自动驾驶卡车领军者4、侯晓迪公开信5、会有奇迹发生? 1、事件始末 著名自动驾驶卡车公司图森未来(TuSimple, TSP)10 月 31 日突然表示,已将首席执行官兼联合创始人侯晓迪解雇&a…

文案改写原创用什么软件v.1.2.1

文案改写原创软件是一款用于改写文本内容的专业软件,它可以帮助用户快速地改写文章而不会丢失文章的原意。它可以帮助用户从现有文章中获取原创性内容,并让文章更有创意和独到之处。 文案改写原创用什么软件: 自去年11月发布以来,…

下班后有什么可以做的副业?分享几个靠谱线上和线下副业

工作之余,做副业不仅可以增加收入,还有助于提高技能以及开拓人际关系。以下是几种可以尝试的副业,每一种都有其独特的优势和挑战。 一、代理销售:找到适合自己的代理销售产品,比如化妆品、保健品、服装等。可以通过社交…

普通人可以做的七个小众副业,让你告别死工资

现在有什么副业又简单又可以赚得一定的收入呢,当然是有的,下面分享七个适合普通人操作的七个小众副业。 1.手工制品 现在手工制品越来越贵,可以做的种类也很多,比如粘土.针织.滴胶.奶油.手机壳.发夹之类的,又是兴趣&a…