【Elasticsearch】文本分类聚合Categorize Text Aggregation

【Elasticsearch】文本分类聚合Categorize Text Aggregation

news/2025/3/9 12:20:06/文章来源:https://blog.csdn.net/risc123456/article/details/145450061

响应参数讲解:

key （字符串）由 categorization_analyzer 提取的标记组成，这些标记是类别中所有输入字段值的共同部分。 doc_count （整数）与类别匹配的文档数量。 max_matching_length （整数）从较短消息中生成的类别也可能与从较长消息中生成的类别匹配。 max_matching_length 表示应被视为属于该类别的消息的最大长度。在搜索属于该类别的消息时，任何长度超过 max_matching_length 的消息都应被排除。使用此字段可以防止对短消息类别的搜索匹配到更长的消息。

regex （字符串）一个正则表达式，它将匹配类别中包含的所有输入字段值。在类别中包含的值的顺序不同时， regex 可能不会包含 key 中的每个术语。然而，在简单情况下， regex 将是按顺序连接的术语组成的正则表达式，允许在它们之间有任意部分。不建议将 regex 作为搜索原始被分类文档的主要机制，因为正则表达式搜索非常慢。相反，应该使用 key 字段中的术语来搜索匹配的文档，因为术语搜索可以利用倒排索引，因此速度要快得多。然而，在某些情况下，使用 regex 字段来测试未被索引的少量消息是否属于该类别，或者确认 key 中的术语在所有匹配文档中按正确顺序出现，可能是有用的。

总结:

重新分析大型结果集将需要大量的时间和内存。应将此聚合与异步搜索（Async search）结合使用。此外，你还可以考虑将该聚合作为采样器（sampler）或多样化采样器（diversified sampler）聚合的子聚合使用。这通常可以提高速度和内存使用效率。

POST log-messages/_search

{

"aggs": {

"categories": {

"categorize_text": {

"field": "message"

}

}

}

}

输出

{

"aggregations": {

"categories": {

"buckets": [

{

"doc_count": 3,

"key": "Node shutting down",

"regex": ".*?Node.+?shutting.+?down.*?",

"max_matching_length": 49

},

{

"doc_count": 1,

"key": "Node starting up",

"regex": ".*?Node.+?starting.+?up.*?",

"max_matching_length": 47

}

]

}

}

}

使用 categorization_analyzer 的示例配置：

{

"aggs": {

"categories": {

"categorize_text": {

"field": "message",

"categorization_analyzer": {

"char_filter": ["html_strip"],

"tokenizer": "ml_standard",

"filter": ["lowercase", "stop"]

}

}

}

}

}

使用 categorization_filters 的示例配置：

{

"aggs": {

"categories": {

"categorize_text": {

"field": "message",

"categorization_filters": [

"\\w+\\_\\d{3}", // 过滤掉类似 "foo_123" 的模式

"ERROR:.*" // 过滤掉以 "ERROR:" 开头的日志

]

}

}

}

}

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/13128.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

基于SpringBoot的信息技术知识赛系统的设计与实现(源码+SQL脚本+LW+部署讲解等)

基于SpringBoot的信息技术知识赛系统的设计与实现(源码+SQL脚本+LW+部署讲解等)

专注于大学生项目实战开发,讲解,毕业答疑辅导，欢迎高校老师/同行前辈交流合作✌。技术范围：SpringBoot、Vue、SSM、HLMT、小程序、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、安卓app、大数据、物联网、机器学习等设计与开发。主要内容：…

阅读更多...

Windows Docker笔记-安装docker

Windows Docker笔记-安装docker

安装环境操作系统：Windows 11 家庭中文版 docker版本：Docker Desktop version: 4.36.0 (175267) 注意： Docker Desktop 支持以下Windows操作系统： 支持的版本：Windows 10（家庭版、专业版、企业版、教育…

阅读更多...

《Kettle保姆级教学-界面介绍》

《Kettle保姆级教学-界面介绍》

目录一、Kettle介绍二、界面介绍1.界面构成2、菜单栏详细介绍2.1 【文件F】2.2 【编辑】2.3 【视图】2.4 【执行】2.5 【工具】2.6 【帮助】 3、转换界面介绍4、作业界面介绍5、执行结果一、Kettle介绍 Kettle 是一个开源的 ETL（Extract, Transform, Load&#x…

阅读更多...

新型智慧城市建设方案-1

新型智慧城市建设方案-1

智慧城市建设的背景与需求随着信息技术的飞速发展，新型智慧城市建设成为推动城市现代化、提升城市管理效率的重要途径。智慧城市通过整合信息资源，优化城市规划、建设和管理，旨在打造更高效、便捷、宜居的城市环境。智慧城市建设的主要内容…

阅读更多...

【Java计算机毕业设计】基于Springboot的物业信息管理系统【源代码+数据库+LW文档+开题报告+答辩稿+部署教程+代码讲解】

【Java计算机毕业设计】基于Springboot的物业信息管理系统【源代码+数据库+LW文档+开题报告+答辩稿+部署教程+代码讲解】

源代码数据库LW文档（1万字以上）开题报告答辩稿部署教程代码讲解代码时间修改教程一、开发工具、运行环境、开发技术开发工具 1、操作系统：Window操作系统 2、开发工具：IntelliJ IDEA或者Eclipse 3、数据库存储&#xff1a…

阅读更多...

ollama部署deepseek实操记录

ollama部署deepseek实操记录

1. 安装 ollama 1.1 下载并安装官网 https://ollama.com/ Linux安装命令 https://ollama.com/download/linux curl -fsSL https://ollama.com/install.sh | sh安装成功截图 3. 开放外网访问 1、首先停止ollama服务：systemctl stop ollama 2、修改ollama的servic…

阅读更多...

Agentic Automation：基于Agent的企业认知架构重构与数字化转型跃迁---我的AI经典战例

Agentic Automation：基于Agent的企业认知架构重构与数字化转型跃迁---我的AI经典战例

文章目录 Agent代理Agent组成我在企业实战AI Agent企业痛点我构建的AI Agent App 项目开源 & 安装包下载大家好，我是工程师令狐，今天想给大家讲解一下AI智能体，以及企业与AI智能体的结合，文章中我会列举自己在企业中Agent实…

阅读更多...

图论常见算法

图论常见算法

图论常见算法算法prim算法Dijkstra算法用途最小生成树（MST）：最短路径：拓扑排序：关键路径： 算法用途适用条件时间复杂度Kruskal最小生成树无向图（稀疏图）O(E log E)Prim最小生成树无…

阅读更多...

手机上运行AI大模型(Deepseek等)

手机上运行AI大模型(Deepseek等)

最近deepseek的大火，让大家掀起新一波的本地部署运行大模型的热潮，特别是deepseek有蒸馏的小参数量版本，电脑上就相当方便了，直接ollamaopen-webui这种类似的组合就可以轻松地实现，只要硬件，如显存&#xf…

阅读更多...

Java进阶学习之路

Java进阶学习之路

Java进阶之路提示：这里可以添加系列文章的所有文章的目录，目录需要自己手动添加提示：写完文章后，目录可以自动生成，如何生成可参考右边的帮助文档目录 Java进阶之路前言一、Java入门 Java基础 1、Java概述 1.1 什…

阅读更多...

SpringBoot使用 easy-captcha 实现验证码登录功能

SpringBoot使用 easy-captcha 实现验证码登录功能

文章目录一、环境准备1. 解决思路2. 接口文档3. redis下载二、后端实现1. 引入依赖2. 添加配置3. 后端代码实现4. 前端代码实现在前后端分离的项目中，登录功能是必不可少的。为了提高安全性，通常会加入验证码验证。 easy-captcha 是一个简单易用的验…

阅读更多...

Android 常用命令和工具解析之Battery Historian

Android 常用命令和工具解析之Battery Historian

Batterystats是包含在 Android 框架中的一种工具，用于收集设备上的电池数据。您可以使用adb bugreport命令抓取日志，将收集的电池数据转储到开发机器，并生成可使用 Battery Historian 分析的报告。Battery Historian 会将报告从 Batterystats…

阅读更多...

如何安装PHP依赖库更新2025.2.3

如何安装PHP依赖库更新2025.2.3

要在PHP项目中安装依赖，首先需要确保你的系统已经安装了Composer。Composer是PHP的依赖管理工具，它允许你声明项目所需的库，并管理它们。以下是如何安装Composer和在PHP项目中安装依赖的步骤： 一. 安装Composer 对于Windows用户…

阅读更多...

DeepSeek各版本说明与优缺点分析

DeepSeek各版本说明与优缺点分析

DeepSeek各版本说明与优缺点分析 DeepSeek是最近人工智能领域备受瞩目的一个语言模型系列，其在不同版本的发布过程中，逐步加强了对多种任务的处理能力。本文将详细介绍DeepSeek的各版本，从版本的发布时间、特点、优势以及不足之处&#xff0…

阅读更多...

【机器学习与数据挖掘实战】案例11：基于灰色预测和SVR的企业所得税预测分析

【机器学习与数据挖掘实战】案例11：基于灰色预测和SVR的企业所得税预测分析

【作者主页】Francek Chen 【专栏介绍】 ⌈ ⌈ ⌈机器学习与数据挖掘实战 ⌋ ⌋ ⌋ 机器学习是人工智能的一个分支，专注于让计算机系统通过数据学习和改进。它利用统计和计算方法，使模型能够从数据中自动提取特征并做出预测或决策。数据挖掘则是从大型数据集中发现模式、关联…

阅读更多...

InnoDB和MyISAM的比较、水平切分和垂直切分、主从复制中涉及的三个线程、主从同步的延迟产生和解决

InnoDB和MyISAM的比较、水平切分和垂直切分、主从复制中涉及的三个线程、主从同步的延迟产生和解决

InnoDB和MyISAM的比较事务支持： InnoDB支持：支持事务 (ACID 属性)。支持 Commit、Rollback 和 Savepoint 操作。适合需要事务处理的应用，例如银行系统。MyISAM:不支持事务。每次操作都是自动提交，不能回滚或中止。适合对事务要求…

阅读更多...

【免费】2007-2019年各省科技支出占一般公共预算支出的比重数据

【免费】2007-2019年各省科技支出占一般公共预算支出的比重数据

2007-2019年各省科技支出占一般公共预算支出的比重数据 1、时间：2007-2019年 2、来源：国家统计局、统计年鉴 3、指标：行政区划代码、地区名称、年份、科技支出占一般公共预算支出的比重 4、范围：31省 5、指标解释&#xff1a…

阅读更多...

tkvue 入门，像写html一样写tkinter

tkvue 入门，像写html一样写tkinter

介绍没有官网，只有例子安装像写vue 一样写tkinter 代码 pip install tkvue作者博客修改样式 import tkvue import tkinter.ttk as ttktkvue.configure_tk(theme"clam")class RootDialog(tkvue.Component):template """ <Top…

阅读更多...

哪些专业跟FPGA有关？

哪些专业跟FPGA有关？

FPGA产业作为近几年新兴的技术领域，薪资高、待遇好，吸引了大量的求职者。特别是对于毕业生，FPGA领域的岗位需求供不应求。那么，哪些专业和FPGA相关呢？ 哪些专业跟FPGA有关？ 微电子学与固体电子学、微电子科…

阅读更多...

pytorch实现门控循环单元 (GRU）

pytorch实现门控循环单元 (GRU）

人工智能例子汇总：AI常见的算法和例子-CSDN博客特性GRULSTM计算效率更快，参数更少相对较慢，参数更多结构复杂度只有两个门（更新门和重置门）三个门（输入门、遗忘门、输出门）处理长时依赖一般适…

阅读更多...

最新文章

推荐文章