【训练细节解读】文本智能混合分块(Mixtures of Text Chunking,MoC)引领RAG进入多粒度感知智能分块阶段

【训练细节解读】文本智能混合分块(Mixtures of Text Chunking,MoC)引领RAG进入多粒度感知智能分块阶段

news/2025/3/15 9:14:18/文章来源:https://blog.csdn.net/qq_36603091/article/details/146254553

RAG系统在处理复杂上下文时，传统和语义分块方法的局限性，文本分块的质量限制了检索到的内容，从而影响生成答案的准确性。尽管其他算法组件有所进步，但分块策略中的增量缺陷仍可能在一定程度上降低整体系统性能。如何直接量化分块质量?如何有效利用大型语言模型（LLMs）进行分块?如何在保持计算效率的同时提高分块精度等问题一直是我们RAG工作中的严重挑战！
MoC架构是一个混合框架，通过一个多粒度感知的路由器动态协调轻量级分块专家。该架构创新性地整合了：一个正则表达式引导的分块范式，一个基于稀疏激活的计算资源约束机制，以及一个由编辑距离驱动的校正算法。

核心创新：双重评估指标与混合分块架构

在这里插入图片描述

问题定义
- RAG系统的瓶颈：传统文本分块方法（如固定长度分割、语义相似度分块）存在两大缺陷：
- 语义割裂：固定分块破坏逻辑单元，语义分块易忽略长程依赖。
- 评估间接性：现有方法依赖下游任务（如QA准确率）间接评估分块质量，噪声干扰大。
方法论突破
- 双重直接评估指标：
  - 边界清晰度（Boundary Clarity, BC）：
    通过计算分块边界处困惑度（PPL）差异，量化边界明确性（公式1）。值越高，分块越符合语义逻辑。用于评估分块在分隔语义单元方面的有效性。具体计算公式如下：
$\operatorname{BC}(q, d)=\frac{\operatorname{ppl}(q\mid d)}{\operatorname{ppl}(q)}$

其中， $\operatorname{ppl}(q)$ 表示句子序列 $q$ 的困惑度， $\operatorname{ppl}(q\mid d)$ 表示在给定上下文 $d$ 下的对比困惑度。较低的困惑度值表示模型对文本的理解较好，而较高的值表示语义解释的不确定性较大。
- 块粘性（Chunk Stickiness, CS）：
  构建分块间语义关联图，计算结构熵。值越低，分块独立性越强。该指标用于评估文本块之间的紧密性和顺序完整性。具体计算公式如下：
$\operatorname{Edge}(q, d)=\frac{\operatorname{ppl}(q)-\operatorname{ppl}(q\mid d)}{\operatorname{ppl}(q)}$

其中，边的权重表示文本块之间的相似度。构建一个语义关联图，节点表示文本块，边权重表示文本块之间的相似度。通过计算编辑距离来恢复算法，确保生成的分块规则与原始文本一致。
- 混合分块器（MoC）架构：
  - 数据集构建：使用GPT-4o生成文本块，并通过结构化

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/33420.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

Jmeter下载及环境配置

Jmeter下载及环境配置

Jmeter下载及环境配置 java环境变量配置配置jdk环境变量检查是否配置成功JMeter下载 java环境变量配置访问地址： https://www.oracle.com/cn/java/technologies/downloads/ 注意：需要自己注册账号下载完成，解压后的目录为： …

阅读更多...

coze ai assistant Task 2

coze ai assistant Task 2

创建一个智能体：夸夸机器人 https://www.coze.cn/store/agent/7480939060010713138?bot_idtrue 改为豆包系列-豆包角色扮演添加bingWebSearch搜索添加前： 添加后： 改为工具调用： 添加知识库使用长期记忆结合自己的需求&…

阅读更多...

Unity基于C#+UGUI解决方案，制作每日签到系统（本地存储签到数据）

Unity基于C#+UGUI解决方案，制作每日签到系统（本地存储签到数据）

一、需求介绍：基于本地存储系统制作一个每日签到系统界面，相关签到界面如下图所示，点击“签到有礼”按钮后就会跳转到“每日登录礼”这个界面，点击“立即签到”按钮之后，按钮就会置灰，而且按钮的文字会变成“等待明日”。二、制作界面显示相关功能，需要在Unity中新建一…

阅读更多...

多线程(超详细) (ε≡٩(๑＞₃＜)۶ 一心向学)

多线程(超详细) (ε≡٩(๑＞₃＜)۶ 一心向学)

多线程目录一、认识线程 1、概念： 1) 线程是什么 2) 线程为什么存在 3) 进程与线程的区别二、创建线程 1、方法1：继承Thread类 2、方法2：实现 Runnable 接口 3、方法3：匿名内部类创建 Thread 子类对象 4、方法4&#…

阅读更多...

SpringBoot——Maven篇

SpringBoot——Maven篇

Spring Boot 是一个用于快速开发基于 Spring 框架的应用程序的工具。它具有许多特性，其中一些重要的特性包括： 1. 自动配置：Spring Boot 提供了自动配置的机制，可以根据应用程序的依赖和环境自动配置应用程序的各种组件&#xff…

阅读更多...

中文大语言模型提示工程：解锁AI力量的密钥（完整优化版）

中文大语言模型提示工程：解锁AI力量的密钥（完整优化版）

文章目录 **引言：AI时代的"咒语"革命****一、为什么中文提示工程是技术深水区？****1.1 中文的"模糊美学"挑战****1.2 文化认知鸿沟****1.3 分词歧义陷阱** **二、中文提示工程六脉神剑（附实战代码）****2.1 结…

阅读更多...

C++中虚析构函数的作用是什么？为什么基类需要虚析构函数？

C++中虚析构函数的作用是什么？为什么基类需要虚析构函数？

C中虚析构函数的作用是什么？为什么基类需要虚析构函数？ 在C中，虚析构函数（virtual destructor）的作用是确保在通过基类指针或引用删除派生类对象时，能够正确调用派生类的析构函数，从而避免资源…

阅读更多...

【C++项目实战】校园公告搜索引擎：完整实现与优化指南

【C++项目实战】校园公告搜索引擎：完整实现与优化指南

🎬 个人主页：谁在夜里看海. 📖 个人专栏：《C系列》《Linux系列》《算法系列》 ⛰️ 道阻且长，行则将至目录 📚一、项目概述 📖1.项目背景 📖2.主要功能 📖3.界面展…

阅读更多...

大数据技术之Spark优化

大数据技术之Spark优化

第 1 章 Spark 性能调优问：spark 优化第一句：我们可以从性能，算子，shuffle 过程以及 jvm 四个方面展开优化。 1 常规性能调优 1.1 常规性能调优一：最优资源配置 Spark 性能调优的第一步，就是为任务分配更多的资源，在一定范围内，增加资源的分配与性能的提升是成正…

阅读更多...

【 Manus平替开源项目】

【 Manus平替开源项目】

文章目录 Manus平替开源项目1 OpenManus1.1 简介1.2 安装教程1.3 运行 2 OWL2.1 简介2.2 安装教程2.3 运行 3 OpenHands（原OpenDevin）3.1 简介3.2 安装教程和运行 Manus平替开源项目 1 OpenManus 1.1 简介开发团队: MetaGPT 核心贡献者（5…

阅读更多...

《Java SQL 操作指南：深入理解 Statement 用法与优化》

《Java SQL 操作指南：深入理解 Statement 用法与优化》

在 Java 数据库编程中，Statement 是用于执行 SQL 语句的接口，允许程序与数据库进行交互。本文将详细介绍 Statement 的基本概念、常见用法以及 PreparedStatement 和 CallableStatement 等相关接口。 1. Statement 基本介绍 Statement 接口继承了 AutoC…

阅读更多...

FFMPEG录制远程监控摄像头MP4

FFMPEG录制远程监控摄像头MP4

手绘效果图上图是录制功能的HTML前端页面，录制功能和解码视频放在一起。录制功能关键是录制(开始录制按钮)、停止录像按钮。当点击“录制”的时候则会开始录制MP4文件, 当点击停止的时候就会停止录制MP4。经过录制后，则会生成MP4,并放到我的RV1126的/tm…

阅读更多...

数据类型及sizeof，进制转换

数据类型及sizeof，进制转换

其实数据类型可以讲很多内容，这里看情况需要讲多久吧。本篇基本都是理论。目录数据类型的分类基本数据类型构造数据类型指针类型空类型计算数据类型或变量所占用的内存字节数基本语法进制转换二进制二进制的概念二进制与十进制的转换十六进…

阅读更多...

网络安全之tcpdump工具

网络安全之tcpdump工具

引言 wireshark是一款非常不错的抓包软件，在图形化界面占绝对统治地位；尽管其在字符界面下有些许选项可供使用，但终究不太方便，下面我再介绍一款NB的终端抓包工具 tcpdump 1、混杂模式 linux的网卡有混杂模式一说，当开…

阅读更多...

建筑管理(2): 施工承包模式,工程监理,质量监督

建筑管理(2): 施工承包模式,工程监理,质量监督

文章目录一. 施工承包模式1. 施工总承包模式1.1 施工总承包的特点1.2 施工总承包模式中的承包方 2. 平行承包模式3. 联合体与合作体承包模式二. 工程监理1. 强制实行监理的工程范围1.1 国家重点建设工程1.2 大中型公用事业工程(重点)1.3 成片开发建设的住宅小区工程1.4 必须实…

阅读更多...

[LeetCode热门100题]|137，260，268，面试17.19

[LeetCode热门100题]|137，260，268，面试17.19

1、137 只出现一次数字|| 1、题目描述 137 只出现一次数字||https://leetcode.cn/problems/single-number-ii/description/ 给你一个整数数组 nums ，除某个元素仅出现一次外，其余每个元素都恰出现三次。请你找出并返回那个只出现了一次的元素。你…

阅读更多...

MySQL中有哪几种锁？

MySQL中有哪几种锁？

大家好，我是锋哥。今天分享关于【MySQL中有哪几种锁？】面试题。希望对大家有帮助； MySQL中有哪几种锁？ 1000道互联网大厂Java工程师精选面试题-Java资源分享网在MySQL中，锁是用来控制并发访问的机制，确…

阅读更多...

外贸企业可以申请网络专线吗？

外贸企业可以申请网络专线吗？

在对外业务不断扩大的情况下，外贸企业对网络的需求愈发迫切。稳定、快速的网络连接不仅是企业开展国际业务的基础，更是提升竞争力的关键。外贸企业是否可以申请网络专线？如何选择适合的外贸网络专线服务？本文将为您详细解答。网络…

阅读更多...

python笔记2

python笔记2

变量：含义一个容器，计算机当中的存储空间。可以理解为一个用于标识或引用数据的名字或标签。作用： 可以通过定义一个变量来给需要使用多次的数据命名，就像一个标签一样。下次需要使用这个数据时，只需要通过这个变…

阅读更多...

【算法】动态规划

【算法】动态规划

⭐️个人主页：小羊 ⭐️所属专栏：Linux 很荣幸您能阅读我的文章，诚请评论指点，欢迎欢迎 ~ 目录持续更新中...1、常规动态规划Fibonacci数列杨辉三角最小花费爬楼梯孩子们的游戏 2、背包问题3、最长公共子序列4、最长递增子序列…

阅读更多...

最新文章

推荐文章