本文精心汇总了多家顶尖互联网公司在大模型RAG检索增强生成考核中的核心考点,并针对这些考点提供了详尽的解答。并提供电子版本,见于文末百度云盘链接中,供读者查阅。
5.1 大模型(LLMs)RAG 入门篇
基于LLM+向量库的文档对话 经验面
• 一、基于LLM+向量库的文档对话 基础面
• 1.1 为什么 大模型 需要 外挂(向量)知识库?
• 1.2. 基于LLM+向量库的文档对话 思路是怎么样?
• 1.3. 基于LLM+向量库的文档对话 核心技术是什么?
• 1.4. 基于LLM+向量库的文档对话 prompt 模板 如何构建?
• 二、基于LLM+向量库的文档对话 存在哪些痛点?
• 三、基于LLM+向量库的文档对话 工程示例面
RAG(Retrieval-Augmented Generation)面
• 一、LLMs 已经具备了较强能力了,存在哪些不足点?
• 二、什么是 RAG?
• 2.1 R:检索器模块
• 2.1.1 如何获得准确的语义表示?
• 2.1.2 如何协调查询和文档的语义空间?
• 2.1.3 如何对齐检索模型的输出和大语言模型的偏好?
• 2.2 G:生成器模块
• 2.2.1 生成器介绍
• 2.2.2 如何通过后检索处理提升检索结果?
• 2.2.3 如何优化生成器应对输入数据?
• 三、使用 RAG 的好处?
• 四、RAG V.S. SFT
• 五、介绍一下 RAG 典型实现方法?
• 5.1 如何 构建 数据索引?
• 5.2 如何 对数据进行 检索(Retrieval)?
• 5.3 对于 检索到的文本,如果生成正确回复?
• 六、介绍一下 RAG 典型案例?
• 七、RAG 存在什么问题?
5.2 大模型(LLMs)RAG 版面分析篇
大模型(LLMs)RAG —— pdf解析关键问题
• 一、为什么需要进行pdf解析?
• 二、为什么需要 对 pdf 进行解析?
• 三、pdf解析 有哪些方法,对应的区别是什么?
• 四、pdf解析 存在哪些问题
• 五、如何 长文档(书籍)中关键信息?
• 六、为什么要提取标题甚至是多级标题?
• 七、如何提取 文章标题?
• 八、如何区分单栏还是双栏pdf?如何重新排序?
• 九、如何提取表格和图片中的数据?
• 十、基于AI的文档解析有什么优缺点?
大模型(LLMs)RAG 版面分析——表格识别方法篇
• 一、为什么需要识别表格?
• 二、介绍一下 表格识别 任务?
• 三、有哪些 表格识别方法?
• 3.1 传统方法
• 3.2 pdfplumber表格抽取
• 3.2.1 pdfplumber 如何进行 表格抽取?
• 3.2.2 pdfplumber 常见的表格抽取模式?
• 3.3 深度学习方法-语义分割
• 3.3.1 table-ocr/table-detect:票据图片复杂表格框识别(票据单元格切割)
• 3.3.2 腾讯表格图像识别
• 3.3.3 TableNet
• 3.3.4 CascadeTabNet
• 3.3.5 SPLERGE
• 3.3.6 DeepDeSRT
大模型(LLMs)RAG 版面分析——文本分块面
• 一、为什么需要对文本分块?
• 二、能不能介绍一下常见的文本分块方法?
• 2.1 一般的文本分块方法
• 2.2 正则拆分的文本分块方法
• 2.3 Spacy Text Splitter 方法
• 2.4 基于 langchain 的 CharacterTextSplitter 方法
• 2.5 基于 langchain 的 递归字符切分 方法
• 2.6 HTML 文本拆分 方法
• 2.7 Mrrkdown 文本拆分 方法
• 2.8 Python代码拆分 方法
• 2.9 LaTex 文本拆分 方法
5.3 大模型(LLMs)RAG 检索策略篇
大模型外挂知识库优化——如何利用大模型辅助召回?
• 一、为什么需要使用大模型辅助召回?
• 策略一: HYDE
1. 介绍一下 HYDE 思路?
2. 介绍一下 HYDE 问题?
• 策略二: FLARE
1. 为什么 需要 FLARE ?
2. FLARE 有哪些召回策略?
大模型外挂知识库优化——负样本样本挖掘篇
• 一、为什么需要构建负难样本?
• 二、负难样本构建方法篇
• 2.1 随机采样策略(Random Sampling)方法
• 2.2 Top-K负例采样策略(Top-K Hard Negative Sampling)方法
• 2.3 困惑负样本采样方法SimANS 方法
• 2.4 利用 对比学习微调 方式构建负例方法
• 2.5 基于批内负采样的对比学习方法
• 2.6 相同文章采样方法
• 2.7 LLM辅助生成软标签及蒸馏
• 辅助知识
• 附一:梯度计算方法
5.4 大模型(LLMs)RAG 评测篇
RAG(Retrieval-Augmented Generation)评测面
• 一、为什么需要 对 RAG 进行评测?
• 二、RAG 有哪些评估方法?
• 三、RAG 有哪些关键指标和能力?
• 四、RAG 有哪些评估框架?
5.5 大模型(LLMs)RAG 优化策略篇
检索增强生成(RAG) 优化策略篇
一、RAG基础功能篇
• 1.1 RAG 工作流程
• 二、RAG 各模块有哪些优化策略?
• 三、RAG 架构优化有哪些优化策略?
• 3.1 如何利用 知识图谱(KG)进行上下文增强?
• 3.1.1 典型RAG架构中,向量数据库进行上下文增强 存在哪些问题?
• 3.1.2 如何利用 知识图谱(KG)进行上下文增强?
• 3.2 Self-RAG:如何让 大模型 对 召回结果 进行筛选?
• 3.2.1 典型RAG架构中,向量数据库 存在哪些问题?
• 3.2.2 Self-RAG:如何让 大模型 对 召回结果 进行筛选?
• 3.2.3 Self-RAG 的 创新点是什么?
• 3.2.4 Self-RA 的 训练过程?
• 3.2.5 Self-RAG 的 推理过程?
• 3.2.6 Self-RAG 的 代码实战?
• 3.3 多向量检索器多模态RAG篇
• 3.3.1 如何让 RAG 支持 多模态数据格式?
• 3.3.1.1 如何让 RAG 支持 半结构化RAG(文本+表格)?
• 3.3.1.2 如何让 RAG 支持 多模态RAG(文本+表格+图片)?
• 3.3.1.3 如何让 RAG 支持 私有化多模态RAG(文本+表格+图片)?
• 3.4 RAG Fusion 优化策略
• 3.5 模块化 RAG 优化策略
• 3.6 RAG 新模式 优化策略
• 3.7 RAG 结合 SFT
• 3.8 查询转换(Query Transformations)
• 3.9 bert在RAG中具体是起到了一个什么作用,我刚搜了下nsp的内容,但有点没法将这几者联系起来
• 四、RAG 索引优化有哪些优化策略?
• 4.1 嵌入 优化策略
• 4.2 RAG检索召回率低,一般都有哪些解决方案呀。尝试过不同大小的chunk,和混合检索。效果都不太
好,然后优化?
• 4.3 RAG 如何 优化索引结构?
• 4.4 如何通过 混合检索 提升 RAG 效果?
• 4.5 如何通过 重新排名 提升 RAG 效果?
• 五、RAG 索引数据优化有哪些优化策略?
• 5.1 RAG 如何 提升索引数据的质量?
• 5.2 如何通过添加元数据 提升 RAG 效果?
• 5.3 如何通过 输入查询与文档对齐 提升 RAG 效果?
• 5.4 如何通过 提示压缩 提升 RAG 效果?
• 5.5 如何通过 查询重写和扩展 提升 RAG 效果?
• RAG 未来发展方向
• Rag 的垂直优化
• RAG 的水平扩展
• RAG 生态系统
RAG 关键痛点及对应解决方案
• 前言
• 问题一:内容缺失问题
• 1.1 介绍一下 内容缺失问题?
• 1.2 如何 解决 内容缺失问题?
• 问题二:错过排名靠前的文档
• 2.1 介绍一下 错过排名靠前的文档 问题?
• 2.2 如何 解决 错过排名靠前的文档 问题?
• 问题三:脱离上下文 — 整合策略的限制
• 3.1 介绍一下 脱离上下文 — 整合策略的限制 问题?
• 3.2 如何 解决 脱离上下文 — 整合策略的限制 问题?
• 问题四:未能提取答案
• 4.1 介绍一下 未能提取答案 问题?
• 4.2 如何 解决 未能提取答案 问题?
• 问题五:格式错误
• 5.1 介绍一下 格式错误 问题?
• 5.2 如何 解决 格式错误 问题?
• 问题六: 特异性错误
• 6.1 介绍一下 特异性错误 问题?
• 6.2 如何 解决 特异性错误 问题?
• 问题七: 回答不全面
• 7.1 介绍一下 回答不全面 问题?
• 7.2 如何 解决 回答不全面 问题?
• 问题八: 数据处理能力的挑战
• 8.1 介绍一下 数据处理能力的挑战 问题?
• 8.2 如何 解决 数据处理能力的挑战 问题?
• 问题九: 结构化数据查询的难题
• 9.1 介绍一下 结构化数据查询的难题 问题?
• 9.2 如何 解决 结构化数据查询的难题 问题?
• 问题十: 从复杂PDF文件中提取数据
• 10.1 介绍一下 从复杂PDF文件中提取数据 问题?
• 10.2 如何 解决 从复杂PDF文件中提取数据 问题?
• 问题十一: 备用模型
• 11.1 介绍一下 备用模型 问题?
• 11.2 如何 解决 备用模型 问题?
• 问题十二: 大语言模型(LLM)的安全挑战
• 12.1 介绍一下 大语言模型(LLM)的安全挑战 问题?
• 12.2 如何 解决 大语言模型(LLM)的安全挑战 问题?
大模型(LLMs)RAG 优化策略 —— RAG-Fusion经验面
• 一、RAG 有哪些优点?
• 二、RAG 存在哪些局限性?
• 三、为什么 需要 RAG-Fusion?
• 四、说一下 RAG-Fusion 核心技术?
• 五、说一下 RAG-Fusion 工作流程?
• 5.1 多查询生成
• 5.2 多查询生成 技术实现(提示工程)?
• 5.3 多查询生成 工作原理?
• 5.4 逆向排名融合(RRF)
• 5.4.1 为什么选择RRF?
• 5.4.2 RRF 技术实现?
• 5.4.3 生成性输出 用户意图保留
• 5.4.4 生成性输出 用户意图保留 技术实现
完整内容
通过网盘分享的文件:05大模型 RAG 经验面
链接: https://pan.baidu.com/s/1iohaJndTRBcG2pgPq25fgg 提取码: ux2y
--来自百度网盘超级会员v5的分享