五、大模型(LLMs)RAG检索增强生成面

本文精心汇总了多家顶尖互联网公司在大模型RAG检索增强生成考核中的核心考点,并针对这些考点提供了详尽的解答。并提供电子版本,见于文末百度云盘链接中,供读者查阅。

5.1 大模型(LLMsRAG 入门篇

基于LLM+向量库的文档对话 经验面

 一、基于LLM+向量库的文档对话 基础面

 1.1 为什么 大模型 需要 外挂(向量)知识库?

 1.2. 基于LLM+向量库的文档对话 思路是怎么样?

 1.3. 基于LLM+向量库的文档对话 核心技术是什么?

 1.4. 基于LLM+向量库的文档对话 prompt 模板 如何构建?

 二、基于LLM+向量库的文档对话 存在哪些痛点?

 三、基于LLM+向量库的文档对话 工程示例面

RAG(Retrieval-Augmented Generation)面

 一、LLMs 已经具备了较强能力了,存在哪些不足点?

 二、什么是 RAG?

 2.1 R:检索器模块

 2.1.1 如何获得准确的语义表示?

 2.1.2 如何协调查询和文档的语义空间?

 2.1.3 如何对齐检索模型的输出和大语言模型的偏好?

 2.2 G:生成器模块

 2.2.1 生成器介绍

 2.2.2 如何通过后检索处理提升检索结果?

 2.2.3 如何优化生成器应对输入数据?

 三、使用 RAG 的好处?

 四、RAG V.S. SFT

 五、介绍一下 RAG 典型实现方法?

 5.1 如何 构建 数据索引?

 5.2 如何 对数据进行 检索(Retrieval)?

 5.3 对于 检索到的文本,如果生成正确回复?

 六、介绍一下 RAG 典型案例?

 七、RAG 存在什么问题?

5.2 大模型(LLMsRAG 版面分析篇

大模型(LLMs)RAG —— pdf解析关键问题

 一、为什么需要进行pdf解析?

 二、为什么需要  pdf 进行解析?

 三、pdf解析 有哪些方法,对应的区别是什么?

 四、pdf解析 存在哪些问题

 五、如何 长文档(书籍)中关键信息?

 六、为什么要提取标题甚至是多级标题?

 七、如何提取 文章标题?

 八、如何区分单栏还是双栏pdf?如何重新排序?

 九、如何提取表格和图片中的数据?

 十、基于AI的文档解析有什么优缺点?

大模型(LLMs)RAG 版面分析——表格识别方法篇

 一、为什么需要识别表格?

 二、介绍一下 表格识别 任务?

 三、有哪些 表格识别方法?

 3.1 传统方法

 3.2 pdfplumber表格抽取

 3.2.1 pdfplumber 如何进行 表格抽取?

 3.2.2 pdfplumber 常见的表格抽取模式?

 3.3 深度学习方法-语义分割

 3.3.1 table-ocr/table-detect:票据图片复杂表格框识别(票据单元格切割)

 3.3.2 腾讯表格图像识别

 3.3.3 TableNet

 3.3.4 CascadeTabNet

 3.3.5 SPLERGE

 3.3.6 DeepDeSRT

大模型(LLMs)RAG 版面分析——文本分块面

 一、为什么需要对文本分块?

 二、能不能介绍一下常见的文本分块方法?

 2.1 一般的文本分块方法

 2.2 正则拆分的文本分块方法

 2.3 Spacy Text Splitter 方法

 2.4 基于 langchain  CharacterTextSplitter 方法

 2.5 基于 langchain  递归字符切分 方法

 2.6 HTML 文本拆分 方法

 2.7 Mrrkdown 文本拆分 方法

 2.8 Python代码拆分 方法

 2.9 LaTex 文本拆分 方法

5.3 大模型(LLMsRAG 检索策略篇

大模型外挂知识库优化——如何利用大模型辅助召回?

 一、为什么需要使用大模型辅助召回?

 策略一: HYDE

1. 介绍一下 HYDE 思路?

2. 介绍一下 HYDE 问题?

 策略二: FLARE

1. 为什么 需要 FLARE

2. FLARE 有哪些召回策略?

大模型外挂知识库优化——负样本样本挖掘篇

 一、为什么需要构建负难样本?

 二、负难样本构建方法篇

 2.1 随机采样策略(Random Sampling)方法

 2.2 Top-K负例采样策略(Top-K Hard Negative Sampling)方法

 2.3 困惑负样本采样方法SimANS 方法

 2.4 利用 对比学习微调 方式构建负例方法

 2.5 基于批内负采样的对比学习方法

 2.6 相同文章采样方法

 2.7 LLM辅助生成软标签及蒸馏

 辅助知识

 附一:梯度计算方法

5.4 大模型(LLMsRAG 评测篇

RAG(Retrieval-Augmented Generation)评测面

 一、为什么需要  RAG 进行评测?

 二、RAG 有哪些评估方法?

 三、RAG 有哪些关键指标和能力?

 四、RAG 有哪些评估框架?

5.5 大模型(LLMsRAG 优化策略篇

检索增强生成(RAG) 优化策略篇

一、RAG基础功能篇

 1.1 RAG 工作流程

 二、RAG 各模块有哪些优化策略?

 三、RAG 架构优化有哪些优化策略?

 3.1 如何利用 知识图谱(KG)进行上下文增强?

 3.1.1 典型RAG架构中,向量数据库进行上下文增强 存在哪些问题?

 3.1.2 如何利用 知识图谱(KG)进行上下文增强?

 3.2 Self-RAG:如何让 大模型  召回结果 进行筛选?

 3.2.1 典型RAG架构中,向量数据库 存在哪些问题?

 3.2.2 Self-RAG:如何让 大模型  召回结果 进行筛选?

 3.2.3 Self-RAG  创新点是什么?

 3.2.4 Self-RA  训练过程?

 3.2.5 Self-RAG  推理过程?

 3.2.6 Self-RAG  代码实战?

 3.3 多向量检索器多模态RAG

 3.3.1 如何让 RAG 支持 多模态数据格式?

 3.3.1.1 如何让 RAG 支持 半结构化RAG(文本+表格)?

 3.3.1.2 如何让 RAG 支持 多模态RAG(文本+表格+图片)?

 3.3.1.3 如何让 RAG 支持 私有化多模态RAG(文本+表格+图片)?

 3.4 RAG Fusion 优化策略

 3.5 模块化 RAG 优化策略

 3.6 RAG 新模式 优化策略

 3.7 RAG 结合 SFT

 3.8 查询转换(Query Transformations

 3.9 bertRAG中具体是起到了一个什么作用,我刚搜了下nsp的内容,但有点没法将这几者联系起来

 四、RAG 索引优化有哪些优化策略?

 4.1 嵌入 优化策略

 4.2 RAG检索召回率低,一般都有哪些解决方案呀。尝试过不同大小的chunk,和混合检索。效果都不太

好,然后优化?

 4.3 RAG 如何 优化索引结构?

 4.4 如何通过 混合检索 提升 RAG 效果?

 4.5 如何通过 重新排名 提升 RAG 效果?

 五、RAG 索引数据优化有哪些优化策略?

 5.1 RAG 如何 提升索引数据的质量?

 5.2 如何通过添加元数据 提升 RAG 效果?

 5.3 如何通过 输入查询与文档对齐 提升 RAG 效果?

 5.4 如何通过 提示压缩 提升 RAG 效果?

 5.5 如何通过 查询重写和扩展 提升 RAG 效果?

 RAG 未来发展方向

 Rag 的垂直优化

 RAG 的水平扩展

 RAG 生态系统

RAG 关键痛点及对应解决方案

 前言

 问题一:内容缺失问题

 1.1 介绍一下 内容缺失问题?

 1.2 如何 解决 内容缺失问题?

 问题二:错过排名靠前的文档

 2.1 介绍一下 错过排名靠前的文档 问题?

 2.2 如何 解决 错过排名靠前的文档 问题?

 问题三:脱离上下文  整合策略的限制

 3.1 介绍一下 脱离上下文  整合策略的限制 问题?

 3.2 如何 解决 脱离上下文  整合策略的限制 问题?

 问题四:未能提取答案

 4.1 介绍一下 未能提取答案 问题?

 4.2 如何 解决 未能提取答案 问题?

 问题五:格式错误

 5.1 介绍一下 格式错误 问题?

 5.2 如何 解决 格式错误 问题?

 问题六: 特异性错误

 6.1 介绍一下 特异性错误 问题?

 6.2 如何 解决 特异性错误 问题?

 问题七: 回答不全面

 7.1 介绍一下 回答不全面 问题?

 7.2 如何 解决 回答不全面 问题?

 问题八: 数据处理能力的挑战

 8.1 介绍一下 数据处理能力的挑战 问题?

 8.2 如何 解决 数据处理能力的挑战 问题?

 问题九: 结构化数据查询的难题

 9.1 介绍一下 结构化数据查询的难题 问题?

 9.2 如何 解决 结构化数据查询的难题 问题?

 问题十: 从复杂PDF文件中提取数据

 10.1 介绍一下 从复杂PDF文件中提取数据 问题?

 10.2 如何 解决 从复杂PDF文件中提取数据 问题?

 问题十一: 备用模型

 11.1 介绍一下 备用模型 问题?

 11.2 如何 解决 备用模型 问题?

 问题十二: 大语言模型(LLM)的安全挑战

 12.1 介绍一下 大语言模型(LLM)的安全挑战 问题?

 12.2 如何 解决 大语言模型(LLM)的安全挑战 问题?

大模型(LLMs)RAG 优化策略 —— RAG-Fusion经验面

 一、RAG 有哪些优点?

 二、RAG 存在哪些局限性?

 三、为什么 需要 RAG-Fusion

 四、说一下 RAG-Fusion 核心技术?

 五、说一下 RAG-Fusion 工作流程?

 5.1 多查询生成

 5.2 多查询生成 技术实现(提示工程)?

 5.3 多查询生成 工作原理?

 5.4 逆向排名融合(RRF

        • 5.4.1 为什么选择RRF

        • 5.4.2 RRF 技术实现?

        • 5.4.3 生成性输出 用户意图保留

        • 5.4.4 生成性输出 用户意图保留 技术实现

完整内容

通过网盘分享的文件:05大模型 RAG 经验面
链接: https://pan.baidu.com/s/1iohaJndTRBcG2pgPq25fgg 提取码: ux2y 
--来自百度网盘超级会员v5的分享

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/458767.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

VGG16

1️⃣ VGG介绍 Alexnet证明了神经网络变深是有效的,因此网络能不能更深更大?   VGG(visual geometry group)是由牛津大学提出的使用“块思想”的网络,通过使用循环和子程序可以很容易地在任何现代深度学习框架的代码…

Transformer多步时序预测:多变量输入,单变量输出

文章目录 Transformer类数据集类训练函数测试函数画图计算指标读取数据计时开始训练 数据集来源: https://github.com/zhouhaoyi/ETDataset import torch import torch.nn as nn import numpy as np import pandas as pd import math import time from sklearn.pre…

RabbitMq-队列交换机绑定关系优化为枚举注册

📚目录 📚简介:🚀比较💨通常注册🌈优化后注册 ✍️代码💫自动注册的关键代码 📚简介: 该项目介绍,rabbitMq消息中间件,对队列的注册,交换机的注册&#xff0c…

使用pyinstaller将python代码打包为exe程序

打包exe 对于不懂程序的人来说,可能有这样一个认识上的误区:只有能够直接打开的exe才是平常经常见到的程序,py文件不能算是程序。 在这种情况下,一些python的使用者可能非常苦恼:怎么才能够让我的程序,看…

博客搭建之路:hexo搜索引擎收录

文章目录 hexo搜索引擎收录以百度为例 hexo搜索引擎收录 hexo版本5.0.2 npm版本6.14.7 next版本7.8.0 写博客的目的肯定不是就只有自己能看到,想让更多的人看到就需要可以让搜索引擎来收录对应的文章。hexo支持生成站点地图sitemap 在hexo下的_config.yml中配置站点…

2-ZYNQ 折腾记录 -PMU

The AMD Zyng UltraScale MPSoC包括一个专用的用户可编程处理器,该平台测量单元(Platform Measurement Unit, PMU)处理器用于电源、错误管理和执行可选的软件测试库(Software Test Library, STL)用于功能安全应用。 PMU执行以下一组任务。启动前对系统的初始化。电…

Video-XL:面向小时级视频理解的超长视觉语言模型

在人工智能领域,视频理解一直是一个挑战性的任务,尤其是对于长时间视频内容的理解。现在,Video-XL的问世标志着我们在这一领域迈出了重要的一步。Video-XL是一个专为小时级视频理解设计的超长视觉语言模型,它能够处理超长视频序列…

BUUCTF之web篇

第一题 [极客大挑战 2019]EasySQL 打开靶机后可以看到这是一个登陆的页面 我们可以尝试两种方式登录 弱口令爆破(burpsuite) 通过SQL注入里的万能密码来跳过账户和密码验证的过程 这里就需要万能密码aor true # 在这里单引号的作用是结束用户名或者密码…

【Javaee】网络原理—http协议(一)

前言 本篇文章将详细介绍http协议,将介绍http抓包工具的下载与使用。 目录 一.http协议初识 1.概念 2.特点 1)版本 2)工作方式 二.http抓包工具 1.抓包是什么 2.抓包软件下载(Fiddler) 3.使用 三.http格式 …

04C++循环结构

//while 循环#include <iostream> using namespace std; int main() { int num0; while (num<10){ cout<<num<<endl; num; } return 0; } //do while语句 #include <iostream> using namespace std; int mai…

Appium中的api(一)

目录 1.基础python代码准备 1--参数的一些说明 2--python内所要编写的代码 解释 2.如何获取包名和界面名 1-api 2-完整代码 代码解释 3.如何关闭驱动连接 4.安装卸载app 1--卸载 2--安装 5.判断app是否安装 6.将应用放到后台在切换为前台的时间 7.UIAutomatorViewer的使用 1--找…

并联 高电压、高电流 放大器实现 2 倍输出电流模块±2A

1.1 并联输出电路设计注意事项 直接对两个功率运算放大器的输出进行硬接线并不是一种好的电气做法。如果两个运算放大器的输出直接连接在一起&#xff0c;则可能会导致不均匀的电流共享。这是因为其中的每个运算放大器都尝试强制施加略微不同的 Vout 电压&#xff0c;该电压取决…

vulnhub(16):sickos(两种打点方式)

端口 ip&#xff1a;192.168.72.154 nmap -Pn -p- 192.168.72.154 --min-rate 10000PORT STATE SERVICE 22 open ssh 3128 open http-proxy 8080 closed http-proxy web渗透方式一&#xff1a;web后台 正常访问80端口&#xff0c;是不开放的&#xff0c;我们需要配置…

高速定向广播声光预警系统赋能高速安全管控

近年来&#xff0c;高速重大交通事故屡见不鲜&#xff0c;安全管控一直是高速运营的重中之重。如何利用现代化技术和信息化手段&#xff0c;创新、智能、高效的压降交通事故的发生概率&#xff0c;优化交通安全管控质量&#xff0c;是近年来交管部门的主要工作&#xff0c;也是…

云原生Istio基础

一&#xff0e;Service Mesh 架构 Service Mesh&#xff08;服务网格&#xff09;是一种用于处理服务到服务通信的专用基础设施层。它的主要目的是将微服务之间复杂的通信和治理逻辑从微服务代码中分离出来&#xff0c;放到一个独立的层中进行管理。传统的微服务架构中&#x…

浅析Android View绘制过程中的Surface

前言 在《浅析Android中View的测量布局流程》中我们对VSYNC信号到达App进程之后开启的View布局过程进行了分析&#xff0c;经过对整个App界面的View树进行遍历完成了测量和布局&#xff0c;确定了View的大小以及在屏幕中所处的位置。但是&#xff0c;如果想让用户在屏幕上看到…

【十六进制数转十进制数 】

【十六进制数转十进制数 】 C语言版本C 版本Java版本Python版本 &#x1f490;The Begin&#x1f490;点点关注&#xff0c;收藏不迷路&#x1f490; 从键盘接收一个十六进制数&#xff0c;编程实现将其转换成十进制数。 输入 输入一个十六进制数 输出 输出一个十进制数 样…

GitHub 上的优质 Linux 开源项目,真滴硬核!

作为一名互联网人&#xff0c;提起 Linux 大家都不陌生&#xff0c;尤其是日常跟 Linux 操作系统打交道最多的&#xff0c;最熟悉不过了。互联网上关于 Linux 相关的教程和资料也非常的多&#xff0c;但是当你从中筛选出真正对自己有帮助的资料是需要花费很大精力与时间的。 G…

JVM基础(内存结构)

文章目录 内存结构JAVA堆方法区 &#xff08;Method Area&#xff09;运行时常量池&#xff08;Runtime Constant Pool&#xff09; 虚拟机栈 &#xff08;Java Virtual Machine Stack&#xff09;本地方法摘栈&#xff08;Native Method Stacks&#xff09;程序计数器&#xf…

交易的人生就是对未来不断的挑战!

在这个充满不确定性的市场中&#xff0c;我们每个人都渴望找到一条通往成功的路径。在Eagle Trader交易员中&#xff0c;有一位资深交易者&#xff0c;他不仅对交易有着不同寻常的执着和热爱&#xff0c;而且他的真诚见解和独到的交易哲学&#xff0c;可能会触动你的心弦。他的…