[论文笔记]RAFT: Adapting Language Model to Domain Specific RAG

引言

今天带来一篇结合RAG和微调的论文:RAFT: Adapting Language Model to Domain Specific RAG。

为了简单,下文中以翻译的口吻记录,比如替换"作者"为"我们"。

本文介绍了检索增强微调(Retrieval Augmented Fine Tuning , RAFT)训练方法,可以提高模型在“开卷”领域内问答的能力。在训练RAFT时,给定一个问题和一组检索到的文档,我们训练模型忽略那些在回答问题时无用的文档,即干扰文档。RAFT通过逐字引用相关文档中的正确序列来帮助回答问题,同时结合RAFT的思维链式响应,帮助提高模型的推理能力。

1. 总体介绍

LLM越来越多地被用于专业领域,在这些场景中,通用知识推理的作用较小,主要目标是基于给定的文档集最大化准确性。本文研究了以下问题:如何将预训练的LLMs适应于专业领域中的检索增强生成?

在将LLMs适应于专业领域时,我们考虑了以下两个方案:通过检索增强生成进行的上下文学习和监督微调。基于RAG的方法允许LLM在回答问题时引用文档。然而,基于RAG的上下文学习方法未能利用固定领域设置。另一种选择是监督微调,这提供了学习文档中更一般模式的机会,并更好地与最终任务和用户偏好对齐。然而,现有的基于微调的方法要么未能在测试时利用文档(没有融入RAG),要么未能在训练过程中考虑检索过程中的不完美之处。

Refer to caption

图1: 如何最好地准备考试?(a)基于微调的方法通过直接记忆输入文档或回答练习问答而不引用文档来实现“学习”。(b)另一方面,上下文检索方法未能利用固定领域所提供的学习机会,相当于在没有学习的情况下参加开卷考试。相比之下,RAFT通过在模拟的不完美检索环境中参考文档,并结合问题-答案对进行微调——从而有效地为开卷考试做好准备。

可以类比于开卷考试。现有的上下文检索方法就像是在没有学习的情况下参加开卷考试。另一方面,现有的基于微调的方法通过直接“记住”输入文档或回答练习问题来实现“学习”,但不引用文档。虽然这些方法利用了领域内的学习,但未能为开卷考试的特性做好准备。

本文研究了如何将指令微调(IFT)与检索增强生成(RAG)相结合。提出了一种新颖的适应策略——检索增强微调(RAFT)。RAFT专门解决了将LLMs微调以融入领域知识的挑战,同时提高领域内RAG的表现。RAFT不仅使模型能够通过微调学习领域特定的知识,还确保对干扰性检索信息的鲁棒性。实现这一目标的方法是训练模型理解问题(prompt)、检索到的领域特定文档和正确答案之间的动态关系。回到开卷考试的类比,我们的方法类似于通过识别相关和无关的检索文档来准备开卷考试。

在RAFT中,我们训练模型在存在干扰文档( D k D_k Dk)的情况下从文档( D ∗ D^* D)中回答问题( Q Q Q),生成答案( A ∗ A^* A),其中 A ∗ A^* A包括思维链推理。

代码发布在 https://github.com/ShishirPatil/gorilla 。

2. LLM用于开卷考试

这里用开卷和闭卷考试来进行类比。

闭卷考试 通常指的是LLMs在考试期间无法访问任何额外文档或参考资料来回答问题的情况。例如,在这个场景中,LLM作为聊天机器人使用,从预训练和监督微调中获得的知识来回应用户的提示。

开卷考试 相对而言,我们将开卷考试的设置比作LLM可以参考外部信息源(例如网站或书籍章节)的场景。在这种情况下,LLM通常与检索器配对,检索器获取k份文档(或文档的特定部分),并将其附加到用户的提示中。LLM通过这些检索到的文档获得领域特定信息。因此,在这些设置中,LLM作为通用LLM的表现在很大程度上依赖于检索器的质量以及检索器准确识别最相关信息的能力。

领域特定开卷考试 在本文中,我们关注比一般开卷考试更狭窄但日益流行的领域,即我们称之为领域特定开卷考试。在这种情况下,我们事先知道LLM将被测试的领域。LLM可以使用在该特定领域上进行微调的任何信息来回应用户的提示。领域特定的例子包括企业文档、组织的代码库等。在所有这些场景中,LLM将用于回答可以在文档集合中找到答案的问题。检索技术本身对机制的影响很小。本文研究了领域特定开卷考试的设置以及如何将预训练的LLM适应于该特定领域,包括如何使其对不同数量的检索文档和干扰项更加鲁棒。

3. RAFT

Refer to caption

图2: RAFT方法的概述。左上图展示了将LLMs适应于从一组正面和干扰文档中提取答案的方法,与标准RAG设置相比,后者基于检索器的输出进行训练,这是一种记忆与阅读的混合方式。在测试时,所有方法都遵循标准RAG设置,提供了上下文中的前k个检索文档。

监督微调

考虑一个用于问答数据集的监督微调(SFT设置。该设置包括从数据集( D D D)中提取或已有的一组问题( Q Q Q)及其对应的答案( Q Q Q)对。在经典的SFT设置中,模型被训练以提高其基于知识回答问题的能力。经过这样的训练,模型也可以在测试时与检索增强生成RAG设置一起使用,在此情况下,额外的文档可以被引入提示中,以帮助模型回答问题。可以表示如下:
{ 训练: Q → A } , { 0 − s h o t 推理: Q → A } , { R A G 推理: Q + D → A } \{训练:Q → A\},\{0-shot推理:Q → A\},\{RAG推理:Q + D → A\} {训练:QA}{0shot推理:QA}{RAG推理:Q+DA}
RAFT: 检索增强微调(RAFT) 提供了一种新颖的方法来准备微调数据,以使模型适应领域特定的开卷考试设置,相当于领域内RAG。在RAFT中,我们准备训练数据,使每个数据点包含一个问题( Q Q Q)、一组文档( D k D_k Dk)以及从其中一个文档( D ∗ D^* D)生成的思维链风格答案( A ∗ A^* A)。我们区分两类文档:golden文档( D ∗ D* D),即可以从中推导出问题答案的文档,以及干扰文档( D i D_i Di),即不包含答案信息的文档。作为实现细节,golden文档不必是单一文档,而可以是多个文档。对于数据集中P比例的问题( q i q_i qi),保留黄金文档( d i ∗ d_i^* di和干扰文档( d k − 1 d_{k-1} dk1)。对于(1-P)比例的问题( q i ) q_i) qi),不包括黄金文档,只包括干扰文档( d k d_k dk)。然后,我们使用标准的监督训练(SFT)技术对语言模型进行微调,训练模型从提供的文档和问题中生成答案。图2展示了RAFT的高级设计原则。

RAG方法使模型在其训练的文档集上表现更好,即在领域内。通过在某些情况下移除黄金文档,促使模型记忆答案而不是从上下文中推导答案。RAFT的训练数据如下,示例训练数据见图3。
P % of data : Q + D ∗ + D 1 + D 2 + . . . + D k → A ∗ (1 − P) % of data : Q + D 1 + D 2 + . . . + D k → A ∗ \text{P \% of data}: Q + D^∗ + D_1 + D_2 + . . . + D_k → A∗ \\ \text{(1 − P) \% of data}: Q + D_1 + D_2 + . . . + D_k → A∗ P % of data:Q+D+D1+D2+...+DkA(1 − P) % of data:Q+D1+D2+...+DkA
image-20240903072105160

随后,在测试场景中,模型会接收到问题 Q Q Q以及RAG流水线检索到的前k个文档。注意RAFT与所使用的检索器无关。

提高训练质量的一个关键因素是生成推理过程,例如思维链,以解释提供的答案。RAFT方法类似:创建完整的推理链,并明确引用来源,可以提高模型在回答问题时的准确性。在图3中,以这种方式生成训练数据涉及向模型提供问题、上下文和经过验证的答案,然后要求模型形成一个适当引用原始上下文的推理链。

在实验中,对于所有数据集,使用上述技术生成答案。Gorilla APIBench数据集已经包含了答案中的推理过程。我们在图3中提供了生成步骤的示例,详细的推理答案包括来自原始上下文的引用,位于##begin_quote####end_quote##之间,以及如何基于这些引用得出结论的详细解释。添加详细的推理段落可以帮助提升模型在实验中的表现。

4. 评估

我们设计实验以研究RAFT与各种基线方法的表现。我们发现,RAFT-7B模型(LlaMA-2的微调版本)在从领域特定文档中读取和提取信息的能力上优于领域特定微调模型和带有RAG的通用模型。作为消融实验,我们还展示了模型学习思维链响应的重要性。

数据集

使用以下数据集来评估我们的模型和所有基线。

  • Natural Questions(NQ)
  • Trivia QA
  • HotpotQA
  • HuggingFace
  • Torch Hub
  • TensorFlow Hub
  • PubMed QA

NQ、Trivia QA和HotpotQA是相对通用领域的数据集,而其他则是领域特定文档的数据集。

基线

在实验中考虑了以下基线方法:

  • LlaMA2-7B-chat模型,0-shot提示:这是常用的用于问答任务的指令微调模型,我们提供清晰的书面指令,但没有参考文档。
  • LlaMA2-7B-chat模型与RAG(Llama2 + RAG):与之前的设置类似,不同的是这里包括了参考文档。这是在处理领域特定问答任务时的一个流行技术。
  • 领域特定微调与0-shot提示(DSF):标准监督微调,没有上下文中的文档。我们发现它主要用于调整模型的回答风格以及熟悉领域背景。
  • 领域特定微调与RAG(DSF + RAG):使用RAG为领域特定微调的模型提供外部知识。因此,对于模型不知道的知识,它仍然可以参考上下文。

4.1 结果

image-20240903073301954

使用上述数据集和基线,评估了RAFT模型,并在表1中展示了RAFT的有效性。我们发现RAFT在提取信息和对抗干扰项方面始终显著优于基线。与基础Llama-2指令微调模型相比,带有RAG的RAFT在信息提取和对干扰项的鲁棒性方面表现更好。

与特定数据集上的DSF相比,我们的模型在依赖提供的上下文解决问题方面表现更佳。

总体而言,LLaMA-7B模型,无论是否使用RAG,其表现都较差,因为其回答风格与实际情况不符。通过应用领域特定微调,我们显著提升了其性能。这一过程使模型能够学习和采用适当的回答风格。然而,将RAG引入领域特定微调(DSF)模型并不总是能带来更好的结果。这可能表明模型在上下文处理和信息提取方面的训练不足。通过采用我们的RAFT方法,我们不仅使模型的回答风格匹配要求,还改善了其文档处理能力。因此,我们的方法优于所有其他方法。

4.2 CoT的效果

image-20240903073629230

还评估了思维链方法在提升模型性能方面的有效性。如表2所示,仅仅提供答案可能并不总是足够的。这种方法可能导致损失快速下降,从而使模型开始过拟合。引入一个推理链,不仅引导模型得到答案,还能丰富模型的理解,可以提高整体准确性并防止过拟合简短答案。在我们的实验中,整合思维链显著提高了训练的鲁棒性。我们使用GPT-4-1106生成思维链提示,并在图3中包括了我们使用的提示示例。

4.3 质量分析

image-20240903073836549

为了说明RAFT相对于领域特定微调(DSF)方法的潜在优势,我们在图4中展示了一个对比示例。这个示例定性地展示了一个场景,其中DSF模型在回答一个要求识别编剧身份的问题时变得困惑。它错误地引用了编剧写的电影之一,而没有提供正确的名字。相比之下,RAFT模型准确回答了问题。这一差异表明,仅用问答对训练模型可能会削弱其从提供的文档中提取相关上下文的能力。这个对比突显了在训练数据集中整合标准的指令微调和上下文理解的重要性,以保持和提升模型处理文本的能力。

4.4 是否应该始终使用Golden上下文来训练LLM以进行RAG?

image-20240903074112154

在我们探索大型语言模型是否应该始终使用Golden上下文进行检索增强生成时,我们提出了一个关键问题:训练数据中应该包含多少比例( p % p\% p%)的黄金文档?直观上,可能会假设,为了有效地训练阅读和从上下文中提取信息,Golden文档应在训练过程中始终包含( P = 100 % P = 100\% P=100%)。然而,我们的发现挑战了这一假设:在上下文中包含部分没有黄金文档的训练数据( P = 80 % P = 80\% P=80%)似乎能够提升模型在RAG任务上的表现。

图5展示了我们对超参数 P % P\% P%的调查, P % P\% P%表示应包含黄金文档的训练实例的百分比。我们发现,最佳比例因数据集而异, P % P\% P%范围从40%、60%到100%不等。这表明,在训练LLM时,有时不包含正确的上下文可能对下游任务(如回答与文档相关的问题)有益。在我们的训练设置中,我们在Golden文档旁边包含了四个干扰文档,并且在测试时,我们保持这种格式,提供了黄金文档和四个干扰文档。我们的发现表明,对于领域特定的RAG任务,将一定比例的训练数据中不包含Golden文档的上下文被证明是有利的

5. RAFT 在 Top-K RAG 上的泛化能力

在使用 Top-K RAG 结果进行评估时,RAFT 中干扰文档的数量如何影响模型的性能?之前的研究已经突出了 LLM 对无关文本的脆弱性。这个问题对于 LLMs + RAG 特别重要,因为在测试时经常使用 Top-K RAG 以确保高召回率。这种情况下,模型需要具备辨别和忽略无关内容的能力,专注于相关信息。

5.1 提高模型对 Top-K RAG 的鲁棒性

为了解决提升 LLM 在检索管道中筛选无关文本的能力的挑战,我们的分析显示,单独使用Golden(高度相关)文档进行训练可能会不自觉地削弱模型辨别和忽略无关信息的能力。为此,我们的算法 RAFT 采用了一种将Golden文档与一部分无关文档混合的策略。这种方法促使我们研究在整个训练过程中应纳入多少干扰(无关)文档,以及这种训练方法如何适应测试阶段 RAG 遇到的不同文档量。我们的目标是优化相关和无关信息之间的平衡,以增强模型识别和利用相关内容的效率。

image-20240903074624267

使用干扰文档进行训练

为了提高 LLM 对检索文档中无关文本的鲁棒性,我们采用了一种包含黄金(Golden,高度相关)文档和干扰(无关)文档的微调方法。模型在包含不同数量的干扰文档的情况下进行训练,但始终使用从检索器获得的 Top-3 文档进行评估——这与 p 不同。我们的发现(如图6所示)表明,仅使用黄金文档的微调方法通常会导致性能低于包含更多干扰文档的配置。图中显示,自然问题(Natural Questions)使用 D ∗ + 3 D D^∗ + 3D D+3D 的训练效果较好,而 Hotpot QA 使用 D ∗ + 1 D D^∗ + 1D D+1D 的文档效果更佳。在实验中,始终采用一份黄金文档和四份干扰文档的训练设置。

对测试时不同文档数量的泛化

考察了不同数量的测试文档对模型性能的影响。具体来说,我们的实验关注于评估模型在训练时使用不同数量的干扰文档如何响应测试时文档数量的变化。结果(如图6所示)确认,训练过程中包含干扰文档确实使模型对测试时文档数量波动更具弹性。这种在测试时文档数量变化下维持一致性能的能力进一步验证了我们方法 RAFT 的鲁棒性。这一发现强调了一个良好校准的训练环境对于准备模型应对现实世界中可能遇到的各种场景的重要性。

6. 相关工作

检索增强语言模型 检索增强语言模型(RALMs) 通过集成检索模块,从外部知识库中提取相关信息,从而显著提升了各种自然语言处理任务的性能,包括语言建模和开放域问答。

记忆 关于大型神经语言模型的一个关键问题是它们是否真正“理解”文本,还是仅仅依赖于表面模式的记忆。Feldman,Carlini开发了量化神经模型记忆化程度的方法。Brown,Power,Liu进一步探讨了记忆如何影响模型的泛化能力。

针对 RAG 的微调 最近,几篇论文探讨了将预训练的 LLM 微调以更好地处理 RAG 任务的想法(Lin; Wang; Xu;liu)。这些工作关注于构建 RAG 微调数据集,并训练模型在这些任务上表现良好。特别是,在他们的设置中,测试时的领域或文档可能与训练时不同;而我们论文则研究了一个略微相反的情境,即只关心在相同文档集上测试 LLM。

7. 结论

RAFT 是一种旨在提升模型在特定领域的开卷环境中回答问题性能的训练策略。我们强调了几个关键设计决策,比如在训练中加入干扰文档、组织数据集以使一部分数据没有黄金文档的背景,并以思维链的方式生成答案,直接引用相关文本。

总结

⭐ 本篇工作提出了一种检索增强微调方法RAFT,可以提高模型在开卷领域内问答的能力。在训练RAFT时,给定一个问题和一组检索到的文档,训练模型忽略那些在回答问题时无用的干扰文档。RAFT通过逐字引用相关文档中的正确序列来帮助回答问题,同时结合RAFT的思维链式响应,帮助提高模型的推理能力。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/415930.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Opencv中的直方图(4)局部直方图均衡技术函数createCLAHE()的使用

操作系统&#xff1a;ubuntu22.04 OpenCV版本&#xff1a;OpenCV4.9 IDE:Visual Studio Code 编程语言&#xff1a;C11 算法描述 创建一个指向 cv::CLAHE 类的智能指针并初始化它。 函数原型 Ptr<CLAHE> cv::createCLAHE (double clipLimit 40.0,Size tileGridSize…

house of cat

文章目录 house of cat概述&#xff1a;_IO_wfile_jumps进入_IO_wfile_seekoffFSOP__malloc_assert 例题&#xff1a;思路&#xff1a;分析&#xff1a;利用&#xff1a; house of cat 概述&#xff1a; house of cat主要的摸底还是覆盖vtable指针&#xff0c;因为在glibc-2.2…

DrissionPage设置启动浏览器为edge

1.查看浏览器启动路径 在浏览器地址栏输入下面地址&#xff0c;拿到可执行文件的路径 。 edge://version/ 2.替换路径 打开DrissionPage._configs. chromium_options.py文件&#xff0c;找到def browser_path(self)这个函数&#xff0c;将返回内容替换为edge的启动路径&#x…

轿厢电梯-电动车检测数据集(真实电梯监控)

轿厢电动车检测数据集&#xff0c; 可做电梯乘客、电动车检测任务。 数据集由真实电梯监控图片&#xff08;大约四千&#xff09;、电动车网图、手机拍摄图片构成&#xff0c;总计14000张左右&#xff0c;其中近8000样本已标注。 注&#xff1a;文件夹后面数字为对应数据集样本…

论斜率优化dp

论斜率优化dp 1问题2暴力算法-线性dp3斜率优化线性dp4后记 1问题 如下图 看到这题&#xff0c;题面很复杂 其实可以转化为如下问题 有 n n n个任务&#xff0c;排成一个有序序列&#xff0c;我们要解决这些任务 总费用是每一个任务的完成时间乘以费用系数求和 每个任务之前…

紫金大数据平台架构之路(一)----大数据任务开发和调度平台架构设计

一、总体设计 初来公司时&#xff0c;公司还没有大数据&#xff0c;我是作为大数据架构师招入的&#xff0c;结合公司的线上和线下业务&#xff0c;制定了如下的大数据架构路线图。 二、大数据任务开发和调度平台架构设计 在设计完总体架构后&#xff0c;并且搭建完hadoop/ya…

Python基础语法(多进程开发进程建数据共享进程锁进程池)

Python基础语法文章导航&#xff1a; Python基础&#xff08;01初识数据类型&变量&#xff09;Python基础&#xff08;02条件&循环语句&#xff09;Python基础&#xff08;03字符串格式化&运算符&进制&编码&#xff09;Python基础&#xff08;04 基础练习…

Marin说PCB之闲谈设计经验之沟通

今天这期小编我不讲解技术&#xff0c;主要是分享一些个人的工作中的一些经验吧&#xff0c;首先给诸位分享的就是小编我的学的降龙十八掌第一式&#xff1a;沟通&#xff0c;为啥要说沟通是第一个我要说的话题呢&#xff0c;这个说来话长了&#xff0c;小编我就长话短说了。 因…

Rust: Web框架Axum和Rest Client协同测试

Axum作为Rust当红Web框架&#xff0c;值得了解一下。下面实例包括几个典型的常场场景。 具体如下&#xff1a; 一、Axum 1、toml中依赖 [dependencies] tokio {version"1.39.3",features ["full"]} axum {version "0.7.5",features ["to…

OceanBase 关于 place_group_by HINT的使用

PLACE_GROUP_BY Hint 表示在多表关联时&#xff0c;如果满足单表查询后直接进行group by 的情形下&#xff0c;在跟其它表进行关联统计&#xff0c;减少表内部联接。 NO_PLACE_GROUP_BY Hint 表示在多表关联时&#xff0c;在关联后才对结果进行group by。 使用place_group_by …

html+css+js网页设计 故宫10个页面 ui还原度100%

htmlcssjs网页设计 故宫10个页面 ui还原度100% 网页作品代码简单&#xff0c;可使用任意HTML编辑软件&#xff08;如&#xff1a;Dreamweaver、HBuilder、Vscode 、Sublime 、Webstorm、Text 、Notepad 等任意html编辑软件进行运行及修改编辑等操作&#xff09;。 获取源码 …

Spring 学习笔记

概述 Spring 是一个企业级 J2EE 应用开发一站式解决方案&#xff0c;其提供的功能贯穿了项目开发的表现层、业务层和持久化层&#xff0c;同时&#xff0c;Spring 可以和其他应用框架无缝整合 Spring 的特性包括以下几个方面&#xff1a; 轻量&#xff1a;Spring 是一个轻量…

三级_网络技术_58_应用题

一、 请根据下图所示网络结构回答下列问题。 1.填写RG的路由表项。 目的网络/掩码长度输出端口__________S0&#xff08;直接连接&#xff09;__________S1&#xff08;直接连接&#xff09;__________S0__________S1__________S0__________S1 (2)如果在不改变路由表项的前提…

如何录制黑神话悟空的游戏BGM导入iPhone手机制作铃声?

在游戏的世界里&#xff0c;总有那么一些旋律&#xff0c;能够触动玩家的心弦&#xff0c;让人难以忘怀。《黑神话悟空》以其精美的画面和动人的背景音乐&#xff0c;赢得了无数玩家的喜爱。如果你也想将游戏中的背景音录制下来&#xff0c;制作成个性化的m4r格式铃声&#xff…

C++ 设计模式——备忘录模式

C 设计模式——备忘录模式 C 设计模式——备忘录模式1. 主要组成成分2. 逐步构建备忘录模式步骤1: 创建备忘录步骤2: 实现原发器步骤3: 创建管理者&#xff08;负责人&#xff09;类步骤4: 客户端使用 3. 备忘录模式 UML 图UML 图解析 4. 备忘录模式的优点5. 备忘录模式的缺点6…

Camtasia 2024 v2024.0.6 for Mac 中文版 屏幕录像视频录制编辑软件

TechSmith Camtasia for Mac 中文版 是一款专业的屏幕录像及视频录制编辑软件。以业界领先的清晰度重新定义了屏幕录制&#xff0c;将屏幕、摄像头、麦克风和系统音频捕获为独立音轨&#xff0c;实现终极控制和灵活性。通过拖放过渡、标注等功能&#xff0c;以及改进的工作流程…

AI-Talk开发板之helloword

一、说明 创建第一个应用在AI-Talk开发板上运行&#xff0c;编写一个“Hello World”应用&#xff0c;启动之后在主函数里通过UART0&#xff08;debug&#xff09;打印"Hello World"。 官方指导&#xff1a;第一个应用 | 聆思文档中心 (listenai.com) 二、创建工程…

标准库标头 <optional> (C++17)学习之optional

类模板 std::optional 管理一个可选 &#xfeff;的所含值&#xff0c;即既可以存在也可以不存在的值。 一种常见的 optional 使用情况是作为可能失败的函数的返回值。与如 std::pair<T, bool> 等其他手段相比&#xff0c;optional 可以很好地处理构造开销高昂的对象&a…

Ollama拉起本地模型以及rag系统部署。

什么是 Ollama &#xff1f; Ollama 是一个简明易用的本地大模型运行框架。能在本地启动并运行 Llama、qwen、Gemma 及其他大语言模型&#xff0c;没有GPU资源照样可以拉起模型&#xff0c;和LocalAI 比较类似&#xff0c;但是加载模型更容易。 1.安装 安装后运行&#xff0c…

统一NLP和目标检测的DETR(一)——self attention、encoder、decoder

主流目标检测算法劣势 YOLO系列&#xff0c;它基于anchor来做&#xff0c;少不了要用MNS&#xff0c;导致速度相对较慢。 但今天介绍一款DETR&#xff0c;基于VIT的目标检测算法。 那么我们需要先深入过一遍VIT。 Vision transform 1、传统RNN网络的问题 单向&#xff1a;只…