【LLM论文日更】| 通过指令调整进行零样本稠密检索的无监督文本表示学习

  • 论文:https://arxiv.org/pdf/2409.16497
  • 代码:暂未开源
  • 机构:Amazon AGI、宾夕法尼亚州立大学
  • 领域:Dense Retrieval
  • 发表:Accepted at DCAI24 workshop@CIKM2024

研究背景

  1. 研究问题:这篇文章要解决的问题是如何在零样本情况下通过指令调优预训练的大型语言模型(LLM)来进行无监督文本表示学习,以改进密集检索系统的性能。
  2. 研究难点:该问题的研究难点包括:缺乏标注数据时如何有效地进行文本表示学习;如何在无监督情况下增强语料库表示;如何在训练和推理过程中保持模型的一致性。
  3. 相关工作:该问题的研究相关工作有:利用预训练大型编码器(如T5模型)来缓解数据需求;通过合成查询-语料库相关性对来训练密集检索系统;使用预训练的LLM作为少样本查询生成器来构建训练数据。

研究方法

这篇论文提出了一种通过自指令调优预训练编码器-解码器LLM来进行无监督文本表示学习的方法。具体来说,

  1. 自指令学习:首先,设计两个指令任务,即问题生成和关键词总结,通过提示预训练LLM生成每个给定语料库的合成问题和关键词。然后,应用过滤器对合成数据进行质量控制,并对预训练LLM进行指令调优。

  2. Rao-Blackwell化:其次,使用指令调优后的LLM按照相同的指令提示生成更好的合成问题和关键词。然后,获取新生成的合成问题和关键词以及语料库的嵌入,并将它们的加权平均值作为增强的语料库表示。

(图不清晰,建议看原文)

公式解释:基于Rao-Blackwell定理,语料库嵌入可以通过以下公式进行改进:

 

实验设计

  1. 数据集:实验使用了四个信息检索数据集,包括NFCorpus、SciFact、SCIDOCS和GermanQuAD。由于计算资源限制,对SCIDOCS和GermanQuAD数据集进行了下采样,确保下采样的语料库包含所有相关的测试查询。
  2. 基线模型:比较了仅使用语料库嵌入和增强语料库嵌入的零样本实验性能。使用余弦相似度衡量查询和语料库之间的相关性。
  3. 编码器-解码器模型:使用了T5和FLAN-T5模型,分别进行了基础版和大版本的实验。
  4. 指令查询生成:生成了两种类型的指令,即关键词总结和问题生成,并开发了一个过滤器来提高生成指令的质量。
  5. 超参数设置:在指令调优过程中,使用AdaFactor优化器,学习率为0.0001,批量大小为16,训练轮数为30。早期停止策略在验证损失连续五个epoch没有改善时触发。

结果与分析

  1. 语料库与句子索引:实验结果表明,句子级多表示技术在所有数据集上均优于语料库级单表示技术。随着模型规模的增加,性能也得到了提升。

  2. 整体结果:指令调优后,FLAN-T5模型在所有指标上的性能均有所提升,除了SCIDOCS数据集。这主要是因为指令调优后生成的查询质量更高,且每个合成查询的重叠度较低,使得语料库更易区分。

  1. 消融研究:研究了四种不同的权重方法,结果表明手动加权方法优于BERTScore方法,且指令调优后的模型表现更好。

  1. 语料库表示增强:与其他语料库表示增强方法(如docTTTTTquery)相比,本文方法在嵌入级别上的增强效果更显著,且自指令调优模型的表现优于其监督表示生成模型。

总体结论

本文提出了一种通过自指令调优预训练编码器-解码器LLM来进行无监督文本表示学习的方法。基于Rao-Blackwell定理,利用合成查询的嵌入来增强语料库表示。在零样本实验中,提出的方法在不同数据集上均显著提高了检索性能,甚至在某些情况下超过了现有的最先进模型。该方法在数据效率和检索任务的高效性方面表现出色,未来工作将进一步探索该方法在分离的编码器和解码器模型上的应用。

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/437199.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

泰勒图 ——基于相关性与标准差的多模型评价指标可视化比较-XGBoost、sklearn

1、基于相关性与标准差的多模型评价指标可视化比较 # 数据读取并分割 import pandas as pd import numpy as np import matplotlib.pyplot as plt from sklearn.model_selection import train_test_split plt.rcParams[font.family] = Times New Roman plt.rcParams[axes.unic…

【C++】第一节:C++入门

1、C关键字 2、命名空间 在C/C中,变量、函数和后面要学到的类都是大量存在的,这些变量、函数和类的名称将都存在于全局作用域中,可能会导致很多冲突。使用命名空间的目的是对标识符的名称进行本地化,以避免命名冲突或名字污染&am…

Updates were rejected because the tip of your current branch is behind 的解决方法

1. 问题描述 当我们使用 git push 推送代码出现以下问题时: 2. 原因分析 这个错误提示表明当前本地分支落后于远程分支,因此需要先拉取远程的更改。 3. 解决方法 1、拉取远程更改 在终端中执行以下命令,拉取远程分支的更新并合并到本地…

奔驰EQS450suv升级增强AR抬头显示HUD案例分享

以下是奔驰 EQS450 SUV 升级增强版 AR 抬头显示的一般改装案例步骤及相关信息: 配件:通常包括显示屏、仪表模块、饰板等。 安装步骤: 1. 拆下中控的仪表。 2. 在仪表上预留位置切割出合适的孔位,用于安装显示器。 3. 将显示器…

【JavaEE】——多线程常用类

阿华代码,不是逆风,就是我疯 你们的点赞收藏是我前进最大的动力!! 希望本文内容能够帮助到你!! 目录 引入: 一:Callable和FutureTask类 1:对比Runnable 2&#xff1a…

动手学深度学习-GPU常见报错-CUDA11.4-AssertionError: Torch not compiled with CUDA enabled

目录 本文还能解决: 0. 问题原因 1. 查看机器的cuda版本 2. 从官网下载对应的torch和torchvision 3. 具体安装方法 本文还能解决: torch.cuda.is_available() 输出为 False; torch.cuda.device_count() 输出为 0 0. 问题原因 这两个问题…

【C++笔记】初始模版和STL简介

【C笔记】初始模版和STL简介 🔥个人主页:大白的编程日记 🔥专栏:C笔记 文章目录 【C笔记】初始模版和STL简介前言一.初始模版1.1泛型编程1.2函数模版1.3类模板 二.STL简介2.1什么是STL2.2STL的版本2.3STL的六大组件2.4STL的重要…

【C++并发入门】opencv摄像头帧率计算和多线程相机读取(下):完整代码实现

前言 高帧率摄像头往往应用在很多opencv项目中,今天就来通过简单计算摄像头帧率,抛出一个单线程读取摄像头会遇到的问题,同时提出一种解决方案,使用多线程对摄像头进行读取。上一期:【C并发入门】摄像头帧率计算和多线…

RDI ADCP命令与ASCII输出结构

RDI ADCP命令与ASCII输出结构 一、RDI垂直式ADCP:1.1固定命令:1.2 向导命令 二、RDI水平式ADCP三、ADCP 公共目录四、常用BBTalk命令五、ADCP的ASCII输出数据文件、流量与数据结构5.1 ASCII类输出:5.2 ASCII 输出数据文件头5.3 ASCII 输出数据集5.4 导航…

Llama 3.2来了,多模态且开源!AR眼镜黄仁勋首批体验,Quest 3S头显价格低到离谱

如果说 OpenAI 的 ChatGPT 拉开了「百模大战」的序幕,那 Meta 的 Ray-Ban Meta 智能眼镜无疑是触发「百镜大战」的导火索。自去年 9 月在 Meta Connect 2023 开发者大会上首次亮相,短短数月,Ray-Ban Meta 就突破百万销量,不仅让马…

位运算(6)_只出现一次的数字 II

个人主页:C忠实粉丝 欢迎 点赞👍 收藏✨ 留言✉ 加关注💓本文由 C忠实粉丝 原创 位运算(6)_只出现一次的数字 II 收录于专栏【经典算法练习】 本专栏旨在分享学习算法的一点学习笔记,欢迎大家在评论区交流讨论💌 目录 …

psutil库的使用说明

前言 psutil是一个跨平台的库,用于获取系统的进程和系统利用率(包括 CPU、内存、磁盘、网络等)信息。 目录 安装 应用场景 常用方法 一、系统信息相关函数 二、进程信息相关函数 三、网络信息相关函数 四、其他实用函数 使用样例 监控应…

Could not find com.mapbox.mapboxsdk:mapbox-android-accounts:0.7.0.解决

AndroidStudio编译APK出现如下错误: Could not find com.mapbox.mapboxsdk:mapbox-android-accounts:0.7.0. 出现上面错误原因是因为没有打开对应的仓库导致的, 手动添加如下创建地址可解决: maven { url https://maven.aliyun.com/repos…

Windows远程Kylin系统-xrdp

Windows远程Kylin系统-xrdp 一. 查看开放端口 查看是否有3389端口二. 安装xrdp Kylin对应的是centos8 下载链接:https://rhel.pkgs.org/8/epel-x86_64/xrdp-0.10.1-1.el8.x86_64.rpm.html rpm -Uvh 包名 systemctl start xrdp 启动服务 systemctl enable xrdp …

【HTML5】html5开篇基础(4)

1.❤️❤️前言~🥳🎉🎉🎉 Hello, Hello~ 亲爱的朋友们👋👋,这里是E绵绵呀✍️✍️。 如果你喜欢这篇文章,请别吝啬你的点赞❤️❤️和收藏📖📖。如果你对我的…

解决问题AttributeError: “safe_load“ has been removed, use

解决问题AttributeError: "safe_load" has been removed, use~ 1. 问题描述2. 解决方法 1. 问题描述 在复现cdvae代码时,运行 python scripts/compute_metrics.py --root_path MODEL_PATH --tasks recon gen opt评估模型时,出现以下问题。 …

Python批量下载PPT模块并实现自动解压

日常工作中,我们总是找不到合适的PPT模板而烦恼。即使有免费的网站可以下载,但是一个一个地去下载,然后再批量解压进行查看也非常的麻烦,有没有更好方法呢? 今天,我们利用Python来爬取一个网站上的PPT&…

【ios】---swift开发从入门到放弃

swift开发从入门到放弃 环境swift入门变量与常量类型安全和类型推断print函数字符串整数双精度布尔运算符数组集合set字典区间元祖可选类型循环语句条件语句switch语句函数枚举类型闭包数组方法结构体 环境 1.在App Store下载Xcode 2.新建项目(可以先使用这个&…

Hadoop HDFS命令操作实例

一.创建与查看HDFS目录 每次重启后,Jps和java -version执行出来的结果不符合就使用 source ~/.bash_profile 是在 Unix/Linux 系统上用来重新加载用户的 Bash 配置文件 ~/.bash_profile 的命令。这条命令的作用是使得当前的 Bash 环境重新读取并应用 ~/.bash_pro…

PHP安装后Apache无法运行的问题

问题 按照网上教程php安装点击跳转教程,然后修改Apache的httpd.conf文件,本来可以运行的Apache,无法运行了 然后在"C:\httpd-2.4.62-240904-win64-VS17\Apache24\logs\error.log"(就是我下载Apache的目录下的logs中&am…