哈工大:LLM高质量嵌入模型KaLM-Embedding

在这里插入图片描述

📖标题:KaLM-Embedding: Superior Training Data Brings A Stronger Embedding Mode
🌐来源:arXiv, 2501.01028

🌟摘要

🔸随着检索增强生成在大型语言模型中的盛行,嵌入模型变得越来越重要。尽管通用嵌入模型的数量越来越多,但之前的工作往往忽视了训练数据质量的关键作用。
🔸在这项工作中,我们介绍了KaLM嵌入,这是一种通用的多语言嵌入模型,利用了大量更清晰、更多样化和特定领域的训练数据。我们的模型已经过关键技术的训练,这些技术被证明可以提高性能:(1)基于角色的合成数据,从LLM中提取出多样化的示例;(2)排名一致性过滤,以删除信息量较小的样本;(3)半同质任务批采样,以提高训练效率。与传统的BERT类架构不同,我们采用Qwen2-0.5B作为预训练模型,便于自回归语言模型适应一般嵌入任务。
🔸对多种语言的MTEB基准的广泛评估表明,我们的模型优于其他规模相当的模型,为参数<1B的多语言嵌入模型设定了新的标准。详见https://github.com/HITsz-TMG/KaLM-Embedding

🛎️文章简介

🔸研究问题:现有嵌入模型在训练数据质量上存在不足,需要优化训练数据的质量和多样性。
🔸主要贡献:论文通过引入高质量、多样化的训练数据,结合创新的训练策略,开发了一个在多语言任务中表现卓越的嵌入模型,并在0.5B参数规模下达到了最先进的性能。

📝重点思路

🔸数据收集与处理:使用了超过70个高质量、多样化的数据集进行微调,确保模型的泛化能力。数据来源包括开源数据集、合成数据(基于大语言模型生成)以及经过排名一致性过滤的负样本数据。
🔸训练策略:采用了两阶段训练方法,包括弱监督对比预训练和监督微调。引入了半同质任务批处理(Semi-Homogeneous Task Batching)来平衡负样本的难度和假负样本的风险。
🔸模型架构:基于自回归语言模型Qwen2-0.5B,结合Matryoshka表示学习(MRL)实现灵活的维度嵌入,并通过任务指令微调增强模型的泛化能力。
🔸实验评估:使用大规模文本嵌入基准(MTEB)进行多语言任务评估,并通过消融实验分析了不同训练策略和数据过滤方法的影响。

🔎分析总结

🔸多语言性能:KaLM-Embedding在中文和英文任务中表现优异,同时在法语和波兰语等语言中也展现了良好的性能,尽管波兰语的性能相对较弱,可能是由于训练数据中波兰语比例较低。
🔸数据质量的影响:高质量和多样化的训练数据显著提升了模型的性能。
🔸训练策略的有效性:半同质任务批处理和MRL等训练策略对模型性能有显著提升,尤其是在减少假负样本和增强负样本难度方面。
🔸长文本嵌入:纯长文本嵌入(Dense)效果不如BM25(Sparse),长文本的表示更适合使用多个向量。

💡个人观点

论文的核心在于提高嵌入模型的训练数据质量,并引入了新的训练策略。

🧩附录

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/9165.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Baklib打造高效内容管理平台提升协作与创作体验

内容概要 随着信息化时代的迅猛发展&#xff0c;高效的内容管理已成为各类团队日常工作中不可或缺的一部分。Baklib的内容管理平台正是应运而生&#xff0c;旨在为团队提供一个集协作、创作与管理于一体的解决方案。该平台通过其直观的界面和一系列创新功能&#xff0c;帮助用…

通过高效的侦察发现关键漏洞接管整个IT基础设施

视频教程在我主页简介或专栏里 在这篇文章中&#xff0c; 我将深入探讨我是如何通过详细分析和利用暴露的端点、硬编码的凭据以及配置错误的访问控制&#xff0c;成功获取目标组织关键IT基础设施和云服务访问权限的全过程。 我们先提到目标网站的名称 https://*sub.domain*.co…

【Linux笔记】Day4

关机重启 登录注销 注意用户名只能是小写 用户管理 pwd显示当前在哪个目录下&#xff1a; 删除用户 连带着用户文件夹都删掉 高权限用户切换到低权限用户无需输入密码 clear能把当前屏幕显示清掉 如果之前加的用户没有指定组&#xff0c;它会创建一个和用户同名的组&a…

A7. Jenkins Pipeline自动化构建过程,可灵活配置多项目、多模块服务实战

服务容器化构建的环境配置构建前需要解决什么下面我们带着问题分析构建的过程:1. 如何解决jenkins执行环境与shell脚本执行环境不一致问题?2. 构建之前动态修改项目的环境变量3. 在通过容器打包时避免不了会产生比较多的不可用的镜像资源,这些资源要是不及时删除掉时会导致服…

一个简单的自适应html5导航模板

一个简单的 HTML 导航模板示例&#xff0c;它包含基本的导航栏结构&#xff0c;同时使用了 CSS 进行样式美化&#xff0c;让导航栏看起来更美观。另外&#xff0c;还添加了一些 JavaScript 代码&#xff0c;用于在移动端实现导航菜单的展开和收起功能。 PHP <!DOCTYPE htm…

Winform如何取消叉号,减号和放大(两种)

方法一: 找到窗体属性 MaximizeBoxFalse; MinimizeBoxFalse; ControlBoxFALSE; 方法二: 点击Form 在From里面找到Form-Closing 这个事件 写入 if(e.CloseReasonCloseReason.UserClosing) { MessageBox.Show("对不起,你不能关闭") e.Cancel true; }

OpenCV:开运算

目录 1. 简述 2. 用腐蚀和膨胀实现开运算 2.1 代码示例 2.2 运行结果 3. 开运算接口 3.1 参数详解 3.2 代码示例 3.3 运行结果 4. 开运算应用场景 5. 注意事项 6. 总结 相关阅读 OpenCV&#xff1a;图像的腐蚀与膨胀-CSDN博客 OpenCV&#xff1a;闭运算-CSDN博客 …

MIMIC-IV数据部署(博主较忙,缓慢更新)

1. 用到的数据准备 在下面的网站&#xff0c;注册、申请、推荐人从邮箱里帮忙确认。 通过后&#xff0c;拉到页面的最下面。把那个将近10个G的文件给下载下来。 可以在晚上睡觉的时候下载&#xff0c;第二天早上起来“收数据”。 MIMIC-IV v3.1 2. 用到的软件准备 7-zip …

二叉树-堆(补充)

二叉树-堆 1.二叉树的基本特性2.堆2.1.堆的基本概念2.2.堆的实现2.2.1.基本结构2.2.2.堆的初始化2.2.3.堆的销毁2.2.4.堆的插入2.2.5.取出堆顶的数据2.2.6.堆的删除2.2.7.堆的判空2.2.8.堆的数据个数2.2.9.交换2.2.10.打印堆数据2.2.11.堆的创建2.2.12.堆排序2.2.13.完整代码 3…

省市区三级联动

引言 在网页中&#xff0c;经常会遇到需要用户选择地区的场景&#xff0c;如注册表单、地址填写等。为了提供更好的用户体验&#xff0c;我们可以实现一个三级联动的地区选择器&#xff0c;让用户依次选择省份、城市和地区。 效果展示&#xff1a; 只有先选择省份后才可以选择…

【数据结构】动态内存管理函数

动态内存管理 为什么存在动态内存管理动态内存函数的介绍&#x1f38a;malloc补充&#xff1a;perror函数&#x1f38a;free&#x1f38a;calloc&#x1f38a;realloc 常见动态内存错误对空指针的解引用操作对动态开辟空间的越界访问对非动态开辟内存使用free释放使用free释放一…

【xcode 16.2】升级xcode后mac端flutter版的sentry报错

sentry_flutter 7.11.0 报错 3 errors in SentryCrashMonitor_CPPException with the errors No type named terminate_handler in namespace std (line 60) and No member named set_terminate in namespace std 替换sentry_flutter版本为&#xff1a; 8.3.0 从而保证oc的…

Julius AI 人工智能数据分析工具介绍

Julius AI 是一款由 Casera Labs 开发的人工智能数据分析工具&#xff0c;旨在通过自然语言交互和强大的算法能力&#xff0c;帮助用户快速分析和可视化复杂数据。这款工具特别适合没有数据科学背景的用户&#xff0c;使数据分析变得简单高效。 核心功能 自然语言交互&#x…

智慧园区系统集成解决方案构建智能管理新模式与发展蓝图

内容概要 在当今快速发展的科技环境中&#xff0c;智慧园区系统集成解决方案为园区的管理和运营提供了一种全新的思路。这种解决方案通过集合先进的核心技术&#xff0c;帮助各种园区实现智能化管理&#xff0c;从而提高运营效率。对于工业园、产业园、物流园、写字楼乃至公寓…

AI软件外包需要注意什么 外包开发AI软件的关键因素是什么 如何选择AI外包开发语言

1. 定义目标与需求 首先&#xff0c;要明确你希望AI智能体做什么。是自动化任务、数据分析、自然语言处理&#xff0c;还是其他功能&#xff1f;明确目标可以帮助你选择合适的技术和方法。 2. 选择开发平台与工具 开发AI智能体的软件时&#xff0c;你需要选择适合的编程语言、…

设计模式面试题

一、工厂方法模式: 1.简单工厂模式: (1).抽象产品:定义了产品的规范&#xff0c;描述了产品的主要特性和功能 (2).具体产品:实现或继承抽象产品的子类 (3).具体工厂:提供了创建产品的方法&#xff0c;调用者通过该方法来获取产品 所有产品都共有一个工厂&#xff0c;如果新…

【ESP32】ESP-IDF开发 | WiFi开发 | UDP用户数据报协议 + UDP客户端和服务器例程

1. 简介 UDP协议&#xff08;User Datagram Protocol&#xff09;&#xff0c;全称用户数据报协议&#xff0c;它是一种面向非连接的协议&#xff0c;面向非连接指的是在正式通信前不必与对方先建立连接&#xff0c; 不管对方状态就直接发送。至于对方是否可以接收到这些数据内…

react native在windows环境搭建并使用脚手架新建工程

截止到2024-1-11&#xff0c;使用的主要软件的版本如下&#xff1a; 软件实体版本react-native0.77.0react18.3.1react-native-community/cli15.0.1Android Studio2022.3.1 Patch3Android SDKAndroid SDK Platform 34 35Android SDKAndroid SDK Tools 34 35Android SDKIntel x…

浅析百度AOI数据与高德AOI数据的差异性

目录 前言 一、AOI属性数据 1、百度AOI数据 2、高德AOI数据 二、AOI矢量边界 1、百度AOI空间范围 2、高德AOI空间范围 三、数据获取频次和难易程度 1、接口限制 2、数据转换成本 四、总结 前言 在当今数字化时代&#xff0c;地理信息数据的精准性和丰富性对于城市规划…

window中80端口被占用问题

1&#xff0c;查看报错信息 可以看到在启动项目的时候&#xff0c;8081端口被占用了&#xff0c;导致项目无法启动。 2&#xff0c;查看被占用端口的pid #语法 netstat -aon|findstr :被占用端口#示例 netstat -aon|findstr :8080 3&#xff0c;杀死进程 #语法 taikkill /pid…