基于语义的NLP任务去重:大语言模型应用与实践

引言

在自然语言处理(NLP)任务中,数据质量是模型性能的关键因素之一。重复或冗余的数据会导致模型过度拟合或浪费计算资源,特别是在大语言模型(如 BERT、GPT 系列等)训练和推理阶段。传统的基于字符匹配的去重方法(如字符串哈希或编辑距离)在面对语义相似的文本时表现有限,而语义相似度算法则能更好地捕获文本之间的深层语义关系。

本文将介绍一种基于语义表示的去重方法,通过大语言模型生成的嵌入向量结合高效的相似度计算工具(如 FAISS),对大规模文本数据进行去重。此方法不仅适用于数据清洗,还可以应用在搜索引擎、推荐系统等需要衡量语义相似度的场景。

原理与方法

1. 传统去重方法的局限性

在 NLP 任务中,传统的去重方法包括:

  • 字符串哈希:
    基于文本的哈希值进行判重,适合完全重复的文本,但无法处理语义相似但表达不同的情况,例如:
    • 文本 A:我喜欢吃苹果。
    • 文本 B:苹果是我最喜欢的水果。

虽然两者语义相近,但哈希值完全不同。

  • 编辑距离(Levenshtein Distance):
    衡量两个字符串的编辑代价,适合处理少量字符差异的文本,但无法捕捉深层语义关系。

上述方法对文本的语义相似性缺乏鲁棒性,特别是在短文本或同义表达常见的场景下。例如,问答生成、文档去重、语料清洗等任务中,语义相似的重复数据可能会严重影响模型性能。

2. 基于语义嵌入的去重

语义嵌入(Semantic Embedding)是一种将文本映射到高维向量空间的技术,向量的物理距离或角度可以反映文本语义的相似程度。常见的嵌入生成模型包括:

  • BERT、RoBERTa、GPT 等大语言模型:能够生成上下文相关的语义表示。
  • Sentence-BERT(SBERT):专为语义相似度任务设计,提升了嵌入的语义表达能力。

基本流程:

    1. 文本嵌入生成:
      使用大语言模型将文本转化为固定维度的向量表示(如 768 维)。
    1. 相似度计算:
      通过数学距离(如余弦相似度或内积)衡量文本向量之间的相似性。
    1. 去重判断:
      基于相似度阈值判断文本是否为重复内容。

3. 相似度计算方法对比

在语义嵌入的基础上,常用的相似度计算方法包括:

3.1. 余弦相似度(Cosine Similarity)

余弦相似度衡量两个向量的夹角余弦值,范围为 [ − 1 , 1 ] [-1, 1] [1,1],归一化后范围为 [ 0 , 1 ] [0, 1] [0,1]。公式如下:
Cosine Similarity ( A , B ) = A ⋅ B ∥ A ∥ ∥ B ∥ \text{Cosine Similarity}(A, B) = \frac{A \cdot B}{\|A\| \|B\|} Cosine Similarity(A,B)=A∥∥BAB

  • 优点:消除向量模长的影响,只关注向量方向。
  • 缺点:计算开销稍高。
3.2. 内积相似度(Inner Product Similarity)

内积相似度直接计算两向量的点积值:
Inner Product ( A , B ) = A ⋅ B \text{Inner Product}(A, B) = A \cdot B Inner Product(A,B)=AB

  • 优点:计算简单,速度快。
  • 缺点:受向量模长影响,需要确保输入向量已归一化(模长为 1),否则结果不等价于余弦相似度。
欧几里得距离(Euclidean Distance)

衡量两个向量在高维空间中的直线距离:
Euclidean Distance ( A , B ) = ∑ i = 1 n ( A i − B i ) 2 \text{Euclidean Distance}(A, B) = \sqrt{\sum_{i=1}^n (A_i - B_i)^2} Euclidean Distance(A,B)=i=1n(AiBi)2

  • 优点:适合绝对位置相关的任务。
  • 缺点:不适合捕获方向性的语义相似度。

4. 高效的大规模相似度计算

直接比较所有嵌入向量的相似度在大规模数据中效率低下(复杂度为 O ( n 2 ) O(n^2) O(n2))。为此,我们借助 FAISS(Facebook AI Similarity Search)工具,能够在百万级甚至亿级数据中高效实现近似最近邻搜索。

4.1. FAISS 简介

FAISS 是一个高效的相似度搜索库,专为高维向量的最近邻搜索设计,支持以下特性:

  • 多种索引结构:
    • Flat:暴力搜索,适合中小规模数据。
    • IVF(倒排文件索引):适合大规模数据。
    • PQ(分组量化):进一步压缩内存占用。
  • GPU 加速:支持 GPU 版本,在大规模数据上极大提升搜索速度。
  • 灵活的距离度量:支持内积、余弦、欧几里得距离等。
4.2. 使用 FAISS 的语义去重流程
  1. 初始化 FAISS 索引:选择适合任务的数据结构(如 IndexFlatIP)。
  2. 添加向量:将嵌入向量添加到索引。
  3. 查询相似度:对每个新向量,查找与索引中最近的向量,判断是否重复。

代码实现

import json
from transformers import BertTokenizer, BertModel
import torch
from tqdm import tqdm
import faiss
from typing import List, Dict, Unionclass TextDeduplicatorWithFAISS:"""使用 FAISS 索引实现的文本去重类(基于余弦相似度)。"""def __init__(self, model_name: str = 'bert-base-chinese', device: str = None) -> None:"""初始化文本去重类。参数:- model_name: 使用的预训练模型名称,默认为 'bert-base-chinese'。- device: 指定运行设备('cpu' 或 'cuda'),默认为自动检测。"""self.tokenizer = BertTokenizer.from_pretrained(model_name)self.model = BertModel.from_pretrained(model_name)self.device = device if device else ('cuda' if torch.cuda.is_available() else 'cpu')self.model = self.model.to(self.device)# 初始化 FAISS 索引self.embedding_dim = 768  # BERT 输出嵌入维度self.index = faiss.IndexFlatIP(self.embedding_dim)  # 使用内积(IP)作为相似度度量self.index_ids = []  # 存储对应嵌入的 ID,方便后续处理def get_embeddings(self, texts: List[str]) -> torch.Tensor:"""计算文本的嵌入表示,并进行归一化。参数:- texts: 要计算嵌入的一组文本列表。返回:- 归一化后的文本嵌入张量,形状为 (batch_size, hidden_size)。"""inputs = self.tokenizer(texts, return_tensors="pt", padding=True, truncation=True, max_length=512)inputs = inputs.to(self.device)  # 将输入张量移动到指定设备with torch.no_grad():  # 禁用梯度计算以节省内存outputs = self.model(**inputs)embeddings = outputs.last_hidden_state[:, 0, :].cpu()  # 获取 [CLS] 的嵌入并移动到 CPU# 对嵌入进行归一化处理(实现余弦相似度)embeddings = embeddings / torch.norm(embeddings, dim=1, keepdim=True)return embeddingsdef is_duplicate(self, embedding: torch.Tensor, threshold: float = 0.9) -> bool:"""检查一个嵌入是否与 FAISS 索引中的嵌入重复。参数:- embedding: 待检查的嵌入向量,形状为 (1, hidden_size)。- threshold: 相似度的阈值,默认为 0.9。返回:- 是否为重复项(True / False)。"""if self.index.ntotal == 0:  # 如果索引为空,肯定不是重复return False# 通过 FAISS 查找最近的向量及其相似度embedding_np = embedding.numpy()  # 转为 NumPy 格式distances, _ = self.index.search(embedding_np, k=1)  # 查找最近的 1 个向量# 检查最近向量的相似度是否高于阈值max_similarity = distances[0][0]  # FAISS 返回的是归一化向量的内积(等价于余弦相似度)return max_similarity >= thresholddef add_to_index(self, embedding: torch.Tensor, doc_id: int) -> None:"""将新的嵌入添加到 FAISS 索引中。参数:- embedding: 要添加的嵌入向量,形状为 (1, hidden_size)。- doc_id: 该嵌入对应的文档 ID。"""embedding_np = embedding.numpy()  # 转为 NumPy 格式self.index.add(embedding_np)  # 添加到索引中self.index_ids.append(doc_id)  # 保存对应的文档 IDdef process_and_save(self, input_path: str, output_path: str, threshold: float = 0.9) -> None:"""处理输入文件,去除相似文本并保存到输出文件。参数:- input_path: 输入 JSONL 文件路径。- output_path: 输出 JSONL 文件路径。- threshold: 去重的相似度阈值,默认值为 0.9。"""doc_id = 0  # 用于标记每条文档的唯一 IDwith open(input_path, 'r', encoding='utf-8') as infile, open(output_path, 'w', encoding='utf-8') as outfile:for line in tqdm(infile, desc="Processing lines"):item: Dict[str, Union[str, int, float]] = json.loads(line)  # 从 JSONL 文件中读取一条数据output_text: str = item['output']  # 获取文本内容# 获取当前文本的嵌入current_embedding = self.get_embeddings([output_text])# 检查是否为重复if not self.is_duplicate(current_embedding, threshold):# 如果不重复,保存文本,并将嵌入添加到索引outfile.write(json.dumps(item, ensure_ascii=False) + '\n')self.add_to_index(current_embedding, doc_id)doc_id += 1# 使用示例
if __name__ == "__main__":# 初始化去重器deduplicator = TextDeduplicatorWithFAISS(model_name='bert-base-chinese')# 去重并保存结果deduplicator.process_and_save(input_path='=./processed_unique_data-5.jsonl',output_path='=./processed_unique_data-6.jsonl',threshold=0.95)

数据示例:

{"id": 1, "output": "什么是人工智能?人工智能是指让机器具备人类智能的技术。"}
{"id": 2, "output": "人工智能的定义是什么?人工智能是赋予机器类似人类智能的能力。"}

总结

本文介绍了一种基于语义嵌入的大规模文本去重方法,通过结合大语言模型(如 BERT)和高效相似度搜索工具(FAISS),实现了对语料库的语义级去重。该方法具有以下优点:

  • 高精度:捕捉语义相似性,避免遗漏同义表达的重复数据。
  • 高扩展性:支持大规模数据处理,适用于百万级文本的去重任务。
  • 通用性强:不仅适用于去重,还可扩展至相似文本检索、推荐系统等任务。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/492266.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

图形学笔记 - 5. 光线追踪 - RayTracing

Whitted-Style Ray tracing 为什么要光线追踪 光栅化不能很好地处理全局效果 软阴影尤其是当光线反射不止一次的时候 栅格化速度很快,但质量相对较低 光线追踪是准确的,但速度很慢 光栅化:实时,光线追踪:离线~10K …

day15 python(3)——python基础(完结!!)

【没有所谓的运气🍬,只有绝对的努力✊】 目录 1、函数 1.1 函数传参中的拆包 1.2 匿名函数的定义 1.3 匿名函数练习 1.4 匿名函数应用——列表中的字典排序 2、面向对象 OOP 2.1 面向对象介绍 2.2 类和对象 2.3 类的构成和设计 2.4 面向对象代码…

C语言破解鸡蛋问题

破解鸡蛋问题 问题分析算法思路选择枚举法思路数据结构应用数组的应用变量的合理定义代码实现伪代码示例C 语言代码展示结果验证与分析不同输入验证复杂度分析问题分析 在这个 “鸡蛋问题” 中,已知条件表明这堆鸡蛋按两个两个地拿、三个三个地拿、四个四个地拿时,最后都剩一…

XXE-Lab靶场漏洞复现

1.尝试登录 输入账号admin/密码admin进行登录&#xff0c;并未有页面进行跳转 2.尝试抓包分析请求包数据 我们可以发现页面中存在xml请求&#xff0c;我们就可以构造我们的xml请求语句来获取想要的数据 3.构造语句 <?xml version"1.0" ?> <!DOCTYPE fo…

安卓主板_MTK联发科android主板方案

在当前智能设备的发展中&#xff0c;安卓主板的配置灵活性和性能优化显得尤为重要。安卓主板的联发科方案&#xff0c;在芯片上&#xff0c;搭载联发科MTK6761、MT8766、MT6765、MT6762、MT8768、MT8390、MTK8370以及MT8788等型号&#xff0c;均基于64位的四核或八核架构设计。…

计算机网络知识点全梳理(三.TCP知识点总结)

目录 TCP基本概念 为什么需要TCP 什么是TCP 什么是TCP链接 如何唯一确定一个 TCP 连接 TCP三次握手 握手流程 为什么是三次握手&#xff0c;而不是两次、四次 为什么客户端和服务端的初始序列号 ISN 不同 既然 IP 层会分片&#xff0c;为什么 TCP 层还需要 MSS TCP四…

0004.基于springboot+elementui的在线考试系统

适合初学同学练手项目&#xff0c;部署简单&#xff0c;代码简洁清晰&#xff1b; 愿世界和平再无bug 一、系统架构 前端&#xff1a;vue| elementui 后端&#xff1a;springboot | mybatis-plus 环境&#xff1a;jdk1.8 | mysql | maven 二、登录角色 1.管理员 2.老师 …

[面试题]--索引用了什么数据结构?有什么特点?

答&#xff1a;使用了B树&#xff1a; 时间复杂度&#xff1a;O(logN),可以有效控制树高 B树特点&#xff1a; 1.叶子节点之间有相互链接的作用&#xff0c;会指向下一个相近的兄弟节点。 MySQL在组织叶子节点使用的是双向链表 2.非叶子节点的值都保存在叶子节点当中 MySQL非叶…

ansible剧本快速上手

playbook剧本介绍 是什么&#xff1a;能户长期保存&#xff0c;且能实现批量配置、部署…的文件格式&#xff1a;yaml格式。用 空格 冒号 头号 句号语法检测&#xff1a;ansible-playbook --syntax-check install-zabbix.yaml或则 -C检测取消默认任务&#xff1a;gather_facts…

Element plus 下拉框组件选中一个选项后显示的是 value 而不是 label

最近刚进行 Vue3 Element plus 项目实践&#xff0c;在进行表单二次封装的时候&#xff0c;表单元素 select 下拉框组件选中一个选项后显示的是 value 而不是 label&#xff0c;下面上代码&#xff1a; 原来的写法&#xff1a; <el-selectv-if"v.type select"…

重新定义页签!Choerodon UI Tabs让管理更高效

01 引言 Tabs 组件通过提供平级区域&#xff0c;将大块内容进行有效的收纳和展现&#xff0c;从而保持界面整洁。但在企业应用的快速发展中&#xff0c;这样传统的页签组件已无法满足我们对界面布局和个性化展示的追求。Choerodon UI Tabs 组件通过支持多级分组、个性化配置、…

Eureka学习笔记-服务端

Eureka学习笔记 服务端 模块设计 Resources &#xff1a;这部分对外暴露了一系列的 Restful 接口。Eureka Client 的注册、心跳、获取服务列表等操作都需要调用这些接口。另外&#xff0c;其他的 Server 在同步 Registry 时也需要调用这些接口。Controller &#xff1a;这里提…

Java创建对象有几种方式?

大家好&#xff0c;我是锋哥。今天分享关于【Java创建对象有几种方式?】面试题。希望对大家有帮助&#xff1b; Java创建对象有几种方式? 1000道 互联网大厂Java工程师 精选面试题-Java资源分享网 在 Java 中&#xff0c;创建对象的方式主要有几种。以下是常见的几种对象创…

C++特殊类设计(单例模式等)

目录 引言 1.请设计一个类&#xff0c;不能被拷贝 2. 请设计一个类&#xff0c;只能在堆上创建对象 为什么设置实例的方法为静态成员呢 3. 请设计一个类&#xff0c;只能在栈上创建对象 4. 请设计一个类&#xff0c;不能被继承 5. 请设计一个类&#xff0c;只能创建一个对…

[LeetCode-Python版]21. 合并两个有序链表(迭代+递归两种解法)

题目 将两个升序链表合并为一个新的 升序 链表并返回。新链表是通过拼接给定的两个链表的所有节点组成的。 示例 1&#xff1a; 输入&#xff1a;l1 [1,2,4], l2 [1,3,4] 输出&#xff1a;[1,1,2,3,4,4] 示例 2&#xff1a; 输入&#xff1a;l1 [], l2 [] 输出&#x…

【C++】- 掌握STL List类:带你探索双向链表的魅力

文章目录 前言&#xff1a;一.list的介绍及使用1. list的介绍2. list的使用2.1 list的构造2.2 list iterator的使用2.3 list capacity2.4 list element access2.5 list modifiers2.6 list的迭代器失效 二.list的模拟实现1. list的节点2. list的成员变量3.list迭代器相关问题3.1…

Facebook的隐私保护政策:用户数据如何在平台上被管理?

在当今数字化世界&#xff0c;社交平台如何管理用户数据并保护隐私成为了一个热点话题。作为全球最大的社交网络&#xff0c;Facebook&#xff08;现Meta&#xff09;在数据隐私方面的政策备受关注。本文将简要介绍Facebook的隐私保护措施&#xff0c;以及用户数据如何在平台上…

Git-分支(branch)常用命令

分支 我们在做项目开发的时候&#xff0c;无论是软件项目还是其他机械工程项目&#xff0c;我们为了提高效率以及合理的节省时间等等原因&#xff0c;现在都不再是线性进行&#xff0c;而是将一个项目抽离出诸进行线&#xff0c;每一条线在git中我们就叫做分支&#xff0c;bran…

0101多级nginx代理websocket配置-nginx-web服务器

1. 前言 项目一些信息需要通过站内信主动推动给用户&#xff0c;使用websocket。web服务器选用nginx&#xff0c;但是域名是以前通过阿里云申请的&#xff0c;解析ip也是阿里云的服务器&#xff0c;甲方不希望更换域名。新的系统需要部署在内网服务器&#xff0c;简单拓扑图如…

Android Stduio 2024版本设置前进和后退按钮显示在主界面

Android Studio 2024&#xff08;Ladybug&#xff09;安装后发现前进和后退按钮不显示在主界面的工具栏&#xff0c;且以前在View中设置的办法无效&#xff1a; Android Studio 2024&#xff08;Ladybug&#xff09;的设置方式&#xff1a; File->Settings->Appearance&…