NLP 文本匹配任务核心梳理

定义

  • 本质上是做了意图的识别
    判断两个内容的含义(包括相似、矛盾、支持度等)
  • 侠义
    • 给定一组文本,判断语义是否相似
    • Yi 分值形式给出相似度
  • 广义
    • 给定一组文本,计算某种自定义的关联度
    • Text Entailment
      判断文本是否能支持或反驳这个假设
    • 主题判断

神经网络方法

  • 表示型文本匹配
    • 特点
      • 只需要对用户新输入的问题送入模型,运行一次
        实际查找中,对输入文本做一次向量化
      • 运行结果与知识库中的标准问向量分别计算 loss
      • 最后排序,找到最 match 的结果
      • 更适用智能问答
      • 用于需要分别看到两句话的场景
        计算两句话相似性
      • 类似于二分类任务
    • 方式
      • 共享encoder 参数
        • 即孪生网络
        • encoder 层
          两句话分别输入encoder(LSTM、CNN+pool、bert) 得到句向量
        • matching layer 层
          • 对两个句向量进行预期分值计算
            相同文本用相同参数,余弦值夹角为0,值为1,欧式距离为0
          • 可以完全没有可训练参数
            在评估阶段进行 cosine loss 或 欧式距离等向量分值计算
      • triplet loss
        在这里插入图片描述
        • 目标
          • 使具有相同标签的样本在 embedding 空间尽量接近
          • 使具有不同标签的样本在 embedding 空间尽量远离
        • 方式
          三元组<a, p, n>
          - a 原点
          - p 与a 同一类别的样本
          - n 与a 不同类别的样本
        • 在cv也用于人脸识别模型训练
  • 交互型文本匹配
    • 特点
      • 用户输入新问题,与知识库中的n 个标准问分别拼接送入模型,计算 n 次
        对比把握句子重点
      • 更适合问题与答案的匹配场景
        因为答案长度与问题长度差异,答案与问题是两个概念的东西,共用 encoder 参数就不合适,可能需要补太多 padding
      • 用于需要同时看到两句话的场景
        用于计算两句话相关性
    • 方式
      • 每次计算需要两个输入
      • 将两个句子拼接成长文本
        在模型中判断两句话关联性,输出关联性得分

非神经网络算法

  • Jaccard 相似度
    核心逻辑:文本中元素的交集/文本中元素的并集
    在这里插入图片描述

  • word2vec
    核心逻辑:从词向量相似度得到句子相似度,将文本中所有的词的词向量相加取平均

    • 获取句子向量之间 余弦值
    • 两个句子的相似度,等同于两个向量的余弦距离
      在这里插入图片描述
  • BM25算法
    对 TF-IDF 的改进
    在这里插入图片描述

  • 编辑距离
    动态规划算法

def edit_distance(s1, s2):m, n = len(s1), len(s2)dp = [[0] * (n + 1) for _ in range(m + 1)]for i in range(m + 1):dp[i][0] = ifor j in range(n + 1):dp[0][j] = jfor i in range(1, m + 1):for j in range(1, n + 1):if s1[i - 1] == s2[j - 1]:dp[i][j] = dp[i - 1][j - 1]else:dp[i][j] = min(dp[i - 1][j - 1], dp[i - 1][j], dp[i][j - 1]) + 1return dp[m][n]
  • 优点
    • 可解释性强
    • 跨语种
    • 不需要训练模型
  • 缺点
    • 字符之间没有语义相似度
    • 受无关词、停用词影响大
    • 受语义影响大
    • 文本长度对速度影响很搭
  • 由一个字符串转成量一个所需的最少编辑操作次数
    核心是比较两个序列相似性

应用

  • 应用方向
    • 短文本 vs 短文本
      • 知识库问答
        • 不使用文本分类的原因
          • 拓展性不强
            新增问题时需要重新训模型
          • 相同问题的有效性
            会出现无法命中相同问题的情况
        • 可以使用GPT模型
          RAG 思路:检索增强
      • 聊天机器人
    • 短文本 vs 长文本
      • 文章检索
      • 广告推荐
    • 长文本 vs 长文本
      新闻、文章的关联推荐
  • 实际应用
    • 信息检索
      搜索引擎
    • nlp 最成熟的落地任务:智能问答
      • 落地形式
        • 人机对话
        • 智能客服
        • 智能音箱
        • 聊天机器人
        • 车载导航
        • 手机助手
      • 基础资源
        • faq 库
          • 多个问答对组成的集合
            一个标准问对应一个标准审核好的标准答案
          • 运行逻辑
            • 用户提问
            • 提问内容预处理
              根据算法决定处理方式
            • 找到最相似的问题
            • 输出答案
          • 核心
            • 进行语义相似度计算
              即 文本匹配
        • 书籍文档
        • 网页
        • 知识图谱
        • 表格
        • 特定领域知识
        • 人工规则
      • 答案产出方式
        • 检索式
        • 生成式
        • 检索+生成
      • 相关技术划分
        • 单轮问答
        • 多轮问答
        • 多语种问答
        • 事实性问答
        • 开方性问答
        • 多模态问答
          问题是文字答案是语音或视频
        • 选择性问答
        • 抽取式问答
        • 生成式问答
  • 落地应用
    • 信息检索
    • 知识库问答
      Faq 知识库

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/430545.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

统信服务器操作系统【Cron定时任务服务】

Cron定时任务服务服务介绍、服务管理、服务配置 文章目录 一、功能概述二、功能介绍1. Cron 服务管理2.Cron 服务管理3.Cron 服务配置run-parts一、功能概述 cron是一个可以用来根据时间、日期、月份、星期的组合来 调度对周期性任务执行的守护进程。利用 cron 所提供的功能,可…

插座空置状态检测系统源码分享

插座空置状态检测检测系统源码分享 [一条龙教学YOLOV8标注好的数据集一键训练_70全套改进创新点发刊_Web前端展示] 1.研究背景与意义 项目参考AAAI Association for the Advancement of Artificial Intelligence 项目来源AACV Association for the Advancement of Computer…

输电线塔目标检测数据集yolo格式该数据集包括2644张输电线塔高清图像,该数据集已经过yolo格式标注,具有完整的txt标注文件和yaml配置文件。

输电线塔目标检测数据集yolo格式 该数据集包括2644张输电线塔高清图像&#xff0c;该数据集已经过yolo格式标注&#xff0c;具有完整的txt标注文件和yaml配置文件。 输电线塔目标检测数据集 数据集名称 输电线塔目标检测数据集&#xff08;Transmission Tower Object Detecti…

视频去水印 —— 释放创意,让学习与创作更自由!

&#x1f31f; 视频去水印 —— 释放创意&#xff0c;让学习与创作更自由&#xff01; 在这个短视频盛行的时代&#xff0c;抖音、快手、小红书等平台成为了创意与灵感的聚集地。你是否曾遇到过想要学习或进行二次创作&#xff0c;却被视频中的水印所困扰&#xff1f;现在&…

RHCSA认证-Linux(RHel9)-Linux入门

文章目录 概要一、创建、查看和编辑⽂本1.1 输出重定向1.2 vim编辑器1.3 shell 变量1.5 获取帮助 二、管理本地用户和组2.1 描述用户2.2 切换用户和赋权2.3 用户管理2.4 用户组管理2.5 密码策略 三、控制文件访问3.1 列出文件和文件权限3.2 更改文件权限和拥有者3.3 控制默认权…

WPF自定义Dialog模板,内容用不同的Page填充

因为审美的不同&#xff0c;就总有些奇奇怪怪的需求&#xff0c;使用框架自带的对话框已经无法满足了&#xff0c;这里记录一下我这边初步设计的对话框。别问为啥要用模板嵌套Page来做对话框&#xff0c;问就是不想写太多的窗体。。。。 模板窗体&#xff08;XAML&#xff09;…

独立游戏《Project:Survival》UE5C++开发日志0——游戏介绍

该游戏是《星尘异变》团队的下一款作品&#xff0c;太空科幻题材的生存游戏&#xff0c;我将负责使用C、蓝图实现游戏的基础框架和核心功能&#xff0c;其中还包含使用人工智能算法助力游戏开发或帮助玩家运营 目前已有功能&#xff1a; 1.3D库存系统&#xff1a;所有库存中的物…

1.6 计算机网络体系结构

参考&#xff1a;&#x1f4d5;深入浅出计算机网络 常见的三种计算机网络体系结构 TCP/IP体系结构 路由器一般只包含网络接口层和网际层。 应用层TCP/IP体系结构的应用层包含了大量的应用层协议&#xff0c;例如HTTP、SMTP、DNS、RTP等运输层TCP和UDP是TCP/IP体系结构运输层的…

UWA支持鸿蒙HarmonyOS NEXT

华为在开发者大会上&#xff0c;宣布了鸿蒙HarmonyOS NEXT将仅支持鸿蒙内核和鸿蒙系统的应用&#xff0c;不再兼容安卓应用&#xff0c;这意味着它将构建一个全新且完全独立的生态系统。 为此&#xff0c;UWA也将在最新版的UWA SDK v2.5.0中支持鸿蒙HarmonyOS NEXT&#xff0c…

链表分割-----------lg

现有一链表的头指针 ListNode* pHead&#xff0c;给一定值x&#xff0c;编写一段代码将所有小于x的结点排在其余结点之前&#xff0c;且不能改变原来的数据顺序&#xff0c;返回重新排列后的链表的头指针。 我们可以假设x为36&#xff0c;则小于36都排在前边&#xff0c;>3…

虚幻引擎游戏保存/加载存档功能

函数名功能Does Save Game Exist检查存档是否存在Load Game from Slot加载存档Save Game to Slot保存存档Delete Game in Slot删除存档 Slot Name 是插槽名字 存档都是通过插槽名字来 读取/加载/检查/删除的 先创建一个SaveGame类 , 这个类里可以存放要保存的数据 , 比如 玩家…

【UE5】将2D切片图渲染为体积纹理,最终实现使用RT实时绘制体积纹理【第二篇-着色器制作】

在上一篇文章中&#xff0c;我们已经理顺了实现流程。 接下来&#xff0c;我们将在UE5中&#xff0c;从头开始一步一步地构建一次流程。 通过这种方法&#xff0c;我们可以借助一个熟悉的开发环境&#xff0c;使那些对着色器不太熟悉的朋友们更好地理解着色器的工作原理。 这篇…

思科安全网络解决方案

《网安面试指南》http://mp.weixin.qq.com/s?__bizMzkwNjY1Mzc0Nw&mid2247484339&idx1&sn356300f169de74e7a778b04bfbbbd0ab&chksmc0e47aeff793f3f9a5f7abcfa57695e8944e52bca2de2c7a3eb1aecb3c1e6b9cb6abe509d51f&scene21#wechat_redirect 《Java代码审…

Redis数据持久化总结笔记

Redis 是内存数据库&#xff0c;如果不将内存中的数据库状态保存到磁盘&#xff0c;那么一旦服务器进程退出&#xff0c;服务器中的数据库状态也会消失。所以 Redis 提供了持久化功能&#xff01; Redis 提供了 2 个不同形式的持久化方式 RDB&#xff08;Redis DataBase&#…

【python】requests 库 源码解读、参数解读

文章目录 一、基础知识二、Requests库详解2.1 requests 库源码简要解读2.2 参数解读2.3 处理响应2.4 错误处理 一、基础知识 以前写过2篇文章&#xff1a; 计算机网络基础&#xff1a; 【socket】从计算机网络基础到socket编程——Windows && Linux C语言 Python实现…

排序----希尔排序

void ShellSort(int* a, int n) {int gap n;while (gap > 1){// 1保证最后一个gap一定是1// gap > 1时是预排序// gap 1时是插入排序gap gap / 3 1;for (size_t i 0; i < n - gap; i){int end i;int tmp a[end gap];while (end > 0){if (tmp < a[end]){…

英伟达NVIDIA数字IC后端笔试真题(ASIC Physical Design Engineer)

今天小编给大家分享下英伟达NVIDIA近两年数字IC后端笔试真题&#xff08;ASIC Physical Design&#xff09; 请使用OR门和INV反相器来搭建下面所示F逻辑表达式的电路图。 数字IC后端设计如何从零基础快速入门&#xff1f;(内附数字IC后端学习视频&#xff09; 2024届IC秋招兆…

WEB领域是不是黄了还是没黄

进入2024年后&#xff0c;WEB领域大批老表失业&#xff0c;一片哀嚎&#xff0c;个个饿的鬼叫狼嚎&#xff0c;为啥呢&#xff0c;下面是我个人的见解和看法。 中国程序员在应用层的集中 市场需求&#xff1a;中国的互联网行业在过去几年中经历了爆炸性增长&#xff0c;尤其是…

RAG技术全面解析:Langchain4j如何实现智能问答的跨越式进化?

LLM 的知识仅限于其训练数据。如希望使 LLM 了解特定领域的知识或专有数据&#xff0c;可&#xff1a; 使用本节介绍的 RAG使用你的数据对 LLM 进行微调结合使用 RAG 和微调 1 啥是 RAG&#xff1f; RAG 是一种在将提示词发送给 LLM 之前&#xff0c;从你的数据中找到并注入…

Linux-DHCP服务器搭建

环境 服务端&#xff1a;192.168.85.136 客户端&#xff1a;192.168.85.138 1. DHCP工作原理 DHCP动态分配IP地址。 2. DHCP服务器安装 2.1前提准备 # systemctl disable --now firewalld // 关闭firewalld自启动 # setenforce 0 # vim /etc/selinux/config SELINU…