NLP CH10 问答系统复习

1. 专家系统

特点

  • 问题聚焦:限定在特定领域。
  • 数据结构化:使用结构化的领域知识。
  • 数据库支持:后台有一个数据库,保存系统可提供的各种数据。
  • 查询机制:用户提问时,系统将问题转换为 SQL 查询语句,从数据库中检索数据并提供给用户。

构建系统的关键

  1. 结构化数据库:构建一个特定领域的完备结构数据库。
  2. 查询转换:能够准确、高效地将问题转化为查询语言形式的查询。

局限性

  • 应用范围有限:通常只能用于限定领域。

2. 检索式问答系统

特点

  • 开放领域:问题领域不受限。
  • 基于非结构化数据:主要依赖Web数据。
  • 检索内容简短:通常为词或词组。

处理框架

image.png
image.png

流水线方式
  • 主要框架:主要为Document Retriever 和 Document Reader两步
  • 典型研究
    • DrQA:基于维基百科的流水线问答系统,结合文档检索与阅读理解。
  • 答案重排序
    • 基于“多片段证据聚合”的方法(Wang等,ICLR 2018),结合不同片段的证据进行答案重排序。
端到端方式
  • Retriever-Reader联合学习
    • 研究动机:通过联合学习整合检索与阅读任务,减少中间步骤对性能的影响。
    • 方法:利用BERT等神经网络,训练问题-答案对而非完整文档数据。
    • 典型研究
      • ORQA(Latent Retrieval for Weakly Supervised QA):通过“逆向填空任务”预训练检索器,提升检索效率。
  • 基于预训练的Retriever-Free方法
    • 直接使用大规模预训练模型(如GPT-2, T5)记忆知识,从模型中直接生成答案,无需文档检索。
  • 小结在非结构化数据上的大规模预训练模型在不需要检索外部知识的情况下,在开放域QA上获得了和有监督方法匹敌的效果。模型效果很大程度上受模型规模的影响。

3. 社区问答系统

任务定义:根据用户所提问题,找到社区中与之相应的答案

特点

  • 丰富的元数据:包括用户类型、问题类型、问题发布时间等。
  • 文本长度较长:问题和答案通常包含大量噪声。
  • 答案质量差异大

优势

  • 个性化与开放域:能够解决个性化、开放域、异构、精确的问题。
  • 高质量理解与回答:社区用户相比机器能够更精准理解问题并提供高质量回答。
  • 知识积累:不断积累丰富的知识。

处理框架

社区问答系统处理框架
image.png

  1. 问题分析
    • 理解问题。
    • 提取关键实体。
    • 构建问题语义表示。
  2. 信息检索部分
    • 检索与问题类似的问题对。
    • 返回问题的答案或相似问题列表。
  3. 答案抽取部分
    • 从检索结果中抽取答案。
    • 评估答案的质量。

具体研究方法

传统方法
  • 统计特征匹配。
  • CNN/RNN特征匹配。
最新方法
  • 答案摘要生成
    • 通过Bi-LSTM等模型生成问题引导的答案摘要,过滤噪声。
    • 代表性研究:Joint Learning of Answer Selection and Answer Summary Generation(AAAI 2020)。
  • 用户上下文建模
    • 研究用户历史回答,结合当前问题与用户相关性。
    • 代表性研究:Attentive User-Engaged Adversarial Neural Network(AAAI 2020)。
  • 融合信息
    • 通过引入外部知识(如话题信息、用户背景)改善Q-A匹配质量。

4. 知识库问答系统

主要任务

  • 知识库问答任务:给定自然语言问题,通过对问题进行语义理解和解析, 利用知识库进行查询、推理得出答案。
  • 问题描述:根据给定问题,在知识图谱中检索/推理相关实体作为答案
    知识库问答系统实现方法

实现方法

  1. 语义解析(Semantic Parsing)
    • 将自然语言问题解析为逻辑形式,再转化为查询语句对知识库进行查询。
  2. 信息抽取(Information Extraction)
    • 从问题中提取实体,构建知识子图,对候选答案进行分类筛选。
  3. 向量建模(Vector Modeling)
    • 将问题和候选答案向量化,使用点积计算相关性得分,筛选最终答案。
  4. 新方向
    • 结合文本和知识图谱,构建异构图(如GRAFT-Net),引入非结构化文本知识。
    • 基于图神经网络(GNN)进行知识表示学习和推理。

最新研究方向

  • 融合知识的大模型问答(Knowledge-Augmented LLM)
    • 将知识图谱信息注入到大语言模型的提示(prompt)中。
    • 研究代表
      • Knowledge-Augmented Language Model Prompting。
      • Graph Neural Prompting with Large Language Models。

优势与局限

优势
  • 准确性:人工构建的知识库确保了答案的准确性。
  • 多步推理:知识图谱的图结构支持多步推理问答。
  • 常识覆盖:常识或“简单”问题容易在知识图谱中找到答案。
局限性
  • 知识覆盖有限:只能回答依据知识图谱中存在的问题,涉及的实体与关系有限。
  • 实时更新困难:知识图谱无法实时更新,影响回答的时效性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/502723.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

vite6+vue3+ts+prettier+eslint9配置前端项目(后台管理系统、移动端H5项目通用配置)

很多小伙伴苦于无法搭建一个规范的前端项目,导致后续开发不规范,今天给大家带来一个基于Vite6TypeScriptVue3ESlint9Prettier的搭建教程。 目录 一、基础配置1、初始化项目2、代码质量风格的统一2.1、配置prettier2.2、配置eslint2.3、配置typescript 3、…

【2025年最新】OpenWrt 更换国内源的指南(图形界面版)

在上一篇文章中我们讲解了如何使用命令行更换国内源,如果你没有终端工具,或者不喜欢命令行,那么图形界面方式将会是更简单有效的方式。 命令行版本:【2025年最新】OpenWrt 更换国内源的指南(命令行)-CSDN博客 为什么选择通过图形…

uni-app:实现普通选择器,时间选择器,日期选择器,多列选择器

效果 选择前效果 1、时间选择器 2、日期选择器 3、普通选择器 4、多列选择器 选择后效果 代码 <template><!-- 时间选择器 --><view class"line"><view classitem1><view classleft>时间</view><view class"right&quo…

NVIDIA DLI课程《NVIDIA NIM入门》——学习笔记

先看老师给的资料&#xff1a; NVIDIA NIM是 NVIDIA AI Enterprise 的一部分&#xff0c;是一套易于使用的预构建容器工具&#xff0c;目的是帮助企业客户在云、数据中心和工作站上安全、可靠地部署高性能的 AI 模型推理。这些预构建的容器支持从开源社区模型到 NVIDIA AI 基础…

深度学习中的步数指的是什么

Lora微调的截图如下: 在深度学习中,步数(steps) 是指模型参数更新的次数。每次参数更新通常对应一个或多个批次的梯度计算和优化器更新。以下是计算总步数的方法以及步数的具体含义: 1. 步数的计算公式 总步数(Total Optimization Steps)可以通过以下公式计算: [ \te…

【可实战】测试用例组成、用例设计方法、用例编写步骤、测试用例粒度、用例评审(包含常见面试题)

一、测试用例组成 &#xff08;一&#xff09;测试用例的组成 用例编号&#xff0c;模块&#xff0c;测试点&#xff08;测试标题&#xff09;&#xff0c;优先级&#xff0c;前提条件&#xff0c;测试步骤&#xff0c;期望结构&#xff0c;实际结果并不是每一项都必须&#…

Redis两种主要的持久化方式是什么?

Redis支持两种主要的持久化方式&#xff0c;它们分别是RDB&#xff08;Redis Database Snapshotting&#xff09;和AOF&#xff08;Append Only File&#xff09;。以下是这两种持久化方式的详细介绍&#xff1a; 一、RDB&#xff08;Redis Database Snapshotting&#xff09; …

【强化学习】演员评论家Actor-Critic算法(万字长文、附代码)

&#x1f4e2;本篇文章是博主强化学习&#xff08;RL&#xff09;领域学习时&#xff0c;用于个人学习、研究或者欣赏使用&#xff0c;并基于博主对相关等领域的一些理解而记录的学习摘录和笔记&#xff0c;若有不当和侵权之处&#xff0c;指出后将会立即改正&#xff0c;还望谅…

《新概念模拟电路》-电流源电路

电流源电路 本系列文章主要学习《新概念模拟电路》中的知识点。在工作过程中&#xff0c;碰到一些问题&#xff0c;于是又翻阅了模电这本书。我翻阅的是ADI出版的&#xff0c;西安交通大学电工中心杨建国老师编写的模电书。 本文主要是基于前文《新概念模拟电路》-三极管的基础…

Linux下编译安装PETSc

本文记录在Linux下编译安装PETSc的流程。 零、环境 操作系统Ubuntu 22.04.4 LTSVS Code1.92.1Git2.34.1GCC11.4.0CMake3.22.1oneAPI2024.2.1 一、安装依赖 1.1 安装oneAPI 参见&#xff1a;Get the Intel oneAPI Base Toolkit , Get the Intel oneAPI HPC Toolkit 1.2 安…

初学vue3心得

这几年经济形势不好,国外对程序员的要求一直都是全栈,国内也慢慢要求通才,作为一名后端算法工程师,最近在学vue3,以下是最近学习的一点心得: 所有的npm install命令前面一定要改成cnpm install,提高速度 在main.js中引入了import "element-plus/dist/index.css";这…

【顶刊TPAMI 2025】多头编码(MHE)之极限分类 Part 4:MHE表示能力

目录 1 MHE的表示能力2 基于Frobenius-范数的低秩逼近3 基于CE的低秩近似 论文&#xff1a;Multi-Head Encoding for Extreme Label Classification 作者&#xff1a;Daojun Liang, Haixia Zhang, Dongfeng Yuan and Minggao Zhang 单位&#xff1a;山东大学 代码&#xff1a;h…

SRS 服务器入门:实时流媒体传输的理想选择

在当今视频流媒体需求爆炸式增长的时代&#xff0c;如何选择一款高效、稳定且功能强大的流媒体服务器成为了许多开发者和企业关注的焦点。而 SRS&#xff08;Simple Realtime Server&#xff09;作为一款开源的流媒体服务器&#xff0c;以其卓越的性能和灵活的功能&#xff0c;…

IoC设计模式详解:控制反转的核心思想

前言&#xff1a;在软件开发中&#xff0c;设计模式是一种经过验证的、在特定场景下能有效解决问题的解决方案。控制反转&#xff08;Inversion of Control&#xff0c;IoC&#xff09; 作为一种设计模式&#xff0c;通过让程序的控制流和对象管理反转&#xff0c;从而使得代码…

Swift White Hawkstrider

Swift White Hawkstrider 迅捷白色陆行鸟 Swift White Hawkstrider - Item - 魔兽世界怀旧服TBC数据库_WOW2.43数据库_70级《燃烧的远征》数据库 Kaelthas Sunstrider (1) <Lord of the Blood Elves> 凯尔萨斯逐日者. 掉落 [80圣骑士][Alonsus-加丁][诺森德冒险补给品…

2025 年前端新技术如何塑造未来开发生态?

开发领域&#xff1a;前端开发 | AI 应用 | Web3D | 元宇宙 技术栈&#xff1a;JavaScript、React、ThreeJs、WebGL、Go 经验经验&#xff1a;6 年 前端开发经验&#xff0c;专注于图形渲染和 AI 技术 开源项目&#xff1a;AI智简未来、晓智元宇宙、数字孪生引擎 大家好&#x…

2024 年 MySQL 8.0.40 安装配置、Workbench汉化教程最简易(保姆级)

首先到官网上下载安装包&#xff1a;http://www.mysql.com 点击下载&#xff0c;拉到最下面&#xff0c;点击社区版下载 windows用户点击下面适用于windows的安装程序 点击下载&#xff0c;网络条件好可以点第一个&#xff0c;怕下着下着断了点第二个离线下载 双击下载好的安装…

在大型语言模型LLM中使用私有数据

目录 一、说明 二、训练&#xff1f; 三、及时工程 四、构建系统提示 五、数据人性化 六、我的数据安全吗&#xff1f; 一、说明 随着 2023 年大型语言模型的大规模兴起&#xff0c;许多“基于对话”的服务应运而生&#xff0c;使用户能够通过自然对话与数据和其他产品进行交互…

字玩FontPlayer开发笔记6 Tauri2设置菜单

字玩FontPlayer开发笔记6 Tauri2设置菜单 字玩FontPlayer是笔者开源的一款字体设计工具&#xff0c;使用Vue3 ElementUI开发&#xff0c;源代码&#xff1a; github: https://github.com/HiToysMaker/fontplayer gitee: https://gitee.com/toysmaker/fontplayer 笔记 字玩目…

Chapter4.1 Coding an LLM architecture

文章目录 4 Implementing a GPT model from Scratch To Generate Text4.1 Coding an LLM architecture 4 Implementing a GPT model from Scratch To Generate Text 本章节包含 编写一个类似于GPT的大型语言模型&#xff08;LLM&#xff09;&#xff0c;这个模型可以被训练来生…