解读:【小爱同学】智能问答系统

重磅推荐专栏: 《Transformers自然语言处理系列教程》
手把手带你深入实践Transformers,轻松构建属于自己的NLP智能应用!

1. 基于检索匹配的问答

1.1 FAQ问答框架

在这里插入图片描述

1.2 检索

检索召回分为以下三种方式:

  • term检索
  • 实体检索
  • 语义检索

1.2.1 语义检索

学习得到每个doc的语义向量:
在这里插入图片描述
在这里插入图片描述
为每一个问题计算句子的语义向量,通过ANN算法进行检索:
在这里插入图片描述

参阅:
ANN召回算法之IVFPQ
ANN召回算法之HNSW

1.2.2 词权重

  • tf-idf
  • 点击数据:根据Q=abc中a/b/c三个term在点击结果中的出现次数来计算;为了解决从未出现过的query没有点击数据的问题,把点击细化到ngram的粒度;
  • 提取特征训练xgb模型
    在这里插入图片描述
  • 根据语境动态自适应的term weight。训练基于embedding的lstm网络,来动态计算每个term的词权重。

1.2.3 同义词挖掘

  1. 初始化种子数据(如:刘德华,华仔)
  2. 获取包含种子的句子集合(如:刘德华也被叫作华仔)
  3. 生成pattern
  4. 基于pattern集合获取更多的SPO数据(如:姚明也被叫作大姚)
  5. 将4的结果回灌1中,迭代整个流程

感觉该方案对数据要求很高。

1.2.4 生成式改写

在这里插入图片描述
改写器:

  • 利用人工标注数据预训练
  • 利用线上未召回query进行强化学习训练

这里没有详细介绍。我理解改写器应该是一个GAN的框架。

1.3 匹配

1.3.1 常用匹配模型

在这里插入图片描述

1.3.2 模型训练与数据增强

在这里插入图片描述

  • 首先,基于用户行为日志的海量数据做粗训练(对抗学习生成的数据也应该是用于该阶段),这部分海量数据质量较低,噪音偏多。
  • 然后,用高质的人工标注数据+数据增强做进一步的fine-tuning。

数据增强方案:

一对相似问Q1、Q2。
• 正样本:
找到Q1’,与Q1相似度 > 0.7
找到Q2’,与Q2相似度 > 0.7
增强结果,得到正样本:Q1’、Q2’

• 负样本:
找到Q1’,与Q1相似度 < 0.3
找到Q2’,与Q2相似度 < 0.3
增强结果,得到负样本:Q1’、Q2’

更多的特征

匹配模型可能会出现语义焦点,如下2对话:

“圆柱体的体积怎么算”- “圆柱体的面积怎么算”
“为什么宝宝总不听话”- “为什么狗狗总不听话”

模型可能判断其相似度比较高。

作者提出的方案是,新增一路抽取关键词后的two-sentence pair 送入预训练模型:
在这里插入图片描述
样本构造方法:
在这里插入图片描述

2. 基于知识图谱的问答

2.1 基于模板的方法

在这里插入图片描述
在这里插入图片描述

2.1.1 模板挖掘方法

在这里插入图片描述
作者基于结构化词条、问答论坛的数据,来进行模板挖掘的。如上图所示,结构化词条就可以看做是一个知识图谱。当问答论坛数据中,问题包含实体,答案包含属性值,就可以以此构造解析模板。如:
在这里插入图片描述

2.1.2 带约束的问答

上述挖掘的都是比较简单的模型。作者还构建了带约束的问答模板。如“世界之最”的问题。首先意图判断:query是否包含世界之最支持实体类型,以及是否包含最大、最小、第一、第二等触发词。然后进行结构化解析:
在这里插入图片描述

  • 问题1. 属性归一化
    解决方案:同义词、词向量、句对相似度匹配
    在这里插入图片描述
    问题2. 无属性
    解决方案:对量词(大、长)设置一些默认排序的属性
    在这里插入图片描述

2.2 跨垂域粗粒度的语义解析方法

模型是用比较基础的:
在这里插入图片描述

  • 槽填充:通过NER方式提取槽位
  • 意图识别:按文本分类方式识别query意图
  • 多任务学习:将二者联合学习
  • 后处理策略:根据领域词表对识别槽位进行纠错

主要创新思想是将不同意图下的槽位进行归并:
在这里插入图片描述
该方案可以缓解建设新垂类重复工作多、小垂类训练样本少的问题

2.3 基于路径匹配的方法

2.3.1 实体/属性值/数值抽取

在这里插入图片描述

2.3.2 子图检索

2.3.2.1 子图模板

  • 以单实体/多实体作为起点
  • 按照预先定好的路径模板挖掘候选子图,如:
    在这里插入图片描述

2.3.2.2 路径扩展&组合

  • 路径扩展:
  1. 以Query中某个实体为出发节点,通过新增三元组来扩展路径
  2. 以当前路径的答案作为出发节点,通过三元组拼接路径
  • 路径组合:
    以答案作为合并节点来拼接路径
    在这里插入图片描述

2.3.2.3 约束挂载

在这里插入图片描述
常见约束类型:
在这里插入图片描述

  1. 排序类型: 降序、升序
  2. 过滤类型: 大于、 小于、 等于、 大于等于、 小于等于

2.3.3 子图匹配


候选就是子图路径。路径表示方法:
在这里插入图片描述
作者实践发现以上几种方法效果差不多。。

模型可能对于某些类的预测比较差,而这些类在随机负采样中未能覆盖到。针对该问题,作者提出以下方案:
在这里插入图片描述

  • 当前Epoch模型打分结果不理想的样本,加入到下一轮训练集中
  • 为避免训练不稳定,需要抽样部分保留原有的样本

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/50234.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ESP32接入小爱同学,实现语音控制

准备工作 安装手机app 米家app小米音箱或小爱同学app点灯科技app&#xff0c;app下载链接&#xff1a;https://diandeng.tech/dev 开发环境搭建 Arduino IDE需安装好esp32扩展Arduino IDE 1.8.7或更新版本务必使用 2.0.0 或以上release版本的 ESP32 Arduino package Arduin…

可惜我是水瓶座

这是我写的十二星座十二人的第七篇。我过去写过&#xff1a; 双子刘若英&#xff1a;《若》狮子陈奕迅&#xff1a;《狮子医生》天秤李安&#xff1a;《安》天蝎朴树&#xff1a;《蝎子朴树》摩羯周杰伦&#xff1a;《范特西》双鱼伊能静&#xff1a;《十二星座十二人之&#x…

机器人用上AI后,拥有了堪比人类皮肤的触觉:轻松引线穿针、夹取鸡蛋丨Science子刊...

萧箫 发自 凹非寺 量子位 报道 | 公众号 QbitAI 你见过能灵活夹取鸡蛋、可取可放的机器人吗&#xff1f; 不仅如此&#xff0c;甚至还能穿针引线&#xff1a; 就算是往它拿着的瓶子里倒水&#xff0c;也不会掉&#xff1a; 这是来自香港城市大学、香港大学、CMU和南方科技大学的…

谷歌年度AI技术总结来了!Jeff Dean执笔,附赠27个开源工具和数据大礼包

杨净 梦晨 发自 凹非寺量子位 报道 | 公众号 QbitAI Jeff Dean亲笔盘点谷歌AI研究成果&#xff0c;已经成了一年一度的保留节目。 今年也不例外&#xff0c;还是他抽出一部分假期时间完成的。 过去一年&#xff0c;谷歌研发投入依然是全球最高&#xff0c;在一整年的时间里产出…

高空抛物悲剧频出,AI 监控系统:让我来「罩」着你

来源&#xff5c;HyperAI超神经 文&#xff5c;神经小兮 近年来&#xff0c;因高空抛物、坠物造成的伤害事件屡上报端。水瓶、西瓜皮、易拉罐&#xff0c;甚至菜刀&#xff0c;都可能冷不丁地从天而降&#xff0c;砸向无辜的路人。轻则致伤&#xff0c;重则致命&#xff0c;让人…

OpenCV综合练习1——水瓶水位线合格检测

数字图像处理综合练习——水瓶水位线合格检测 马上就要转到学习深度学习的主干线了&#xff0c;这也是大势所趋&#xff0c;但不能忘本&#xff0c;传统图像处理的知识也是非常重要的&#xff0c;特此记录一下之前学习时做过的小练习。 整个项目的资源放在&#xff1a;水瓶水…

2022年中国便携水瓶市场现状研究分析报告

据我们的分析师调研显示&#xff0c;2021年中国便携水瓶市场销售收入达到了 万元&#xff0c;预计2028年可以达到 万元&#xff0c;2022-2028期间年复合增长率(CAGR)为 %。中国市场核心厂商包括Newell Brands、CamelBak、Tupperware Brands、Cascade Designs和BRITA等&#xff…

【实例篇】怎样测试一个矿泉水瓶

今天我们来分析关于实例的测试&#xff0c;测试一个矿泉水瓶。在测试的时候&#xff0c;需要从以下几个方面进行测试&#xff0c;比如说它的外观功能性能、安全性、易用性还有兼容性。 也可以不从这几个方面进行测试&#xff0c;这样的话能想起来的方面比较少&#xff0c;因为…

java为什么不能多继承_为什么Java不支持多继承

最近我的一个朋友进行了几次面试&#xff0c;碰到了一个很容易被问的问题&#xff1a;为什么Java不支持多重继承&#xff0c;尽管他回答Java可以通过实现多个interface的方式实现多重继承&#xff0c;但面试官却依然为什么不支持。也许我的朋友仅仅是阅读了一些相关的博客&…

我的世界服务器物品不堆叠,我的世界不可堆叠物品怎么堆叠

来源&#xff1a;游戏园日期&#xff1a;2019-05-11 04:03:07 我的世界不可堆叠物品怎么堆叠。那在我的世界里面怎么制作堆叠的不可堆叠物品&#xff0c;怎么感觉这个问的这么绕口呢&#xff1f;那不管了&#xff0c;下面就一起来看看下面的这个教你怎么堆叠不可堆叠物品的方法…

【花雕动手做】有趣好玩的音乐可视化系列小项目(14)---水杯水瓶灯

偶然心血来潮&#xff0c;想要做一个声音可视化的系列专题。这个专题的难度有点高&#xff0c;涉及面也比较广泛&#xff0c;相关的FFT和FHT等算法也相当复杂&#xff0c;不过还是打算从最简单的开始&#xff0c;实际动手做做试验&#xff0c;耐心尝试一下各种方案&#xff0c;…

我的AI不可能这么傻:深度学习的致命弱点

转载自 Nature 点击上方“迈微AI研习社”&#xff0c;选择“星标★”公众号 原作者: Douglas Heaven 关注公众号阅读原文&#xff0c;这个排版太差。 人工智能专家正在想办法修复神经网络的缺陷。 一辆自动驾驶汽车正在靠近一个停车让行标志&#xff0c;它非但没有停下&…

水瓶效果制作

前言 提示&#xff1a;这里可以添加本文要记录的大概内容&#xff1a; 本次分享主要为水瓶效果&#xff0c;思路借鉴于https://www.patreon.com/posts/quick-game-art-18245226 该链接&#xff0c;不过部分内容较难理解&#xff0c;所以打算使用自己的思路实现一下 提示&…

读书笔记:深度学习进阶-自然语言处理(俗称鱼书二)

文章目录 前言一、神经网络的复习二、自然语言和单词的分布式表示2.1什么是自然语言处理2.2同义词词典2.3基于计数的方法2.3.1基于python的语料库的预处理2.3.2单词的分布式表示2.3.3分布式假设2.3.4共现矩阵2.3.5向量间的相似度2.3.6相似单词的排序 2.4基于计数的方法的改进2.…

隐私计算将改变金融行业的游戏规则?

开放隐私计算 01 背景 2月底&#xff0c;相关部门印发《数字中国建设整体布局规划》提出&#xff0c;到2025年&#xff0c;基本形成横向打通、纵向贯通、协调有力的一体化推进格局&#xff0c;数字中国建设取得重要进展&#xff1b;到2035年&#xff0c;数字化发展水平进入世界…

【ChatGLM】使用ChatGLM-6B-INT4模型进行P-Tunning训练记录及参数讲解

文章目录 模型训练步骤参数含义名词解释欠拟合泛化能力收敛性梯度爆炸 初步结论 小结 模型训练 首先说明一下训练的目的&#xff1a;提供本地问答知识文件&#xff0c;训练之后可以按接近原文语义进行回答&#xff0c;类似一个问答机器人。 步骤 安装微调需要的依赖&#xf…

几个潜在的AI科研助手

最近看到一个新闻说ChatGPT被某科研文章列为作者之一。以自然语言处理和深度学习为基础的人工智能在语言修改润色和翻译方面表现优异&#xff0c;似乎还将改变一些传统的论文阅读和写作方式。本文记录几个最近了解到的几个工具。 Scispace 地址&#xff1a;https://typeset.io/…

客户体验词汇表:需要了解的最重要的术语

无论如何&#xff0c;当我们说客户体验时&#xff0c;是什么意思&#xff1f; 这是最终的客户体验词汇表&#xff0c;可帮助指导您。 客户体验&#xff0c;也称为 CX&#xff0c;会影响从客户参与度、保留率、忠诚度、终生价值到最终盈利的方方面面。 难怪获得正确的客户体验是…

免费的chaGPT安利给大家 ,体验了一下还是不错的!!!分享下感受

第一点&#xff1a; 确实很智能、聪明 &#xff0c;知道你想问的问题&#xff0c;即使问题不清楚&#xff0c;比传统的单一搜索具有连贯性&#xff0c;能根据上几次问题进行连贯回答 。第二点&#xff1a; 用来搜索代码确实真的方便&#xff0c;代码注释都写的清清楚楚、详细 &…

ChatGPT这么火,你会被取代吗?

前言 ChatGPT爆火后&#xff0c;“程序员要失业了”、“程序员要下岗了”之声不绝于耳&#xff0c;引得程序员们不由得一阵惊慌。 ChatGPT这么火&#xff0c;以后是不是不需要那么多程序员了。 这个话题太过于火热&#xff0c;我也不由的试用了下&#xff0c;但是经过使用、和…