微软小冰主要框架和流程及相关技术

主要是看了知乎上面一位作者写的解析,然后自己在看的过程中顺带记录一下,流程差不多,自己写的话复习比较直观快速

 

 

 

 

1、Query是用户输入的问题

 

2、DM(对话管理模块)层:

  

   这一模块分为:状态追踪(对句子进行处理CQU+UU+SU)+对话策略(确定使用后续哪个功能)

状态追踪=s=(Qc,C,eQ,eR)=CQU(带背景query理解)+UU(用户理解)+SU(系统理解)

C是对话背景;

Qc是利用C对用户当前queryQ进行改写;

eQ是用户相关的各中心信息,如当前情绪、对话题的观点、个人资料等;

eR是小冰的信息,和上面类似。

CQU=实体识别+指代消解+句子补全

UU = 基于Qc和C产生eQ,包括话题+意图+情感+观点+个人资料

SU = eR,有些直接从UU拷贝,如话题等。

对话策略=依据更新后的对话状态来决定接下来的策略,也即决定这个信息是交由哪个功能处理,是核心闲聊还是某个技能。激活某个功能后,这个功能也会有自己的对话策略或者流程,来最终决定返回什么信息作为回复,称为分层决策

 优化过程:RL模型和EE策略

 

3、核心闲聊(Core Chat)

这一块分为两类:通用闲聊(一般性信息)+领域闲聊(带主题)

   话题管理(Topic Manager):分类模型。继续当前话题还是开启新话题(无法产生有意思回复或用户对当前对话感觉无聊)  新话题:话题库是利用一些高质量论坛爬取的数据构建,检索+排序:与背景信息相关性+新鲜度+用户感兴趣+流行度+接受度+boosted tree

   通用闲聊:图示就是说的检索+排序

   检索主要是产生response候选集,这些候选集再由排序模块进行排序。方法有三种:Paired-Data based Retriever(PDR)+Neural Response Generator(NRG)+Unpaired-Data based Retriever(UDR)

PDR:系统收集了很多query-response对(网上各种平台+小冰日志),检索器从这些qr中检索出最相关的一些候选,获取的qr使用同理心计算模块(模块2)转化成s,然后基于小冰的人设和其他规则过滤掉不合适结果。线上使用时,Qc作为检索输入,然后利用关键词搜索和语义搜索从候选库中检索出400个最相关的qr对,PDR产生的response效果很好,但覆盖面比较小。

NER:使用了标准的GRU-RNN seq2seq框架,训练数据就是收集的qr对,输入上除了Qc外,还会使用eQ,eR,

然后把v注入到解码器的每个时间点。

NRG使用beam search产生20个response。覆盖面广,效果差,生成文本一般比较短。

UDR:从网上的公开演讲和新闻报道收集unpaired句子。和PDR不同,UDR中只有候选response数据,而没有对应的query数据。所以线上使用光靠query是无法确定哪些候选response更合适,q和r之间需要一个桥梁。解决方案是引入知识图谱KG来搭起这座桥。

处理过程:

  1. 识别Qc中包含的所有话题
  2. 对于每个话题,从KG中检索出20个最相关的话题。最相关是利用boosted tree模型排序得到,模型的训练数据是人为标注。
  3. query中的所有topic和上一步检索的topic一起作为检索输入,从收集的unpaired的数据集中检索出400个最相关的句子作为候选response。

      UDR的候选质量没有PDR好,但覆盖面更广。UDR的结果比NRG生成的结果包含更多文字。

排序:PDR\UDR\NRG生成所有的候选response,利用boosted tree模型统一排序,最终的response基本是最高的那一批结果。=局部凝聚力(DSSM)+全局凝聚力(DSSM)+同理心匹配(计算期望eR之间的匹配度)+检索匹配(BM25、TF-idf、DSSM)

编辑回复:无法回复时,口语化表述

 

4、对话技能(Skills)

   =图片评论(Image Commenting)+内容创建(Content Creation)

+互动(Deep Engagement)+任务完成(Task Completion)

图片评论:用户发图---检索和生成候选response---排序,具体过程如下

  1. RR首先从社交网站上收集图片、评论对,对输入图像首先量化(CNN)等,然后检索出3张最相思图片,对应评论就是候选评论了。
  2. GR(Generator-based Retriever)就是image-to-text的结构,只是会融入对生成结果的情感和形式要求
  3. Ranker boosted tree模型

内容创建:用户设置条件,小冰创建(具体框架不知)

互动:小冰和用户一起做情绪和智能方面的互动

任务完成

  

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/45861.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

如何搭建一套免费开源的微信群机器人问答系统?

前言 自动消息回复和机器人,一直是企业微信的专利。但在非常多场景或者人文习惯中,个人微信和微信群也同样需要它们。比如活动组织者、团购团长、社群管理、私域流量运营者们,都要经营个人微信群。 那就不免会遇到许多信息收集、咨询提问的…

如何设计一个最简化的推荐系统

本文目录结构 1、背景 2、推荐系统初识 3、通用推荐系统架构 4、经典推荐算法 5、实现一个推荐系统 6、存在问题与展望 1、背景 近期由于公司业务系统需要做一个推荐系统,应该说是实现一个相当简单推荐逻辑。毕竟业务场景相当简单,企业的数据规模…

AI 影评家: 用 Hugging Face 模型打造一个电影评分机器人

❝ 本文为社区成员 Jun Chen 为 百姓 AI 和 Hugging Face 联合举办的黑客松所撰写的教程文档,欢迎你阅读今天的第二条推送了解和参加本次黑客松活动。文内含有较多链接,我们不再一一贴出,请在文末阅读原文处点击查看渲染后的 Notebook 文件。…

思否黑马圆满收官,28 支队伍创意使用 Jina AI 三款 AIGC 装备!

上周末,杭州被 AI 热潮所沸腾!SegmentFault AI Hackathon 杭州站暨思否 11 周年特别活动在 G5 创投中心拉开帷幕,超过 30 支团队参加了 32 小时的极限编程挑战,他们的产品展示直击评委的心,其中 28 支队伍得到了 Jina …

BUAA-2023软件工程团队项目——选题和需求分析

BUAA MapForum 项目这个作业属于哪个课程2023北航敏捷软件工程这个作业的要求在哪里团队项目-选题和需求分析我在这个课程的目标是学习并实践软件工程开发的方法论。在把握整体流程和内容要素的基础上实践细节,培养开发技术、开发思维、团队协作等能力。这个作业在…

2023年,请不要忽略!图神经网络(GNN)这一匹黑马!

点击下方“AINLPer“,关注我吧 更多干货,第一时间送达 引言 虽然在过去的几个月里,「ChatGPT以及扩散模型(Diffusion Models)等生成式AI一直是人们关注的焦点,但也请不要忽略图神经网络(GNN)的迅速发展」。经过近几年的发展&#…

AI大模型加速RPAxAI时代到来,谁会是RPA领域的杀手级应用?

GPT等AI大模型震撼来袭,基于RPA的超级自动化仍是最佳落地载体 对话弘玑CPO贾岿,深入了解国产RPA厂商对AI大模型的探索与实践 文/王吉伟 关于RPA已死的说法,在中国RPA元年(2019年)投资机构疯狂抢项目之时就已经有了。…

巧用提示词释放chatgpt的潜力

得益于 ChatGPT 和其他大型语言模型,提示词工程学(Prompt Engineering)像风一样已迅速成为我们生活的一部分。这是一个全新的非常受欢迎的领域。也就是说,现在是提高您的技能并在提示词工程学方面变得更好的最佳时机。 如果您想知…

【人工智能】只需要1分钟,GPT就帮我生成了思维导图

自从人工智能横空而出,它在人们的生活中产生了巨大的影响。尤其在企业办公领域,借助人工智能的力量,能够迅速产出丰富多样的内容,无论对于企业还是个人都具有重要的帮助。 想象一下,通过与人工智能的合作,您…

Pandas + ChatGPT:交互式数据分析!

Python Pandas是一个为Python编程提供数据操作和分析功能的开源工具包。这个库已经成为数据科学家和分析师的必备工具。它提供了一种有效的方法来管理结构化数据(Series和DataFrame)。 在人工智能领域,Pandas经常用于机器学习和深度学习过程的预处理步骤。Pandas通过…

计算机专业英语口语app,强烈推荐4款学英语必备的英语口语APP

我们大家都学了这么多年英语了,从小学到大学,但大多数人基本上学的都是应试类型的,甚至是哑巴英语。别人问你一句“How are you?”,你只会回答“I’m fine, thank you. And you?” 其他回答都想不起来。要是发音好也就算了&…

自学英语的手机软件哪个好,负基础

我是一名英语过了大学六级的学生,学英语用软件是学不会的,分享一些方法你参考一下吧 学习英语前的第一步:建立英语思维 为什么大家学英语学得这么累,最后依然对英语糊糊涂涂?原因只有一个——就是我们的学习能力太差…

Linux查询出口IP

查询的方式是通过Linux的curl访问查询ip的网站进行查询 具体步骤: 1.查询查询ip网站的ip 2.配置Linux的hosts文件 在/etc中的hosts文件增加上面的域名和ip(注意:是ifconfig,不是ipconfig) 3.在ssh命令下执行 curl ifc…

为什么百度查到的ip和ipconfig查到的不一样?公网IP和私网IP 有什么区别?

一、查询 我们分别在百度搜ip查询,查询到本机的ip如左图,再利用ipconfig查询到自身ip如右图。 我们能看到这两个地址是不同的,那么不是说,每个主机都只有一个ip地址么,为什么我们查到的两个Ip地址不一样呢&#xff1f…

AI开源路在何方丨2023智源大会精彩回顾

导读 当下,AI开源已经成为了人类开源创新的主战场,是超大规模人类智力协同的最佳组织形式。得益于开源协作持续不断地推进,AI在这个时代飞速发展。可以说如果没有开源社区建设,就不会有今天人工智能的成就。 在2023智源大会AI开源…

洞见数字时代的创新原力,数云原力大会暨 2023TECH 第五届数字中国技术年会开幕

4 月 25 日,神州控股、神州信息、神州数码集团共同主办的数云原力大会暨 2023TECH 第五届数字中国技术年会隆重开幕。开幕式上,数百位投身并关注数字技术、数字产业发展的学者、技术专家、从业者、行业用户齐聚一堂,围绕云原生、数字原生、大…

洞见数字时代的创新原力,数云原力大会暨2023TECH第五届数字中国技术年会开幕

4月25日,神州控股、神州信息、神州数码集团共同主办的数云原力大会暨2023TECH第五届数字中国技术年会开幕。开幕式上,数百位投身并关注数字技术、数字产业发展的学者、技术专家、从业者、行业用户齐聚一堂,围绕云原生、数字原生、大数据、金融…

车载微信要来了?马化腾:正研发纯语音交互接口

作者 | Just 出品 | AI科技大本营(公众号ID:rgznai100) 去年腾讯提出“AI in All”战略之后,马化腾又发布了超级大脑。 5 月 23 日,在广州举行的腾讯“云未来”峰会上,马化腾指出,超级大脑是一个…

联手百度腾讯,恒大汽车押注智能化

作者 | 周继凤 编辑 | 黎明 来源 | 深燃(shenrancaijing) 造车开始进入下半场了。 越来越多的巨头玩家入局抢夺市场。比如,苹果公司被传出将在2021年9月发布首款电动车Apple Car,阿里与浦东新区共同投资打造的高端智能纯电汽车项目“智己汽车”已正式亮…

腾讯车联发布TAI3.0:三步实现汽车智能进化,2个月快速上车

6月24日,“2020腾讯智慧出行新品发布会”在线上举行,全新升级的TAI3.0生态车联网正式亮相,并在新款哈弗F7上进行了真实驾车场景的功能展示。 据介绍,TAI3.0包含两个车载APP——腾讯随行和腾讯爱趣听,以及一个生态开放…