对话式AI系列:任务型多轮对话的实践与探索

移动互联网带来了大数据的普及,摩尔定律预言了计算机硬件的发展,深度学习则借助这阵东风实现了技术上的突破,人工智能成功进入大众视野,并改变了人们的日常生活。

“小X同学,请打开电视”、“小X小X,请播放音乐”......如今,很多年轻人的生活不再像以前一样,只需要动动嘴,就可以控制家里的各种设备。根据全球著名调研咨询机构IDC发布的《中国全屋智能设备和解决方案市场回顾和展望》,2021年中国智能家居设备出货量超过2.2亿台,同比增长9.2%;2022年中国全屋智能市场销售额将突破百亿,预计同比大幅增长近55%;到2023年,智能家居将会成为物联网支出最高的领域之一。

而想要实现通过语音对话的方式来控制家中智能设备,对话式AI技术是必不可少的一环。

任务型多轮对话是对话式AI的必由之路

目前,对话式AI主要应用的场景有三种,分别是闲聊型、问答型和任务型。

  • 闲聊型:多用于情感陪伴,但由于整体技术水平还未达到人们的心理预期,现阶段商业化并不太成功;
  • 问答型:多见于客服系统,能够解决用户的一些事实性问题,但功能上较为局限;
  • 任务型:多用于B2C类应用,能够将非结构化数据充分利用起来,沉淀企业知识,是企业数字化转型赛道上的关键技术。

由于目前的技术水平还处于弱人工智能阶段,全面实现对话式AI比较困难。任务型多轮对话因具有较好的可解释性,且易于把控,是以点及面实现完整的对话式AI的理想途径。

任务型多轮对话是对话式AI的外延之一,专注于封闭域下的问题解决。任务型多轮对话的定义是:根据上下文内容,进行连续的、以达到解决某一类特定任务为目的的对话。需要注意的是,任务型多轮对话有三个关键要素,多轮、连续性、封闭域。

  • 多轮:与单轮的问答不同,多轮对话解决复杂条件下的问答,需要结合上下文理解多项约束条件,每一次应答都与上下文有强关联关系。
  • 连续性:对话需要具备连贯性,一旦捕获到用户意图,则将以完成此任务为目标,进行持续性的对话。
  • 封闭域:某一类特定问题表明了对话是受限的,即这是一个封闭域上的问题。对话系统仅负责某个领域下已知的一系列任务,比如说订机票,订外卖,或者查天气等等。

任务型多轮对话系统的技术架构设计

目前主流的任务型多轮对话系统依然沿用了模块化的方法,其技术架构如下所示,包含以下几个模块:

图1 多轮对话系统架构图

输入模块:接收用户传达的信息,包括语音、图像、文本等。对于语音类信息,通常使用语音识别(Automatic Speech Recognition, ASR)技术转化为文本。而对于图像类信息,目前研究较少,可行的方案包括通过文字识别(Optical Character Recognitionm, OCR)技术将识别图像中的文字转化为文本,或者使用机器学习训练编码器,将图像转化成视觉语义编码。

解析模块:对输入的信息进行解析,转化为机器可理解的语义表示。以文本信息及框架语义表示为例,此模块依赖于自然语言理解(Natural Language Understanding, NLU)技术,需要从文本信息中识别出用户的意图(Intent)以及该意图下的语义槽(Slot)。例如”附近有什么比较火的粤菜馆?“,用户意图是”搜寻餐厅“,语义槽是”地点“为”附近“,”热度“为“高”,“菜系”为“粤菜”。

对话管理模块:根据解析模块输出的语义表示,更新对话状态,并根据策略选择应答动作。此模块主要包括对话状态跟踪(Dialogue State Tracker, DST)和对话策略学习(Dialogue Policy Learning, DPL)。对话状态跟踪负责维护多轮对话的状态,根据历史对话状态、解析模块当前的输入以及背景知识库综合得到新的对话状态。此模块的主要功能就是记忆与预测,通过与用户间的不断交流,逐渐完善对用户状态的观察。对话策略学习根据DST模块输出的当前对话状态,来决策系统采取的动作。例如解析模块的例子,此模块则会选择“搜索”动作,查询以用户当前定位为中心,一定范围内的高浏览量粤菜餐厅。

解码模块与解析模块相反,此模块的任务是将系统结果以人类可以理解的方式解码,通常就是转化为自然语言。例如系统查询到的餐馆在数据表中ID为"r008",转化为自然语言可以是“您好,附近热度最高的粤菜馆是金鼎轩,位于xxx路xxx号,距您1.1km。"

输出模块:此模块以输入模块相同的形式将解码模块产生的结果反馈给用户,如聊天框、麦克风等。而自然语言想要转化为语音,则需要使用到语音合成(Text To Speech, TTS)技术。

业内主流的任务型多轮对话系统平台

经过多年的发展,任务型多轮对话领域涌现了众多优秀的公司,尽管基础技术差异不大,但在钻研方向上各家却有着自身的特色,下面介绍几个典型案例。

预训练对话模型——谷歌LaMDA

谷歌LaMDA是工业级端到端的预训练对话模型。众所周知,目标决定方向,如何定义模型的训练任务与损失函数,将决定训练方向与最终效果。谷歌重新定义了三个评价指标,Sensibleness, Specificity, Interestingness(是否合理、符合上下文、有创造力)、Safety(是否有风险、不公正)、Groundedness、Informativeness(在知识型问答中,是否包含真实的信息、并引用相关链接),并借此构建分类任务精调模型,提升了模型的对话能力。

相比其他对话系统,LaMDA具有蕴含知识、回复更加灵活等优势,但其不可控性、逻辑能力差等缺点也是极为明显的。然而就在大众对于此类“人工智障”逐渐失望之际,12月openAI推出的同类型的大模型chatGPT着实让人惊艳,或许此类对话系统依然是通往终点的一条途径。

领域预建模型——Senseforth.ai

Senseforth成立于2017年,是一家印度对话式人工智能服务商。根据Gartner统计,目前Senseforth的企业级对话式人工智能平台每月处理超过1.9亿次对话,准确率超过96%。

通过大量行业实践,Senseforth创建了对话式人工智能机器人商店,该商店拥有行业预建模型和领域知识,适用于一系列垂直行业,包括银行、保险、零售、医疗保健、电信和酒店等。Senseforth尤其专注于NLU模块,将意图与实体分开训练,支持快速新增、修改意图,其解决方案中包含4万多意图与大量的预置意图库。

除了对话式人工智能机器人外,Senseforth还涉足对话式分析、对话式营销、代理协助、知识管理和智能搜索等技术服务。

低代码与自动化——Cognigy

Cognigy是一家总部位于德国的对话式AI服务提供商,成立于2016年,旨在提高企业客户服务团队的工作效率。通过将对话式AI技术与商业智能、客户关系管理、企业资源规划工具整合,Cognigy帮助企业用户通过简单对话形式访问实时数据,实现无缝连接关键操作触点。

Cognigy亦专注于低代码平台搭建,结合流程自动化技术,允许企业使用智能AI机器人和聊天机器人自动化客户和员工通信。  

任务型多轮对话在中关村科金的实践

目前任务型多轮对话系统的技术框架、各模块的细化技术选型都已经较为成熟,但是在实际实践中,我们发现依然存在着定制化程度高、回答生硬、使用门槛高等诸多问题。

  • 定制化程度高:任务型多轮对话依赖专家经验,需要预先梳理出领域本体结构,用户的意图及每个意图对应的槽位,针对每个任务还需要设计其对应的故事线,因此不同行业、甚至不同公司都需要根据具体情况来定制。
  • 非生成式应答生硬:任务型多轮对话的应答通常是非生成式的,采用的方法往往是枚举、模板等,因此,回复会显得比较生硬,影响客户体验。
  • 难以适应语言环境的变化速度:自然语言的创造力很强,变化也非常快,例如“碳交易”、“元宇宙”、“预制菜”、“政银担”等等,新词的出现对于对话系统是很大的考验,需要考虑如何设计产品以跟上快速变化的语言环境。
  • 系统使用门槛高:对于系统使用人员来说,构建一个完整的任务型对话机器人具有一定的专业门槛,其中涉及到大量的机器学习模型,如何训练模型、优化模型等,难度都会比较大。

针对任务型多轮对话系统中存在的挑战,中关村科金提出了自己的解决方案。

沉淀行业知识,抽象领域通用能力

针对定制化程度高、非生成式应答生硬的问题,中关村科技的解决方法是定义完善的标签体系与领域实践模板,将知识进行沉淀。

据了解,目前中关村科金基于数亿人机对话语料,构建了100+通用实体与意图,帮助客户快速搭建自身领域的标签体系。另外,在某些特定领域,例如金融行业,中关村科金积累了大量行业标注语料,形成了自有的领域实践模板,同领域的客户可以直接应用“现有模板”,避免从0到1的冷启动阶段,加速项目落地应用。

借助流程挖掘,构建领域特定故事

如果我们把多轮对话看作流程,借助流程挖掘技术,就可以从海量数据中绘制出流程图,辅助专家抽象领域SOP。而基于已有SOP的实践,又可以通过流程挖掘的Replay技术,完成对关键话术节点、风险对话节点等的感知与预测,针对性的优化改进,进一步完善领域SOP,助力客户业务增长。

在实际的应用中,流程挖掘已经成为中关村科金帮助客户实现领域标准对话程序的关键技术。

通过闭环迭代,实现智能化运营

多轮对话依赖于底层知识库与模型,中关村科金通过人机闭环链路,实现了非专业运营的智能化迭代优化。

对于知识库,通过知识发现、知识细化、知识优化、知识淘汰四步,运营人员仅需对部分新知识进行审核,即可实现知识库的快速迭代更新。

而在模型方面,中关村科金自研的自训练平台,提供了业务中积累的大量规则、模型算子,通过少量的配置,运营人员即可实现模型的优化,降低了学习成本,解决了对话系统使用门槛高的问题。

作为领先的对话式AI解决方案提供商,中关村科金深耕行业八年,先后服务500余家行业头部企业的200多个应用场景,在自然语言处理、机器视觉、语音技术、深度学习等人工智能核心技术领域拥有深厚的积累,自主研发了文本机器人、语音机器人、数字人、智能质检、智能助手、智能陪练等多款对话式AI产品。

图2 中关村科金数字化营销

以零售行业为例,某世界500强企业旗下的高品质购物中心,其线上业务面临重复性问题繁多、人力工作时长有限、数据价值难以被有效利用等痛点。得助智能文本机器人运用自然语言处理、知识图谱、流程挖掘等技术,实现企业知识沉淀,辅助构建客服场景下的SOP树,解决客户在购物中心遇到的85%以上的问题。依赖于闭环迭代,文本机器人能在与客户沟通中自主学习,不断强化处理问题的能力,满足客户的多元个性化需求。

以营销行业为例,中关村科金基于对话式AI技术,通过将MAP平台、智能外呼机器人、文本机器人、RPA结合,构建一体化营销云产品。在为某消金线上业务服务中,将营销的SOP流程标准化后沉淀下来,配置在营销自动化模块中,基于用户分层实现自动化群发、自动化回复、自动化标签等,打造全新的私域自动化运营体系,营销转化率提升30%、人力成本下降60%,帮助客户实现降本增效。

任务型多轮对话的未来发展趋势

因其可控性,在可预见的未来任务型多轮对话依然将是对话系统的主要表现形式之一。随着技术的不断提高,中关村科金认为以下三个方面会是任务型多轮对话的未来发展方向。

1)冷启动始终是AI所不可避免的问题,如何基于现有的大量未标注数据,快速实现对话系统的搭建值得深入研究;

2)机器学习模型目前还停留在感知智能的阶段,并没有真正理解对话中的含义,同时欠缺对于领域知识、常识知识的应用。引入领域知识和常识知识,并且能够进行知识的推理,将极大的提高对话系统的实用性与竞争力;

3)语言不是唯一的交互途径,人类的表达方式是多种多样的,人机对话系统的交互方式必将向多模态的方向发展。

未来,中关村科金将不断提升多模态对话式AI,尤其是任务型对话的技术实力与场景落地能力,抓住这一企业数字化转型赛道上的关键技术,助力企业数字化变革。

本文作者:罗华刚 中关村科金AI研究院算法专家

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/60605.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

晋飞碳纤科创板IPO被终止:曾拟募资近6亿 凯辉基金是股东

雷递网 雷建平 5月9日 上海晋飞碳纤科技股份有限公司(简称:“晋飞碳纤”)日前IPO被终止。晋飞碳纤是2022年12月底递交招股书,曾准备在科创板上市。 晋飞碳纤原计划募资5.89亿元,其中,3.2亿元用于高性能复合…

三大部门七场面试,终拿字节AI NLP 算法offer

作者 | Maxxiel 编辑 | NewBeeNLP 面试锦囊之面经分享系列,持续更新中 后台回复『面试』加入讨论组交流噢 写在前面 背景美本cs英硕ai在读,无paper无实习无研究无比赛。方向是深度学习、nlp,项目主要是情感分析 和模型蒸馏。leetcode 刷了…

【论文阅读】空间圆形拟合检测新方法

目录 1、空间圆拟合模型1.1、空间平面拟合1.2、空间圆拟合 2、参考文献3、算法伪码4、算法结果 摘 要 根据空间圆中任意两条弦所对应的中垂面与空间圆所处的平面必然相交且交点即为圆心这一空间圆特性,利用空间向量按照最小二乘法推导出圆心计算方程,按照…

海外硕士苏明哲回国后哀叹:我美本英硕,找不到工作很难受

推荐阅读: 欢迎加入我们的架构师社群 阿里跳槽拼多多,80万年薪涨到160万,值不值得去? 一名海外留学生回国后找工作,却屡受打击,感慨自己美本英硕,却找不到工作,内心真的很难受&#…

玩转AI绘图 电脑配置怎么选?

大家好,我是网媒智星,很多小伙伴留言想了解一下AI绘图相关知识,那么,想要玩转AI绘图,电脑配置该怎么选呢? 首先我们了解一下什么叫AI绘图? AI绘图指的是利用人工智能技术实现的自动绘图&#x…

chatgpt赋能python:Python做图:一个强大而灵活的工具

Python做图:一个强大而灵活的工具 Python是一个流行的编程语言, 越来越多的人开始使用它进行数据分析和可视化。 Python做图的功能非常强大,使得它成为许多人的首选工具。在这篇文章中, 我们将讨论 Python做图及其SEO优化。 Python做图的优势 Python做…

人工智能基础部分19-强化学习的原理和简单应用,一看就懂

大家好,我是微学AI,今天给大家介绍一下人工智能基础部分19-强化学习的原理和简单应用,随着人工智能的不断发展,各种新兴技术不断涌现。作为人工智能的一个重要分支,强化学习近年来受到了广泛关注。本文将介绍强化学习的…

TT语音:游戏社交乱象难平

游戏在人们生活中占据的时间越来越多,用户对游戏内的体验也愈发的丰富,有时候和朋友三五结队打几把王者荣耀,但大部分玩家是处于一个人玩游戏的状态,而这种状态也影射了当前Z世代的孤独状态。 人在孤独后会产生强烈的社交需求&am…

Android(仿QQ登入+网易新闻)

文章目录 场景内容:效果参考 场景 提示:基于期末作业开发(自增轮播图) 自评:效果蛮丑的,功能都在,仅供参考! 内容: 一,引导页 1,设计引导页Log…

运维有趣项目:搭建个人博客安全版(Appache2.4防盗链与防泄漏,防盗链httpd.conf无Load,include版)

这次算是呕心沥血了,网上的防盗链文章简直一个模子的,全部都是采用httpd.conf修改LoadModule rewrite_module modules/mod_rewrite.so或是httpd-default.conf,可是我用阿里云自动搭建的apache环境压根就没有啊,如果有相同经历的,可以看这篇文章,希望留下评论,给个鼓励不,QAQ,域…

chatgpt赋能python:Python打包成手机可执行文件指南

Python 打包成手机可执行文件指南 作为一名有着10年Python编程经验的工程师,我认为将Python打包成手机可执行文件是一项非常有用的技能。在这篇文章中,我将介绍Python打包成手机可执行文件的重要性,以及如何使用PyInstaller工具轻松打包Pyth…

优酷“首月1元”会员引争议:取消续费却被扣24元;马斯克欲在推特建立支付系统,并包含加密货币功能;Deno 1.3发布|极客头条...

「极客头条」—— 技术人员的新闻圈! CSDN 的读者朋友们早上好哇,「极客头条」来啦,快来看今天都有哪些值得我们技术人关注的重要新闻吧。 整理 | 梦依丹 出品 | CSDN(ID:CSDNnews) 一分钟速览新闻点&#…

chatgpt赋能python:Python多个%d在SEO中的应用

Python多个%d在SEO中的应用 在当今的互联网时代,搜索引擎优化(SEO)已经成为了每个网站的重要任务之一。而在Python编程中,有一个非常常见的占位符%d,用来替代一个整数。在本文中,我们将介绍Python中多个%d…

38年来,NBA最有价值球员|数据分析

使用工具:Ipython notebook/Anacoda-Spyder 使用的库:Pandas,Matplotlib,Seaborn Python版本:Py3.6 1 数据来源 1).本次用到的数据 来源于https://www.basketball-reference.com/awards/mvp.html,其中可以选择多种形式,我选的是CSV格式,方便后面的数据分析,(文末会分享…

kaggle:谁是NBA最佳防守球员?(二)

接着前几天发的关于kaggle中NBA球员投篮数据探索性数据分析和可视化分析之后,小编本打算对这13万的投篮数据跑几个机器学习模型预测一下投篮的,可是电脑内存不给力,试了几次之后便作罢了。还打算第一次试一下kaggle上被传的神乎其技的大杀器x…

篮球中各个位置的名称及介绍…

正规篮球比赛是5对5,赛场上分布着五个篮球位置,分别是:中锋(C)、大前锋(PF)、小前锋(SF)、得分后卫(SG)、控球后卫(PG) 来…

几行代码,GPT-3变ChatGPT!吴恩达高徒、华人CEO震撼发布Lamini引擎

点击下方卡片,关注“CVer”公众号 AI/CV重磅干货,第一时间送达 点击进入—>【计算机视觉】微信技术交流群 转载自:新智元 | 编辑:Aeneas 好困 【导读】这个全新发布的Lamini引擎,大大拉低了模型训练的门槛&#xff…

抖音小店无货源是怎么做的?开店需要我们准备什么?经验分享

大家好,我是电商糖果 无货源模式流行于14-15年,最早是在某宝、某东、多多这些平台 目前抖音小店无货源的情况: 抖音小店和其他传统电商平台不一样,抖音小店起店是很快的,基本上5-20天小店就可以稳定出单了。 现在直…

抖音小店开通后为什么不出单?新店一定要看看是不是这三个方面没做好

大家好,我是电商年年 想要做好抖音小店,找对方法很重要。很多人的抖音小店开通后迟迟不出单,其实主要有三个原因。 选品为王 做电商,产品才是第一位,其他都要往后靠。选品首先要确定类目,之前很多人都在…

关于抖音小店无货源,作为过来人,来给你推荐几个好做的类目

Hello这里是六一,一个在无货源模式下闯荡多年的电商人。 好的类目对于操作无货源来说也是一个关键点,类目选的没问题,那起点就比别人高,做起来容易得多。 上边在讲营业执照问题的时候建议新手把全类目都开通,但是在做…