对话式AI系列：任务型多轮对话的实践与探索

移动互联网带来了大数据的普及，摩尔定律预言了计算机硬件的发展，深度学习则借助这阵东风实现了技术上的突破，人工智能成功进入大众视野，并改变了人们的日常生活。

“小X同学，请打开电视”、“小X小X，请播放音乐”......如今，很多年轻人的生活不再像以前一样，只需要动动嘴，就可以控制家里的各种设备。根据全球著名调研咨询机构IDC发布的《中国全屋智能设备和解决方案市场回顾和展望》，2021年中国智能家居设备出货量超过2.2亿台，同比增长9.2%；2022年中国全屋智能市场销售额将突破百亿，预计同比大幅增长近55%；到2023年，智能家居将会成为物联网支出最高的领域之一。

而想要实现通过语音对话的方式来控制家中智能设备，对话式AI技术是必不可少的一环。

任务型多轮对话是对话式AI的必由之路

目前，对话式AI主要应用的场景有三种，分别是闲聊型、问答型和任务型。

闲聊型：多用于情感陪伴，但由于整体技术水平还未达到人们的心理预期，现阶段商业化并不太成功；
问答型：多见于客服系统，能够解决用户的一些事实性问题，但功能上较为局限；
任务型：多用于B2C类应用，能够将非结构化数据充分利用起来，沉淀企业知识，是企业数字化转型赛道上的关键技术。

由于目前的技术水平还处于弱人工智能阶段，全面实现对话式AI比较困难。任务型多轮对话因具有较好的可解释性，且易于把控，是以点及面实现完整的对话式AI的理想途径。

任务型多轮对话是对话式AI的外延之一，专注于封闭域下的问题解决。任务型多轮对话的定义是：根据上下文内容，进行连续的、以达到解决某一类特定任务为目的的对话。需要注意的是，任务型多轮对话有三个关键要素，多轮、连续性、封闭域。

多轮：与单轮的问答不同，多轮对话解决复杂条件下的问答，需要结合上下文理解多项约束条件，每一次应答都与上下文有强关联关系。
连续性：对话需要具备连贯性，一旦捕获到用户意图，则将以完成此任务为目标，进行持续性的对话。
封闭域：某一类特定问题表明了对话是受限的，即这是一个封闭域上的问题。对话系统仅负责某个领域下已知的一系列任务，比如说订机票，订外卖，或者查天气等等。

任务型多轮对话系统的技术架构设计

目前主流的任务型多轮对话系统依然沿用了模块化的方法，其技术架构如下所示，包含以下几个模块：

图1 多轮对话系统架构图

输入模块：接收用户传达的信息，包括语音、图像、文本等。对于语音类信息，通常使用语音识别（Automatic Speech Recognition, ASR）技术转化为文本。而对于图像类信息，目前研究较少，可行的方案包括通过文字识别（Optical Character Recognitionm, OCR）技术将识别图像中的文字转化为文本，或者使用机器学习训练编码器，将图像转化成视觉语义编码。

解析模块：对输入的信息进行解析，转化为机器可理解的语义表示。以文本信息及框架语义表示为例，此模块依赖于自然语言理解（Natural Language Understanding, NLU）技术，需要从文本信息中识别出用户的意图（Intent）以及该意图下的语义槽（Slot）。例如”附近有什么比较火的粤菜馆？“，用户意图是”搜寻餐厅“，语义槽是”地点“为”附近“，”热度“为“高”，“菜系”为“粤菜”。

对话管理模块：根据解析模块输出的语义表示，更新对话状态，并根据策略选择应答动作。此模块主要包括对话状态跟踪（Dialogue State Tracker, DST）和对话策略学习（Dialogue Policy Learning, DPL）。对话状态跟踪负责维护多轮对话的状态，根据历史对话状态、解析模块当前的输入以及背景知识库综合得到新的对话状态。此模块的主要功能就是记忆与预测，通过与用户间的不断交流，逐渐完善对用户状态的观察。对话策略学习根据DST模块输出的当前对话状态，来决策系统采取的动作。例如解析模块的例子，此模块则会选择“搜索”动作，查询以用户当前定位为中心，一定范围内的高浏览量粤菜餐厅。

解码模块：与解析模块相反，此模块的任务是将系统结果以人类可以理解的方式解码，通常就是转化为自然语言。例如系统查询到的餐馆在数据表中ID为"r008"，转化为自然语言可以是“您好，附近热度最高的粤菜馆是金鼎轩，位于xxx路xxx号，距您1.1km。"

输出模块：此模块以输入模块相同的形式将解码模块产生的结果反馈给用户，如聊天框、麦克风等。而自然语言想要转化为语音，则需要使用到语音合成（Text To Speech, TTS)技术。

业内主流的任务型多轮对话系统平台

经过多年的发展，任务型多轮对话领域涌现了众多优秀的公司，尽管基础技术差异不大，但在钻研方向上各家却有着自身的特色，下面介绍几个典型案例。

预训练对话模型——谷歌LaMDA

谷歌LaMDA是工业级端到端的预训练对话模型。众所周知，目标决定方向，如何定义模型的训练任务与损失函数，将决定训练方向与最终效果。谷歌重新定义了三个评价指标，Sensibleness, Specificity, Interestingness（是否合理、符合上下文、有创造力）、Safety（是否有风险、不公正）、Groundedness、Informativeness（在知识型问答中，是否包含真实的信息、并引用相关链接），并借此构建分类任务精调模型，提升了模型的对话能力。

相比其他对话系统，LaMDA具有蕴含知识、回复更加灵活等优势，但其不可控性、逻辑能力差等缺点也是极为明显的。然而就在大众对于此类“人工智障”逐渐失望之际，12月openAI推出的同类型的大模型chatGPT着实让人惊艳，或许此类对话系统依然是通往终点的一条途径。

领域预建模型——Senseforth.ai

Senseforth成立于2017年，是一家印度对话式人工智能服务商。根据Gartner统计，目前Senseforth的企业级对话式人工智能平台每月处理超过1.9亿次对话，准确率超过96%。

通过大量行业实践，Senseforth创建了对话式人工智能机器人商店，该商店拥有行业预建模型和领域知识，适用于一系列垂直行业，包括银行、保险、零售、医疗保健、电信和酒店等。Senseforth尤其专注于NLU模块，将意图与实体分开训练，支持快速新增、修改意图，其解决方案中包含4万多意图与大量的预置意图库。

除了对话式人工智能机器人外，Senseforth还涉足对话式分析、对话式营销、代理协助、知识管理和智能搜索等技术服务。

低代码与自动化——Cognigy

Cognigy是一家总部位于德国的对话式AI服务提供商，成立于2016年，旨在提高企业客户服务团队的工作效率。通过将对话式AI技术与商业智能、客户关系管理、企业资源规划工具整合，Cognigy帮助企业用户通过简单对话形式访问实时数据，实现无缝连接关键操作触点。

Cognigy亦专注于低代码平台搭建，结合流程自动化技术，允许企业使用智能AI机器人和聊天机器人自动化客户和员工通信。

任务型多轮对话在中关村科金的实践

目前任务型多轮对话系统的技术框架、各模块的细化技术选型都已经较为成熟，但是在实际实践中，我们发现依然存在着定制化程度高、回答生硬、使用门槛高等诸多问题。

定制化程度高：任务型多轮对话依赖专家经验，需要预先梳理出领域本体结构，用户的意图及每个意图对应的槽位，针对每个任务还需要设计其对应的故事线，因此不同行业、甚至不同公司都需要根据具体情况来定制。
非生成式应答生硬：任务型多轮对话的应答通常是非生成式的，采用的方法往往是枚举、模板等，因此，回复会显得比较生硬，影响客户体验。
难以适应语言环境的变化速度：自然语言的创造力很强，变化也非常快，例如“碳交易”、“元宇宙”、“预制菜”、“政银担”等等，新词的出现对于对话系统是很大的考验，需要考虑如何设计产品以跟上快速变化的语言环境。
系统使用门槛高：对于系统使用人员来说，构建一个完整的任务型对话机器人具有一定的专业门槛，其中涉及到大量的机器学习模型，如何训练模型、优化模型等，难度都会比较大。

针对任务型多轮对话系统中存在的挑战，中关村科金提出了自己的解决方案。

沉淀行业知识，抽象领域通用能力

针对定制化程度高、非生成式应答生硬的问题，中关村科技的解决方法是定义完善的标签体系与领域实践模板，将知识进行沉淀。

据了解，目前中关村科金基于数亿人机对话语料，构建了100+通用实体与意图，帮助客户快速搭建自身领域的标签体系。另外，在某些特定领域，例如金融行业，中关村科金积累了大量行业标注语料，形成了自有的领域实践模板，同领域的客户可以直接应用“现有模板”，避免从0到1的冷启动阶段，加速项目落地应用。

借助流程挖掘，构建领域特定故事

如果我们把多轮对话看作流程，借助流程挖掘技术，就可以从海量数据中绘制出流程图，辅助专家抽象领域SOP。而基于已有SOP的实践，又可以通过流程挖掘的Replay技术，完成对关键话术节点、风险对话节点等的感知与预测，针对性的优化改进，进一步完善领域SOP，助力客户业务增长。

在实际的应用中，流程挖掘已经成为中关村科金帮助客户实现领域标准对话程序的关键技术。

通过闭环迭代，实现智能化运营

多轮对话依赖于底层知识库与模型，中关村科金通过人机闭环链路，实现了非专业运营的智能化迭代优化。

对于知识库，通过知识发现、知识细化、知识优化、知识淘汰四步，运营人员仅需对部分新知识进行审核，即可实现知识库的快速迭代更新。

而在模型方面，中关村科金自研的自训练平台，提供了业务中积累的大量规则、模型算子，通过少量的配置，运营人员即可实现模型的优化，降低了学习成本，解决了对话系统使用门槛高的问题。

作为领先的对话式AI解决方案提供商，中关村科金深耕行业八年，先后服务500余家行业头部企业的200多个应用场景，在自然语言处理、机器视觉、语音技术、深度学习等人工智能核心技术领域拥有深厚的积累，自主研发了文本机器人、语音机器人、数字人、智能质检、智能助手、智能陪练等多款对话式AI产品。

图2 中关村科金数字化营销

以零售行业为例，某世界500强企业旗下的高品质购物中心，其线上业务面临重复性问题繁多、人力工作时长有限、数据价值难以被有效利用等痛点。得助智能文本机器人运用自然语言处理、知识图谱、流程挖掘等技术，实现企业知识沉淀，辅助构建客服场景下的SOP树，解决客户在购物中心遇到的85%以上的问题。依赖于闭环迭代，文本机器人能在与客户沟通中自主学习，不断强化处理问题的能力，满足客户的多元个性化需求。

以营销行业为例，中关村科金基于对话式AI技术，通过将MAP平台、智能外呼机器人、文本机器人、RPA结合，构建一体化营销云产品。在为某消金线上业务服务中，将营销的SOP流程标准化后沉淀下来，配置在营销自动化模块中，基于用户分层实现自动化群发、自动化回复、自动化标签等，打造全新的私域自动化运营体系，营销转化率提升30%、人力成本下降60%，帮助客户实现降本增效。