市场主流智能语音音箱对话系统哪个做的更好?
如何评价智能语音音箱对话系统的好与坏呢?智能音箱的对话技能如何实现?评价指标又有哪些呢?带着一连串的问题,小君来说说自己的理解。首先,智能音箱的对话技能是可以实现多轮对话中用户需求(意图)和实现需求的关键信息(词槽)的精确理解,根据不同用户意图和词槽信息给出不同对话答复的对话场景。能够在一些特定的对话场景下高精准地理解并满足用户需求,提升用户体验和满意度。比如问天气技能、订火车票技能、听音乐技能等等;然后,对话系统的评价指标分为两大类:客观评价指标和主观评价指标。结合这些指标,小君对当前市场上主流的一些智能语音音箱的对话系统进行对比评测,看看哪家在对话系统方面做的最优秀。
本次评测主要选取了百度的小度智能音箱、天猫精灵方糖、京东叮咚Mini2智能音箱和小米AI智能音箱四款产品进行对比。另外,小君发现对话系统在手机的应用也是相当的广泛,所以这次同时找了市场上比较火的一款支持智能语音的手机评测了一下。由于本次评测没有各家音箱的SDK接口,所以本次主要是采用主观测试的方法进行评测。经过三轮的测试,四款智能音箱中小度智能音箱表现最好,而某品牌手机则表现一般,得分仅略高于京东叮咚mini2,较其他音箱产品仍有较大的提升空间。
本次评测主要是从自然语言理解能力(NLU)、自然语言生成能力(NLG)和对话管理能力(DM)进行测试,看看哪款产品做的最优秀。由于测试采取主观测试方法,为了确保测试结果的客观性,本次测试选取3个人的测试结果取平均值,并列举了部分测试用例以供大家参考。
一.自然语言理解能力
测试主要是从领域、意图、槽位的识别,语义的容错,逻辑能力等进内容进行测试,其中领域、意图、槽位的识别本应该放在客观测试中进行,但是由于没有接口,故本次采取主观的方式进行客观测试,即通过智能音箱的最终反馈结果(即音箱的最终实现了什么功能)作为评测标准。NLU部分共计30分,其中小度得到最高分16.00分,详细结果如下:
在该部分的测试中,小度的表现是最好的,拿多阶查询单项来看,小君问了一个问题:“明天的明天天气怎么样?”,该问题是二阶查询的问题,首先要确定明天的明天为后天,再进行后天天气的查询。小度播报了后天的天气预报,而其他四款产品均播报了明天的天气预报。
二.自然语言生成能力
该部分得测试主要是从回复语句的通顺性、回答信息的意义、回答问题的相关度等六部分进行测试,其中前三部分主观性较强,采取5分制的评分标准,每部分5分。回复能力的测试共计30分,在该部分测试中,百度小度智能音箱得到了最高分26.54分,主要是在问题回答的相关度上表现最好,比如你问她“今天天气真好”,方糖会回答:“是休假的心情好,天气也跟着好了”,回答的风趣有意思。小度回答了:“希望每天都是好天气”,也很不错。而叮咚mini2、小爱同学和某手机则播报了天气预报。
三.对话管理能力
对话管理能力从槽位的补充能力,问题回答的情感度两部分进行测试,该部分总计10分, 其中回复的情感程度采取5分打分制。小米AI智能音箱得到最高分5.93分。在回复问题的情感度的测试中,每款产品回答存在较大差异,例如,问题为:我想听电台,天猫方糖和叮咚mini2的回答很直接,方糖的答复为:“好的,马上为你播放中国之声,以下内容来自中国广播”,小爱和小度的回答则很俏皮,小爱音箱的回答为:“好啊,小爱为你播放北京故事广播”。而某手机貌似没有听懂问题的意思,回答了“要帮你做哪一个?”以下为对话管理能力得分和三部分总得分情况:
结合三部分的测试结果,小度在测试的四款产品中得到了最高的分数48.40分(满分70分)。由于本次测试采取的主观评测的方法,且样本数量较少,可能主观性比较强一些,最终的评分也仅仅是小君个人的主观评价。其实评价一个智能音箱对话系统的性能,还是要通过主客观结合的方式进行评测,并且主观测试尽量多的选取测试人数,这样做出来的结果会更加合理一些。最后,小君希望通过评测,可以给大家在购买智能音箱的时候提供一些建设的意见。同时,本次额外的给大家测了一款手机的对话系统性能,后续有机会的话会找几款手机进行一次评测,希望给大家在手机购买方面提供一些建议。