一种不太聪明的电话语音识别方案

现如今ASR(语音识别技术)发展到什么阶段我不清楚,但识别率肯定是达不到100%的,识别率跟你所采用的识别模型,声音样本丰富程度,和语音文件的音质有关。 如果普通话标准,且语音文件质量可以的情况下,主流的几大厂商识别结果还是比较准确的,比如手机的语音输入法,语音控制,基本上可以达到97%的准确率。 但电话的语音识别比较尴尬,基本上现在运营商的通话线路都是压缩为8000Hz的采样率,再加上现场环境噪音,网络波动影响,口音问题等等,导致电话中的语音识别准确率普遍不高。

现实问题如此,那么有没有什么办法可以提高电话中识别的准确率呢? 我有一个不太聪明的办法。

现在普遍的电话语音识别,基本上都是根据识别结果,来匹配预设的关键词。(那些所谓标榜智能电话,用到NLP技术的,我就纳闷你连基本的识别准确度都还没解决呢,谈什么NLP。)

但是电话中的诸多影响因素导致识别准确度较低。比如:

1. “您好”, “你好” 这种的还算一个意思。
2. “我在仁和”,”我在人和”,这就完全是两个地方了,但这种的发音还是一样的。
3. “我要几家”,”我要寄件”,这两个既不是同一个意思,发音也不一样了,但总归发音还是有接近之处。

针对这三种情况,我的不太聪明的办法就是:
第一种,做同义词库

第二种,转拼音来匹配

第三种,转拼音后,计算拼音相似度,根据多个词最终相似度的对比,以及不同字数的关键词设置阈值,来计算出最符合的那一个结果。

把三种方法结合后:
例如语音说: “你好,我在人和,我想要联系快递点,有很多货要寄件”。
语音识别结果: 您好,我在仁和,我想要练习,快点,有很多活,要几家

关键词: 你好,人和,快递点,寄件,

1,先根据关键词的同义词库,来匹配一遍,得出命中关键词,你好。
2,把识别结果和关键词用中文分词库来分词(有一些开源的可选),将分词后的词都转为拼音。
3,用每一个关键词去匹配识别结果的分词,根据相似度计算出一个分数。由于字数多少的关键词匹配度不尽相同,例如  “很多家” 和“恒大” 这样的三个字和两个字我们要区别对待,一般来说,如果两个关键词匹配度一样,往往字数多的那一个更加贴合实际,所以我们要给不同字数来设定一个”系数”和”阈值”,系数用来参与计算最终符合的那个词,阈值用于决定达到多少相似度才算命中关键词。 例如我们给两个字的关键词设置阈值为85, 如果最终匹配的相似度不足85,则表示没有命中该关键词,具体不同字数的关键词的阈值,需要一些样本数据来统计。
4,实际场景中,由于关键词也有优先度,例如”寄件”属于业务词,可能重要级高于”几家”,再比如”不是的”肯定比”是的”更优先,虽然”不是的”包含了”是的”,但说话的意思是前一个。所以根据词的属性,例如 疑问词,肯定词,否定词,或者按照行业特性来分类的价格词,方案词,服务词。 我们给这些不同的词配一个权重值。


那么最终一个关键词的得分是 匹配度的得分*系数*权重,最后从命中关键词中选出得分最高的,即最符合实际意思的那一个或多个词。

嘛。。。现如今,总体感觉如下:

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/57820.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Android 集成科大讯飞语音并实现语音识别

前言:此博客内容有,集成讯飞语音sdk,实现了语音唤醒,在线语音识别,离线语音识别,更新本地离线语音词典 集成讯飞语音SDK 注册账号下载SDK 百度搜索科大讯飞,打开网站,没有账号的根…

语音合成 GAN Vocoders 总览

Loss 函数简称与全称的对应关系 Short NameFull Nameadvadversial lossFMFeature MatchingMSDMulti-Scale Discriminatormr-STFTMulti-resolution STFT lossfmr-STFTfull band Multi-resolution STFT losssmr-STFTsub band Multi-resolution STFT lossMelMel-Spectrogram Loss…

Photon01_Photon Voice 实现远程语音聊天功能

不废话,直接上步骤! 第一步: 给预制体Player添加三个组件,参数设置如图所示: 第二步: 创建空物体Voice,给空物体添加两个组件,参数设置如图所示: 第三步: …

Android开发基于科大讯飞实现语音识别

简介 通过使用科大讯飞的API开发Android APP实现语音识别 下载相应SDK 访问https://www.xfyun.cn/?jumplogin进行注册,然后创建一个应用并进行相应SDK下载 添加相应的包 打开刚刚下载的SDK,找到libs,将两个jar包复制到Android工程里 …

手语翻译系统系列之使用旭日X3派实时识别播报手语

一、准备工作 硬件部分:旭日X3派,USB免驱摄像头,电源适配器,烧录Ubuntu系统的SD卡,USB扬声器,显示屏(或者VNC/SSH远程连接) 软件部分:Thonny IDE集成开发环境 首先&…

android 打字 语音,手机聊天神器不用手写打字 说话秒变文字 允许一点家乡口音 老年人爸妈必备语音输入法...

时代在进步,如今智能手机已风靡街头巷尾。不过老年人对于新生事物的接受能力较差,手机上网沟通交流成为他们“可望而不可及”的奢望,以往老年人对手机的使用仅局限于按键通话这么简单,是不太会用微信、QQ等沟通方式打字聊天的&…

AI读心术

近期,德克萨斯大学奥斯汀分校的神经科学家们展开了一场「AI」实验,利用人工智能聊天机器人ChatGPT,将大脑活动转化为文字信息。 参与实验的志愿者,在进行长达20小时的「训练」后,成功被「AI」识别出正在进行的活动。按…

chatgpt赋能python:Python反转句子——让你的程序搞定转化难题

Python反转句子——让你的程序搞定转化难题 Python作为一门优秀的编程语言,拥有强大的数据处理能力,常被用于数据清洗、数据分析、统计计算等领域。本文将介绍Python反转句子的实现方法,并讨论其在实际应用中的运用场景。 什么是Python反转…

chatgpt赋能python:Python提取名词:利用NLP技术进行文本分析的高效方法

Python提取名词:利用NLP技术进行文本分析的高效方法 当我们需要对大量文本数据进行分析时,提取其中的名词信息是一个很有用的技巧。 Python提供了各种工具和库来进行NLP自然语言处理,帮助我们快速地实现文本分析。 本文将讨论如何使用Python…

生成式人工智能时代:研究机构与工业机构的角色之争

来源:Illustration by IconScout Store from IconScout 作者:刘鹏飞 微软创始人比尔盖茨说人生中让他印象深刻的两次技术革命演示,一次是现在操作系统的先驱“图形用户界面”,另一个就是以ChatGPT为代表的生成式人工智能技术。 一…

chatgpt赋能python:Python有什么好玩的项目

Python 有什么好玩的项目 Python 是一种多用途的编程语言,被广泛应用于网站开发、数据分析、机器学习以及科学计算等领域。但是除了这些实用的场景,Python 也有很多有趣的项目。在这篇文章中,我将介绍几个有趣的 Python 项目,带你…

用 AI 生成漂亮小姐姐(一)——Stable Diffusion 小白搭建教程

最近 AIGC、ChatGPT 等话题持续发酵,热门程度不亚于之前的 “元宇宙”。抖音、小红书到处都是机器对话、AI 绘图的视频。我看见别人生成的漂亮小姐姐图片眼馋得不行,终于按捺不住自己的好奇心,也尝试一下搭建。本文只是简单记录一下搭建过程。 △ 别人生成的漂亮小姐姐 我使…

如何用 GPT-4 帮你写游戏(以24点游戏举例)

目录 给我一个24点游戏 游戏规则 GPT给的代码 ​改进 再改进 最近呢掀起了一阵GPT-4的热潮,很多人都想用GPT-4,这里呢我就打一个广告(嘿嘿),如果不知道国内如何使用GPT的,可以看看这个博客:G…

发送Email、接收Email

邮件软件称为MUA:Mail User Agent,意思是给用户服务的邮件代理; 邮件服务器则称为MTA:Mail Transfer Agent,意思是邮件中转的代理; 最终到达的邮件服务器称为MDA:Mail Delivery Agent&#xff0…

Android studio通过lame生成把pcm转成MP3的so库以及音频的录制和播放附源码

1.先新建C项目 2. 在cpp目录下创建目录map3lame(名字随便起) ,接下来要用到 3.下载lame 地址lame 最新版本是3.100,解压完成后如下图 把libmp3lame目录中的所有.c和.h文件(注意其他类型的文件和目录不需要)都复制到项目中新建的map3lame目录中&#xff…

香港金曲奖分析(1983-2017 by SIRMAN)

以前的金曲奖就是华语音乐的代表,特别是80、90年代,谭张争霸,四大天王等,虽然近来影响力已不如之前,但让我们来看看1983-2017的获奖名单。数据来源于百度百科“十大劲歌金曲颁奖典礼”,由于名单较多&#x…

Android中Pcm文件转换为Mp3

刚完成了一个pcm转成mp3的小工作,记录下自己解决这个问题的过程,以便以后可以参考。pcm转换mp3首选的就是lame这个开源框架,下载地址lame,下载完成后需要ndk编译lame。安卓ndk环境配置可以百度。下面记录下ndk编译lame的过程 首先…

NCM转MP3神奇的网页

由于毕业演出需要,下了QQ音乐上的一首需要会员的歌,发现是NCM格式,没有办法打开,于是在网上找方法,然后就发现了这个好方便的网页,直接线上转格式!赶紧记下来,以备下次用&#xff01…

使用Lame库实现wav、pcm转mp3

文章目录 前言 一、Lame库是什么? 二、使用步骤 0.创建native项目 1.下载Lame库 2.pcm转MP3 3.wav转MP3 4、native方法如下 三、注意 总结 前言 因为使用android录音后生成的文件是wav或者pcm格式,项目要求最后的文件需要是mp3格式,于…

Android集成LAME库,实现pcm转mp3

一、交叉编译LAME库 LAME是一种非常优秀的MP3编码引擎,在业界,转码成MP3格式的音频文件时,最常用的编码器就是LAME库。 1. 下载LAME库源码 https://sourceforge.net/projects/lame/files/lame/ 进入LAME官网下载LAME源码,我选择…