语音识别系列1:语音识别Speech recognition综述

目录

1 什么是语声识别VOICE RECOGNITION?

2 语声识别(VOICE RECOGNITION)和语音识别(SPEECH RECOGNITION)有什么区别?

3 语声识别(VOICE RECOGNITION)系统的类型

4  语音识别系统的类型

5 语音识别简史

6 语音识别的工作原理

          6.1 录制你的声音

6.2 注册

7 语音识别工具

8 如何使用语音识别

9 为什么语音识别好?

10 语音识别的优缺点

10.1 语音识别优势

10.2 语音识别的缺点

11 语音识别技术应用

11.1 卫生保健

11.2 军队

11.3 教育用途

11.4 残疾人

11.4 车载系统

11.5 语音控制的视频游戏

12 不同语音识别(虚拟助手)软件

AMAZON ALEXA

MICROSOFT'S CORTANA

GOOGLE ASSISTANT

13 语音识别需要训练吗?

14 语音识别技术的未来用途

参考文章:


名词约定:

语声识别----- VOICE RECOGNITION

语音识别-----SPEECH RECOGNITION

1 什么是语声识别VOICE RECOGNITION?

        语音或说话者识别是程序根据其独特的声纹识别人的能力。它通过扫描语音并与所需的语音指纹建立匹配来工作。人工智能的发展为计算机科学的这一子领域开辟了广阔的机遇。它使我们能够在不接触机器的情况下与机器进行交互。它发展迅速,开发人员正在寻找越来越多的方法将其应用到各个领域。

2 语声识别(VOICE RECOGNITION)和语音识别(SPEECH RECOGNITION)有什么区别?

        了解这两个学科之间的差异至关重要。语音识别的目的是识别语音所有者。语言识别的目的是识别说话者的话。在第一种情况下,程序需要说话人的独特声纹进行比较。在第二种情况下,程序需要一个巨大的字典来识别说话者的意义表达。

3 语声识别(VOICE RECOGNITION)系统的类型

        语音识别有两类,它们是:

  • 文本相关——系统经过训练,可以识别说话者预先确定的语音密码;
  • 文本独立 - 它不需要预先确定的密码。分析的主题是会话语音。

4  语音识别系统的类型


        我们可以将自动话语识别(ASR)分为不同的类别。首先,它依赖于扬声器。从这方面来看,有两种类型是已知的,它们是:

  • 取决于说话者——程序经过训练可以识别特定的声音,类似于语音识别。说话者必须与程序“交谈”并赋予程序分析声音的能力。这样的系统更容易实现。它们在语音识别方面提供了高精度;
  • 说话者独立——这种类型的语音识别软件有更广泛的用途。它不需要训练来分析声音。重点是说话者的单词识别。此类程序的典型示例是 IVR 系统。

另一种分类方法是基于用户说话的方式。这些类别是:

  • 离散语音识别——ASR 应用程序从早期版本开始就使用这种方法。 Т说话者必须分别发音每个单词,在它们之间插入停顿。使用这样的程序,工作起来更加困难。口语频率不易保证;
  • 连续语音识别——这是一种相对较新的 ASR 方法,需要更多的努力来开发。在这种情况下,说话者的语速接近正常。

        在人工智能语音识别领域,另一种技术是众所周知的。它是自然语言处理(NLP)。 Тhe 语音识别系统的任务是理解单词。 NLP 系统的任务是理解和回答说话者。那是模仿人与机器之间的交流。 NLP 接近语音/语音识别,但基于不同的算法。

5 语音识别简史

        这项技术的第一个重要步骤始于 IBM 的贝尔实验室。 1952 年,IBM 推出了奥黛丽 Audrey,这是第一个记录在案的语音识别器。奥黛丽是一个完全类比系统,可以理解单个数字,中间有停顿。十年后,IBM 推出了 Shoebox,能够识别 0 到 9 的 16 个英文单词和数字。在 1970 年代初期,这项技术的发展有了飞跃。这主要归功于美国国防部的研发机构 DARPA。经过五年的研究,卡内基梅隆大学诞生了 Harpy。一台能够理解 1011 个单词的机器。此外,Harpy 与它的前辈有很大不同。它可以理解句子。 80 年代初,语音识别系统的词汇量增加到几千个单词。这主要归功于隐马尔可夫统计模型。语音识别从基于模式的数字信号处理转变为使用统计模型从未知声音中预测单词。

        此外,机器在识别单词方面变得更加准确。 IBM 的语音识别小组在 80 年代中期推出了实验性转录系统 Tangora。 Tangora 能够识别 20000 个单词。从 1990 年代开始,借助个人电脑,DragonDictate 等语音识别产品开始为消费者所用。在过去的二十年里,许多科技巨头都在从事这项技术。在本文后面,您将熟悉他们的产品。

6 语音识别的工作原理


现代 ASR 系统基于三种模型:声学、发音和语言。

  • 声学建模使区分语音信号和音素(声音单位)成为可能。隐马尔可夫模型 (HMM) 是一种常见的声学建模方法。其他方法使用深度神经网络或卷积神经网络等;
  • 发音模型定义了如何组合音素来造词;
  • 语言建模是一门有助于区分发音相同的单词和短语的学科。

        录制语音后,噪声被清除,有用信号从录音中过滤掉。 Т他的记录被分成小片段。之后,每个片段都通过声学模型。这些片段与音素进行比较,音素是一个最初构建的统计模型,用于描述语音中每个声音的发音。基于这些匹配,从音素中收集单词。 Тhe 查找单词的效率很大程度上取决于预先准备好的音素数据库的大小。

6.1 录制你的声音

        在任何设备上,都使用麦克风进行录音。如果设备没有,则需要连接麦克风耳机或专业麦克风。为此,您可以使用预安装的应用程序,例如 Windows 10 上的录音机、Apple 产品上的语音备忘录等。还有大量具有高级功能的应用程序。它们提供了选择记录质量、比特率或格式来保存记录的机会。有些是基于人工智能的,可以让你摆脱录音中不必要的噪音。

6.2 注册


        用户注册需要记录说话人的声音并提取独特的声纹作为每个说话人识别软件的第一阶段。下一阶段是验证。将录制的语音与不同语音的数据库进行比较,以找到最佳匹配或与特定语音。

7 语音识别工具


        如果您不想构建语音识别系统,可以使用各种开源工具。其中有:

  • CMU Sphinx——卡内基梅隆大学开发的独立于说话者的连续语音识别系统。 CMU Sphinx 包括一组为不同目的而设计的产品。可从 GitHub 网页下载。此外,您还可以在那里找到用户文档。支持多种流行的编程语言,如C/C++、C#、Java、Python;
  • HTK 工具包——用于处理隐马尔可夫模型的工具包。它由机器智能实验室在剑桥大学开发,主要用于语音识别研究。它不是完全开源的。用户可以在 HTK 官方网站上找到有关使用该产品的信息。支持的编程语言是 C 和 Python;
  • Kaldi——这是一个用于语音识别和信号处理的开源工具包。该工具包本身可从 GitHub 存储库下载。该文档可在官方网站上找到。支持的编程语言是 C++ 和 Python。

8 如何使用语音识别


        由于个人电脑和智能手机以及人工智能的快速发展,语音和语音识别软件已经进入我们的日常生活。他们让我们通过交谈来控制我们的设备。第一个值得一提的产品是虚拟助手。谷歌和苹果正在发布带有内置虚拟助手的操作系统。微软已将其虚拟助手 Cortana 添加到 Windows。智能扬声器与虚拟助手集成。此类设备的示例包括嵌入 Alexa 的 Amazon Echo 和在 Siri 上运行的 Apple HomePod。语音识别在呼叫中心的 IVR 系统、医疗设备中实现。它用于具有语音生物特征的安全系统。在人类需要与机器交互的任何地方,这项技术都会很有帮助。

9 为什么语音识别好?


        语音识别技术提高了用户的工作效率。它捕捉人类语音的速度比我们打字的速度要快得多。此外,当您的手忙于其他工作时,您可以与您的设备交谈,同时执行两个操作。对于不能用手的残疾人来说,这是必不可少的。它们从安全方面增加了一层额外的可靠性,因为伪造独特的声纹并不容易。

10 语音识别的优缺点


        语音识别是一门相对较新的科学。它已经从能够识别单一语言中的数十个单词的简单程序发展为基于人工智能的复杂系统。几十年来,它得到了长足的发展,并开始解决更广泛的任务。尽管如此,要改进它还有很多工作要做。让我们总结一下它有哪些优点和缺点。

10.1 语音识别优势

  • 提高企业的生产力;
  • 自动化企业和客户之间的互动;
  • 添加额外的安全级别;
  • 捕捉语音的速度比人类打字的速度更快;
  • 帮助残疾人;
  • 帮助控制您的家庭设备;
  • 协助驾驶员使用车内 ASR 系统等。

10.2 语音识别的缺点

  • 如果说话者说话快速且不清楚,系统将无法完全识别语音;
  • 需要大词汇量来提高识别准确率;
  • 每种语言都需要单独的 ASR 培训;
  • 企业可以在未经其许可的情况下收集和使用用户的语音数据;
  • 时间和财务成本高;
  • ASR 软件消耗大量内存并需要大量 RAM。

11 语音识别技术应用

我们谈到了语音识别系统的广泛使用。让我们看看它在特定领域有哪些应用。

11.1 卫生保健


        在医学上,语音识别主要用于编写患者文档。存在两种不同的文档过程方法。

        前端文档是将语音实时翻译成文本的过程。在这种情况下,系统更有可能出错。医生必须修正文本。所以最好用它来做个人笔记;
后端文档的作用相同,但还将说话者的录音附加到文本中。系统提供文本草稿,以便医生修复错误。

11.2 军队


在这个领域,它主要用于对机器和设备的指挥和控制。语音命令要快得多。在战斗中,这可以在赢得战斗中发挥关键作用。

11.3 教育用途


学生可以在学习语言的同时检查他们的发音。它可以帮助避免语法、标点错误。编写大文本的挑战性较小。学生可以输入大文本而不会感到疲倦。

11.4 残疾人


手残学生或盲人可以不受限制地书写。 ASR 使他们能够跟上学习进度。

11.4 车载系统


汽车中的语音识别降低了道路上发生事故的风险。诸如拨号、使用 MP3 播放器或收音机等操作无需将手从方向盘上移开。

11.5 语音控制的视频游戏

        它可以帮助您学习游戏。玩家需要时间来记住游戏控制键。相反,他们可以使用语音命令。

12 不同语音识别(虚拟助手)软件


        虚拟助理系统相当复杂且昂贵。科技巨头的解决方案主要主导市场。让我们了解一下他们。

APPLE'S SIRI

此个人助理仅适用于 Apple 用户。它首先出现在 iPhone 4S 中,并成为新 Apple 产品不可或缺的一部分。 Siri 可以在 Twitter 或 Facebook 上发帖、解决复杂的数学问题、保存笔记、进行预订等。

AMAZON ALEXA

        亚马逊正在运送带有 Alexa 的智能扬声器。它于 2013 年首次亮相。与 Siri 不同,它可以集成到第三方设备中。它能够进行语音交互、管理在线购物和音乐播放。它还可以控制多个智能设备。

MICROSOFT'S CORTANA

        它是微软于 2014 年发布的虚拟助手,主要供 Windows 操作系统用户使用,但也适用于 Android 和 IOS 用户。 Cortana 允许您管理日历、在 Microsoft Teams 中加入会议、设置提醒以及在计算机上打开应用程序。

GOOGLE ASSISTANT

        Google 通过 Google Now 开始了创建虚拟助手的旅程。这是谷歌搜索的一项功能,允许用户使用语音搜索信息。几年后,谷歌停止了该项目的开发,并于 2016 年发布了 Google Assistant。它最初被集成到 Google Home 智能扬声器和 Google Pixel 智能手机中。

NUANCE'S DRAGON ASSISTANT AND DRAGON NATURALLY SPEAKING

Dragon Naturally speak 是由 Nuance Communications 开发的语音识别软件。在本文前面,我们提到了 Dragon Dictate 应用程序。多年来,它得到了改进,现在被称为龙自然说话。该公司还为个人电脑提供个人助理 Dragon Assistant。

13 语音识别需要训练吗?


要使用语音识别系统,您不需要长时间的培训课程。互联网上有很多关于如何启用和使用它们的信息。它们可以在制造商的官方网站或其他平台上找到。这里有一些有用的链接。

  • Apple 关于如何在 MAC 上使用语音控制的文章。 Youtube 上的视频;
  • 一篇关于如何在 Windows 上使用语音控制和 Youtube 上的视频的文章;
  • Nuance 通信产品的在线大学。

14 语音识别技术的未来用途


语音识别的未来非常有前景。 ASR 系统不仅可以识别单词,还可以识别一个人的情绪。语音识别将应用于航空航天、家庭自动化、机器人、远程信息处理和视频游戏等领域。

参考文章:

What is Voice Recognition? Voice & Speech Recognition Overview — RecFaces

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/35739.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

语音识别-特征提取 (一)

一.语音的产生简介 1.1 发音器官 人体的语音是由人体的发音器官在大脑的控制下做生理运动产生的。人体发音器官由三部分组成:肺和气管、喉、声道。 肺是语音产生的能源所在。气管连接着肺和喉,是肺与声道的联系通道。喉是由一个软骨和肌肉组…

分享本周所学——人工智能语音识别模型CTC、RNN-T、LAS详解

本人是一名人工智能初学者,最近一周学了一下AI语音识别的原理和三种比较早期的语音识别的人工智能模型,就想把自己学到的这些东西都分享给大家,一方面想用浅显易懂的语言让大家对这几个模型有所了解,另一方面也想让大家能够避免我…

如何跟踪语音领域的技术

语音顶会 ICASSP 所有年份论文集下载地址:https://ieeexplore.ieee.org/xpl/conhome/1000002/all-proceedings Interspeech 所有年份论文集下载地址:https://www.isca-speech.org/archive/ 期刊 IEEE Transactions on Audio, Speech and Language Proces…

语音识别(Speech Recognition)综述

文章目录 1. 语音识别的基本单位1.1 Phoneme(音位,音素)1.2 Grapheme(字位)1.3 Word(词)1.4 Morpheme(词素)1.5 bytes 2. 获取语音特征(Acoustic Feature&…

语音识别(一)——概述

概述 虽然现在的语音识别中,DL已经应用的非常广泛了,但是语音识别终究还是有一些领域知识的,将之归类为DL或者ML,似乎都不妥当。特形成本系列文章,用以描述automatic speech recognition的领域知识和传统方法。 说起…

语音识别 特征提取(一)

一.语音的产生简介 1.1 发音器官 人体的语音是由人体的发音器官在大脑的控制下做生理运动产生的。人体发音器官由三部分组成:肺和气管、喉、声道。 肺是语音产生的能源所在。气管连接着肺和喉,是肺与声道的联系通道。喉是由一个软骨和肌肉…

语音识别概述

我的书: 淘宝购买链接 当当购买链接 京东购买链接 #语音识别概述 语音识别问题就是模式分类问题。 一个基本的语音识别系统如下图,实现是正常工作流程,虚线是训练模式分类问题中的模板(这里就是声学模型,字典和语言模型)。 图1语音识别系统组件关系图 语音识别是把语音…

初探语音识别技术

语音识别 语音识别根据实际需求的不同也会有所不同。目前主要追求大词汇量、连续、非特定人。 语音识别主流开源框架:HTK、Kaldi、CMUSphinx。 因为目前只接触了Sphinx,对于另外两个框架没有太深入研究。 1)Kaldi适用于在服务器搭建的语音识…

语音识别技术

语音识别技术,也被称为自动语音识别(Automatic Speech Recognition,ASR)。语音识别技术就是以语音为研究对象,让机器通过自动识别和理解过程把语音信号转变为相应的文本或命令的技术。涉及多种交叉学科,如声…

语音识别之语音特征提取一

语音识别的第一步就是语音特征提取,语音信号是在人体中肺、喉、声道等器官构成的语音产生系统中产生的,它是一个高度不平稳的信号,它的幅度谱和功率谱也随着时间不停的变化,但是在足够短的时间内,其频谱特征相当平稳&a…

语音识别发展综述

语音识别自半个世纪前诞生以来,一直处于不温不火的状态,直到2009年深度学习技术的长足发展才使得语音识别的精度大大提高,虽然还无法进行无限制领域、无限制人群的应用,但也在大多数场景中提供了一种便利高效的沟通方式。本篇文章…

Attention在语音识别中的应用(1)

从2014年Attention mode在机器翻译或起来以后,attention model逐渐在语音识别领域中应用,并大放异彩。因此本篇文章就对Attention进行总结和说明。 首先要确定的是Attention是一种权重向量或矩阵,其往往用在Encoder-Decoder架构中&#xff0…

说话人性别识别——语音检测初探

目录 一、任务背景和分析 二、特征抽取 librosa wave torchaudio 三、数据集 commonvoice [ 中文] 四、模型训练 1、频域信号LSTM2DCNN 2、频域信号2DCNN 3、时域信号1DCNN 一、任务背景和分析 公司有项目需求,需要识别语音信号是男女性别以及是否是彩铃…

chatgpt赋能python:Python短信群发:如何优化短信营销?

Python短信群发:如何优化短信营销? 短信营销是一种广泛用于促进业务和品牌认可度的营销策略。随着移动设备的普及以及人们越来越依赖手机,短信营销的有效性也在不断提高。在短信营销中,最大的优势之一是短信可以迅速传递到用户的…

chatgpt赋能python:Python就业前景分析

Python就业前景分析 1. Python简介 Python是一种简单易学、操作灵活、功能丰富的高级编程语言。它被广泛应用于人工智能、大数据分析、网络爬虫、自动化测试、Web开发、游戏开发等众多领域。Python的开发者们致力于让Python语言能够简单、易读、易学,适用于各种领…

由 ChatGPT 带来的对低代码产品的思考

在之前的文章中多次提到我们在开发一款低代码平台,主要面向 ToB 企业,帮助企业完善信息化建设,给企业的数字化转型贡献一份力量。 数字化转型的目标是降本增效,同样,效率对我们来说也至关重要,主要体现在&a…

内容安全策略 Content-Security-Policy

一、作用: 1、限制资源获取:限制网页当中一系列的资源获取的情况,从哪里获取,请求发到哪个地方 限制方式: default-src限制全局的和链接有关的作用范围 根据资源类型(connect-src、img-src等&#xff0…

记一下怎样关闭windows defender安全中心

Win10系统中自带Windows Defender杀毒软件,有些用户非常排斥,其一是扫描的频率太高,占用大量CPU。其二是有些文件不经过任何提示就直接删除。那么如何彻底关闭windows defender安全中心。 第一步:首先按winR,输入gped…

ICML 2023禁止使用大型语言模型写论文!LeCun转发:中小型模型可以用吗?

点击下方卡片,关注“CVer”公众号 AI/CV重磅干货,第一时间送达 点击进入—>Transformer微信技术交流群 转载自:新智元 | 编辑:昕朋 David 【导读】AI顶会ICML征稿日在即,关于道德准则的新政策却引来网友不满&#x…

英文论文润色哪家好用比较好,有值得推荐的吗

英文论文润色 推荐 英文论文润色对于写作者来说是一项十分重要的任务,它可以帮助我们修改文章中的语法、标点和排版等问题,使论文更加准确和易读。在众多的英文润色软件中,147chatgpt改写润色软件是一款值得推荐的全自动批量图文润色、自动纠…