说话人识别(speaker Recognition/Verification)简介

1.分类

2.研究方向

说话人识别研究方向主要有三个:

语音信号参数化:即提取音频特征spectral features,目前主流研究都采用MFCCs系数,以及其Δ和ΔΔ系数(即时间上的一阶导数和二阶导数)。什么是MFCC系数以及如何提取可以看这个博客:语音特征提取: 看懂梅尔语谱图(Mel-spectrogram)、梅尔倒频系数(MFCCs)的原理

模式匹配: 即从上一步得到的语音参数中提取出该说话人的固有特征,通俗点讲,就是从输入数据中提取出一个固定长度的向量来表示该speaker的特征,又称speaker embedding。所谓embedding可以理解为在一个固定维度下的表达形式。

算分方法: 即在进行识别的时候,将待测speaker的embedding和训练阶段得到的embedding进行比较,算分方法以一个特定公式去计算两者的相似度,从而达到识别的效果。

3. 模式识别的发展历史

可以分为三类:

模板匹配、概率模型和神经网络。

Vector Quantization 的介绍可以看这个博客:说话人识别 speaker identification发展历史

1980s主流方法即为向量量化(K-means)或NN。效果不好,因为算法简单。

1990s神经网络面世,TDNN即为CNN的前身。但此时还没有深度学习的概念。

2010s以概率模型为代表的i-vector取得了良好的效果,但是最近几年被由深度神经网络发展而来的x-vector超越。

3.1 GMM高斯混合模型

将不同参数的高斯分布以合计概率为1进行叠加,得到的分布可以模拟非常复杂的分布。该模型利用GMM的参数来表示每个speaker的模式。但问题是想要效果比较好,则需要非常多数量的高斯分布进行混合,随之而来的参数计算也会很多,但是一个speaker的数据往往比较少,例如短短一句话得到的feature是非常少的,完全不足以训练GMM。所以,后来提出了一个GMM-UBM的方法,所谓UBM通用背景模型是一个提前训练好的模型,该模型 本身是一个很复杂的GMM,但是他用了大量不同speaker的数据进行训练,得到的是一个可以表达很多人的GMM。利用UBM和我们想要训练的speaker数据,将UBM的参数向当前speaker靠拢。

GMM的模型如下,了解EM算法的人应该很熟悉:

用大量无关的、我们已有的数据,利用EM算法训练UBM,再利用MAP和当前speaker的数据进行调整参数。

M表示当前speaker的分布,m表示UBM的分布,z表示标准正态分布,矩阵D来调整m。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/55445.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

听障人士亲述:我们在VRChat用手语交流,成员规模5000人

如果你在B站上搜索VRChat,排在前面的热门视频几乎都是与老外聊天的内容。除了练习语言、交文化流外,你还能在VRChat上遇到不少哇哇乱叫的小孩。作为一款VR社交应用,除了有趣的小游戏外,说话聊天也是VRChat关键的玩法之一。 而有这…

AI应用系列--- Talking Photo 会说话的照片

利用HeyGen的服务可以生成有趣的Talking photo,方法有二: 1、访问HeyGen - AI Video Generator 网站,登录后即可根据提示或者案例生成talkingphoto 2、是使用HeyGen的Discord​​​​​​机器人 Discord​​​​​​机器人:http…

php 判断国际手机号码格式,国际短信验证码接口_国际验证码接口_国际短信API接口_国际短信API文档_...

国际短信 国际验证码API接口文档下载: 点击下载 1、概要 1.1 文档说明 本文档主要提供给达信通的用户对接接口的使用说明,开发者可以利用达信通提供的 HTTP 接口,调用达信通的国际验证码服务。 1.2 接口内容 本文档包含国际短信发送、余额查…

kaptcha制作验证码的方法

com.github.axet.kaptcha制作验证码的方法 导入jar包com.github.axet生成法 ①导包 <!-- 验证码 --><dependency><groupId>com.github.axet</groupId><artifactId>kaptcha</artifactId><version>0.0.9</version></depend…

kaptcha 验证码使用

本文的原文连接是: http://blog.csdn.net/freewebsys/article/details/49800115 未经博主允许不得转载。 博主地址是&#xff1a;http://blog.csdn.net/freewebsys 1&#xff0c;关于 验证码是做互联网必须做的。 目前都是用的第三方库。Kaptcha已经迁移到github项目了。 …

使用kaptcha生产纯数字验证码

使用kaptcha生产纯数字验证码录 1引入依赖2编写容器配置类3生产验证码工具类4控制层逻辑5登陆页面设置6 访问你的登录接口测试 1引入依赖 <!-- 验证码 依赖--><dependency><groupId>com.github.axet</groupId><artifactId>kaptcha</artifactI…

Kaptcha验证码的使用

Java具体学习内容&#xff0c;请移至&#xff1a; JAVA每天进步一点点 验证码的作用 验证码在我们的生活中可谓是随处可见&#xff0c;用户校验、用户登录…&#xff0c;有时候我们觉得验证码很麻烦&#xff0c;太过于繁琐&#xff0c;那么为什么还要使用验证码呢&#xff1f;…

五音不全?手把手教你用自己声音唱任何歌;最详细的Auto-GPT整理;4月AI绘画模型推荐;HayoAI平台简直太酷了 | ShowMeAI日报

&#x1f440;日报&周刊合集 | &#x1f3a1;生产力工具与行业应用大全 | &#x1f9e1; 点赞关注评论拜托啦&#xff01; &#x1f916; 『ChatGPT Code Interpreter Magic』魔法&#xff01;离谱&#xff01;正在怀疑人生… OpenAI 近期面向部分用户发放了 Code Interp…

一个美国人到中国当产品经理的心得:中国App设计真好!

TO 导读&#xff1a;应用软件层出不穷&#xff0c;各个国家的人为自己生活的便利设计出各款的应用。然而&#xff0c;同样的应用&#xff0c;是否会因为中西方文化的差异&#xff0c;或者是生活方式的不同&#xff0c;导致相同应用的设计有所不同吗&#xff1f;是的&#xff0c…

一款基于ethereum以太链的手机app应用status.im

2019独角兽企业重金招聘Python工程师标准>>> Status.im开发平台介绍 https://status.im/ 一款集成了ethereum钱包&#xff0c;区块链聊天IM和Dapp分发市场功能的以太链轻量app&#xff08;light client&#xff09;。app目前还在公开测试中。最主要的是&#xff0c;…

原生开发IM即时通讯APP安卓iOSPCweb四端齐全

技术开发语言&#xff1a; 后台管理端&#xff1a;Java、Mongodb数据库 安卓端&#xff1a;Java iOS端&#xff1a;obje-ctive-C PC端&#xff1a;Typescri-pt web端&#xff1a;HTML 功能简单介绍&#xff1a; 单聊&#xff1a;文字&#xff0c;语音&#xff0c;音视频…

人工智能安全框架概述

人工智能安全问题与研究 在自动驾驶、客服机器人等人工智能应用中发生了一系列安全事件&#xff0c;并引发了人们对人工智能应用前景的担忧&#xff0c;去年爆火的Chatgpt也有在人的引诱下发生了“自己出逃的想法”&#xff0c;这种种现象都显现出需要对人工智能安全的问题研究…

chatgpt赋能python:Python建立长连接:实现高效网络通信的解决方案

Python建立长连接&#xff1a;实现高效网络通信的解决方案 在现代网络应用中&#xff0c;大多数客户端和服务器之间都采用长连接通信。长连接具有一些显著的优点&#xff0c;例如减少通信开销、降低延迟、提高服务器吞吐量等。本文将介绍长连接的基本原理和Python实现长连接的…

一个POC的诞生,再见 ,脚本小子

hello&#xff0c;大家好我是你们的坤哥&#xff0c;聊聊安全绕不开的话题POC&#xff08;漏洞概念验证&#xff09;&#xff0c;只知道拿着工具扫的你&#xff0c;尝试过自己写POC吗&#xff1f; 看坤哥极限拉扯你和大手子之间的差距。 配合B站视频观看更佳&#xff1a; PO…

重磅!!即日起,图观引擎正式开放注册!

‍ ‍数据智能产业创新服务媒体 ——聚焦数智 改变商业 图观引擎 自2021年5月 上线内测 历经数千名用户的测试验证和不断的升级迭代 今天终于迎来了好消息&#xff01;&#xff01; 即日起 图观 数字孪生应用开发引擎 正式开放注册 无需内测邀请码 面向所有人开放 公有云 数字…

「硬核」实操如何拥有一个自己的数字人模型

一、前言 近年来&#xff0c;随着人工智能技术&#xff0c;VR&#xff0c;元宇宙等技术的发展&#xff0c;数字人&#xff08;Digital Human&#xff09;逐渐成为研究的热点之一&#xff0c;数字人是指通过计算机技术模拟出的具有人类外表&#xff0c;动作和语言能力的虚拟人物…

「硬核实操」如何拥有一个自己的数字人模型

作者&#xff1a;京东健康 陈刚 一、前言 近年来&#xff0c;随着人工智能技术&#xff0c;VR&#xff0c;元宇宙等技术的发展&#xff08;可以阅读 从Chat-GPT看&#x1f525;技术概念及医疗领域科技与应用场景 &#xff09;&#xff0c;数字人&#xff08;Digital Human&am…

Fay数字人助理版是fay开源项目的重要分支,专注于构建智能数字助理的开源解决方案。它提供了灵活的模块化设计,使开发人员能够定制和组合各种功能模块,包括情绪分析、NLP处理、语音合成和语音输出等。

Fay数字人助理 Fay数字人助理版是fay开源项目的重要分支&#xff0c;专注于构建智能数字助理的开源解决方案。它提供了灵活的模块化设计&#xff0c;使开发人员能够定制和组合各种功能模块&#xff0c;包括情绪分析、NLP处理、语音合成和语音输出等。Fay数字人助理版为开发人员…

ChatGLM模型部署分享

ChatGPT云炬学长 ​关注 先看结果&#xff1a; 部署问题&#xff1a;显卡太小无法加载使用&#xff0c;期间也换了N个显卡&#xff0c;太穷了!>-< 模型描述&#xff1a; 清华开源项目ChatGLM-6B发布。这一项目可以直接部署在本地计算机上&#xff0c;无需联网即可让你…

UE5引擎入门,第一周总结:简单的旋转魔方小项目

基础知识总结 蓝图节点 1.蓝图中的节点是封装好的函数。这些函数功能强大&#xff0c;但由于数目繁多且内部实现不明&#xff08;注&#xff1a;可能是开发环境问题&#xff0c;转到C代码这一步永远无法执行&#xff09;&#xff0c;总会出现一些不明所以的bug&#xff08;比…