Deep4SNet: deep learning for fake speech classification

Deep4SNet:用于虚假语音分类的深度学习
摘要:
虚假语音是指即使通过人工智能或信号处理技术产生的语音记录。生成虚假录音的方法有"深度语音"和"模仿"。在《深沉的声音》中,录音听起来有点合成,而在《模仿》中,录音听起来很自然。另一方面,考虑到在互联网上传输的大量语音记录,检测虚假内容的任务并不微不足道。
为了检测通过深度语音和模仿获得的虚假语音,我们 提出了一种基于卷积神经网络( Convolutional Neural Network,CNN )的解决方案,使用图像增强和Dropout。所提出的架构使用2092个原始和虚假语音记录的直方图进行训练,并使用864个直方图进行交叉验证。使用476个新直方图进行外部验证,并计算准确率( Precision,P )和召回率( Recall,R )。对模仿型探究录音的 检测达到了P = 0.997,R = 0.997,对Deep Voice-based录音的检测达到了P = 0.985,R = 0.944。全局精度为0.985。根据结果,所提出的系统在检测虚假语音内容方面是成功的。
结论:
  • Deep4SNet在检测模仿和Deep Voice生成的伪造语音方面表现出色,整体准确率达到0.985。
  • 通过对比手工特征和自动特征提取方法,论文发现自动特征提取(使用直方图图像)更适合于伪造语音检测任务。
  • 通过图像增强和dropout技术,模型在防止过拟合方面表现出良好的鲁棒性。
背景
  • 伪造语音问题 :随着人工智能和信号处理技术的发展,伪造语音变得越来越逼真。伪造语音可能用于欺骗、误导或作为虚假证据,尤其是在法律领域,因此检测伪造语音具有重要意义。
  • 现有方法:传统的语音验证方法主要依赖于高斯混合模型(GMM)和通用背景模型(UBM)。近年来,基于遗传算法(GA)、蚁群优化(ACO)、支持向量机(SVM)和深度学习(DL)的方法也被提出用于语音验证和伪造语音检测。
内容成果
  • 研究方法
论文提出了一种基于卷积神经网络(CNN)的伪造语音检测模型,称为Deep4SNet。该模型使用图像增强和dropout技术来提高检测性能。
模型训练使用了2092个直方图,这些直方图来自原始语音和伪造语音录音。此外,还使用了864个直方图进行交叉验证,以及476个新的直方图用于外部验证。
论文比较了手工特征提取和自动特征提取两种方法。手工特征提取依赖于统计值和熵等特征,而自动特征提取则通过将语音信号转换为直方图图像来实现,将问题转化为计算机视觉问题。
Deep4SNet的网络结构相对简单,包含3个卷积+池化层,后接一个展平层、一个隐藏层和输出层。隐藏层中使用了dropout来防止过拟合。
  • 实验
实验设置:实验使用了基于模仿方法和Deep Voice算法生成的原始和伪造语音录音。数据集被平衡地分为训练集和验证集。
评价指标:使用准确率、损失、精确率和召回率等指标来评估模型性能。
过拟合策略:通过图像增强(水平翻转)和dropout来避免过拟合。实验结果表明,dropout率为0.2时模型性能较好。
外部测试:使用400个新的录音(20个原始录音和380个伪造录音)进行外部测试。测试结果显示,模型在检测模仿方法生成的伪造语音时精确率为0.997,召回率为0.997;在检测Deep Voice生成的伪造语音时精确率为0.985,召回率为0.944。
贡献点:
提出了一种基于深度学习的伪造语音检测方法,能够有效区分原始语音和通过模仿及Deep Voice技术生成的伪造语音。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/2417.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Navicat Premium 原生支持阿里云 PolarDB 数据库

近日,我司旗下的 Navicat Premium 软件通过了阿里云 PolarDB 数据库产品生态集成认证,这标志着 Navicat 通过原生技术全面实现了对秒级弹性、高性价比、稳定可靠的PolarDB 数据库三大引擎(PolarDB MySQL版、PolarDB PostgreSQL版和 PolarDB f…

LabVIEW光流算法的应用

该VI展示了如何使用NI Vision Development Module中的光流算法来计算图像序列中像素的运动矢量。通过该方法,可以实现目标跟踪、运动检测等功能,适用于视频处理、机器人视觉和监控领域。程序采用模块化设计,包含图像输入、算法处理、结果展示…

JAVA:在IDEA引入本地jar包的方法(不读取maven目录jar包)

问题: 有时maven使用的jar包版本是最新版,但项目需要的是旧版本,每次重新install会自动将mavan的jar包覆盖到项目的lib目录中,导致项目报错。 解决: 在IDEA中手动配置该jar包对应的目录。 点击菜单File->Projec…

升级 SpringBoot3 全项目讲解 — 为什么 SpringBoot3 应该抛弃 Maven,搭配 Gradle 来使用?

学会这款 🔥全新设计的 Java 脚手架 ,从此面试不再怕! 随着 Spring Boot 3 的发布,许多开发者开始考虑如何将现有项目升级到最新版本。Spring Boot 3 带来了许多新特性,包括对 Java 17 的支持、更好的性能优化以及对 G…

大疆上云API基于源码部署

文章目录 大疆上云API基于源码部署注意事项1、学习官网2、环境准备注意事项3、注册成为DJI开发者4、下载前后端运行所需要的包/依赖前端依赖下载后端所需要的Maven依赖包 用到的软件可以在这里下载5、MySQL数据库安装安装MySQL启动MySQL服务在IDEA中配置MySQL的连接信息 6、Red…

Js:正则表达式及正则表达式方法

① 创建正则表达式对象: /** 语法:* var reg new RegExp(正则表达式, 匹配模式);* 匹配模式(字符串类型):i --> 忽略大小写 g --> 全局匹配模式*/var reg new RegExp(a, i);var str abc; /** 正则表达式的方法&#…

【论文阅读】具身人工智能(Embodied AI)综述:连接数字与物理世界的桥梁

摘要 具身人工智能(Embodied AI)对于实现通用人工智能(AGI)至关重要,是连接数字世界与物理世界的各类应用的基础。近年来,多模态大模型(MLMs)和世界模型(WMs&#xff09…

数据结构--二叉树

目录 有序二叉树: 平衡二叉树: 234树: 红黑树 红黑树特点: 为什么红黑树是最优二叉树? 哈夫曼树和哈夫曼编码 有序二叉树: 平衡二叉树: 在有序二叉树的基础上得来的,且左右子…

【算法】图解两个链表相交的一系列问题

问: 给定两个可能有环也可能无环的单链表,头节点head1和head2。请实现一个函数,如果两个链表相交,请返回相交的第一个节点;如果不相交,返回null。如果两个链表长度之和为N,时间复杂度请达到O(N…

Python文件操作中编码解码问题

一、错误介绍 在学习python文件操作过程中遇到了UnicodeDecodeError错误,报错信息如下图所示。 二、错误产生的原因 下面是个人理解,可能存在错误,请理性看待。 windows默认按照GBK来进行编码的,而处理的文件是用UTF-8进行编码…

麦田物语学习笔记:构建游戏的时间系统

基本流程 1.代码思路 (1)新建一个TimeManager.cs (2)创建枚举变量来表示四季,在TimeManager里需要的变量有: 游戏内的秒,分钟,小时,天,月,年;游戏内的季节;控制一个季节有多少个月;控制时间的暂停;计时器tikTime (3)在Settings里添加计时器的阈值,以及各个时间的进位 (4)初始化…

《leetcode-runner》如何手搓一个debug调试器——指令系统

前文: 《leetcode-runner》如何手搓一个debug调试器——引言 《leetcode-runner》如何手搓一个debug调试器——架构 文章目录 什么是指令系统指令的组成部分leetcode-runner支持哪些指令如何解析用户输入的命令行指令识别流程 仓库地址:leetcode-runner …

Python 实现 NLP 的完整流程

💖 欢迎来到我的博客! 非常高兴能在这里与您相遇。在这里,您不仅能获得有趣的技术分享,还能感受到轻松愉快的氛围。无论您是编程新手,还是资深开发者,都能在这里找到属于您的知识宝藏,学习和成长…

学习ASP.NET Core的身份认证(基于JwtBearer的身份认证5)

用户在前端页面登录成功后会从服务端获取Token,后续调用服务器的服务接口时都得带着Token,否则就会验证失败。之前使用postman测试的时候,获取Token后再调用其它服务都是人工将Token添加到Header中,网页中没法这么做,只…

【深度学习实战】kaggle 自动驾驶的假场景分类

本次分享我在kaggle中参与竞赛的历程,这个版本是我的第一版,使用的是vgg。欢迎大家进行建议和交流。 概述 判断自动驾驶场景是真是假,训练神经网络或使用任何算法来分类驾驶场景的图像是真实的还是虚假的。 图像采用 RGB 格式并以 JPEG 格式…

下载文件,浏览器阻止不安全下载

背景: 在项目开发中,遇到需要下载文件的情况,文件类型可能是图片、excell表、pdf、zip等文件类型,但浏览器会阻止不安全的下载链接。 效果展示: 下载文件的两种方式: 一、根据接口的相对url,拼…

【漏洞分析】DDOS攻防分析

0x00 UDP攻击实例 2013年12月30日,网游界发生了一起“追杀”事件。事件的主角是PhantmL0rd(这名字一看就是个玩家)和黑客组织DERP Trolling。 PhantomL0rd,人称“鬼王”,本名James Varga,某专业游戏小组的…

低代码独特架构带来的编译难点及多线程解决方案

前言 在当今软件开发领域,低代码平台以其快速构建应用的能力,吸引了众多开发者与企业的目光。然而,低代码平台独特的架构在带来便捷的同时,也给编译过程带来了一系列棘手的难点。 一,低代码编译的难点 (1…

Android BitmapShader更简易的实现刮刮乐功能,Kotlin

Android BitmapShader更简易的实现刮刮乐功能,Kotlin 比这种方式 Android使用PorterDuffXfermode模式PorterDuff.Mode.SRC_OUT橡皮擦实现“刮刮乐”效果,Kotlin(2)-CSDN博客 更简单实现刮刮乐效果。 import android.content.Cont…

【DB-GPT】开启数据库交互新篇章的技术探索与实践

一、引言:AI原生数据应用开发的挑战与机遇 在数字化转型的浪潮中,企业对于智能化应用的需求日益增长。然而,传统的数据应用开发方式面临着诸多挑战,如技术栈复杂、开发周期长、成本高昂、难以维护等。这些问题限制了智能化应用的…