基于声学模型共享的零资源韩语识别系统

声学模型共享方法是极低资源小语种语音识别一种解决方案,能够实现不需要任何语音数据的语音识别。本文介绍清华大学语音与音频技术实验室的零资源韩语语音系统,其在不使用任何韩语语音数据的情况下,在Zeroth韩语数据集上的测试CER达到了27.33%。

01 声学模型共享与零资源ASR

小语种语音识别一直是语音领域值得关注的问题之一,几千种小语种普遍面临着训练数据不足、收集训练数据困难等问题,而声学模型共享方法则可以实现不需训练数据的语音识别,从而为这一问题提供了一个方向。这一方法利用语种之间的相似性,直接使用常见语言的声学模型,结合低资源语言的语言模型、发音字典以及两种语言之间的音素映射关系等专家知识,就可以构建较为精准的语音识别系统。

我们将声学模型共享方法扩展到了零资源韩语语音识别上。我们使用Kaldi工具包,利用汉语训练声学模型,根据汉语和韩语两种语言之间的音素相似性设置了两种不同的音素映射方案,并比较了不同方案的优劣。实验结果表明,我们的系统可以在不使用任何韩语训练数据的情况下达到27.33%的CER

02 韩语的声学模型共享

在书写上,韩语是一种表音文字,其书写体系中的符号与音素存在着紧密的对应关系。在发音上,韩语是一种音节语言,一个韩语音节由一个元音(中声),元音前的一个可选的辅音(初声)和元音后的一个可选的辅音(终声)构成。韩语包含19个辅音和21个元音。在韩语中,根据上下文的不同,音素可能被替换、删除或是添加,两个相邻的音素可能会发生合并,因此即使韩语是完全的表音文字,一个句子的字面内容和其发音仍可能存在不同。

为了实现声学模型共享,我们需要建立韩语和汉语之间的音素对应关系。一种方法是将汉语词用韩语音素表示(zh2kr)。这种方法在训练过程中就引入音素对应关系,训练集中的汉语被转写为相近的韩语音素,而得到的模型可以被视为一个用汉语语音学习得到的韩语语音识别模型

汉语音素到韩语音素的对应关系(部分)

另一种方法是将韩语词用汉语音素表示(kr2zh)。这种方法是在声学模型训练完成后引入音素对应关系。通过修改发音词典,将韩语词统一表示为相近的汉语音素,使用汉语正常训练的声学模型就可以用来识别韩语。

韩语音素到汉语音素的对应关系(部分)

03 实验设置与结果

我们使用Aishell1数据集训练汉语声学模型,测试集则选用Zeroth开源韩语数据集的测试集。声学模型结构方面,我们使用了11层TDNN,输入为40维MFCC特征;语言模型方面,我们使用Zeroth训练集文本训练了3-gram语言模型。我们的基线系统是使用Zeroth的90小时韩语数据训练得到的相同结构的TDNN模型。

实验结果表明,尽管与使用充足有标注数据训练的ASR模型仍有较大差距,我们的零资源语音识别模型仍能实现较低的错误率。另外,相比kr2zh方法,zh2kr方法的精度有大幅度的下降。

我们认为,这是由于zh2kr方法需要为汉语中存在而韩语中不存在的音素指定近似的对应关系,这使得模型学习到的韩语音素对应的汉语声学特征与测试集中真正的韩语声学特征的分布有较大差异,这些人工引入的额外的领域漂移影响了最终的识别效果。

不同映射方法与有监督方法的比较。零资源方法能达到较低的CER,而kr2zh方法要优于zh2kr方法

我们的方法将无监督预训练模型应用于零资源语音识别任务,在不使用目标语种的任何语音数据的情况下实现了平均33%的WER。在无训练数据或可获得的训练数据小于10小时的情况下,我们的零资源方法相比有监督方法有较大优势。

作者简介

王皓宇,清华大学电子工程系语音与音频技术实验室研究生二年级学生,主要研究方向为低资源语音识别和预训练模型蒸馏。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/22547.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

韩语在线翻译图片识别_图片怎么转表格excel

图片转表格excel,快来免费用 ↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓ 相信大部分小伙伴选择拍图识字 是因为强大的ocr识别功能 图片文字一键提取导出 但是,有多少人知道 拍图识字还可以成为你的私人翻译!1 多语言转换 拍图识字首页点击拍照/…

韩译中难吗,如何做好韩语翻译

我们知道,韩语是韩国的官方语言,由于长期和中国文化的接触,历史上曾用汉字标记,并且将汉语融入其词汇,基于这一特点,韩译中难吗,如何做好韩语翻译? 据了解,中韩文化交流的历史可以追…

韩语在线翻译图片识别_3个OCR文字识别工具,最后一个许多人都不知道!

在日常生活和工作中,经常有需要录入一张图片或实物内容的文字信息的时候,对于少量内容,你或许可以轻松完成。可是一旦内容多,而你打字速度又不快的情况下,那可真的是一件非常枯燥又费力的事情。 而一般遇到这种情况,大家就可以利用OCR文字识别工具,只需简单对着物体拍张…

韩语在线翻译图片识别_如何用扫描全能王将图片转成文字?

扫描君有个写材料的朋友,每次需要摘录书或宣传册里的内容,他总是一个字一个字地敲,效率不高,还容易出错,自己也很痛苦!! 扫描君也有这样的亲身体会: 在微博、朋友圈里看到一些图片或…

韩语翻译拍照怎么弄?分享几款拍照翻译软件

拍照翻译软件是一种基于人工智能技术开发的翻译工具,它可以通过拍照识别文字,然后将文字翻译成大家选择的语言。这种翻译方式比传统的输入文字翻译更加方便快捷,无需手动输入文字,提高了翻译的效率、准确性,也提供更好…

yandex的“Search queries” report(搜索查询报告)

上一篇提到了我们查询访客关键词的入口,需要从“搜索查询”报告中点击进入,那么我们好好的来了解一下其中数据的具体含义吧~ 首先:该报告包含来自投放您的广告的搜索平台的用户查询,包括与您的关键字在语义上匹配的搜索查询。这句…

韩语识别_韩语文字识别_韩语图片识别 - 云+社区 - 腾讯云

广告关闭 腾讯云双11爆品提前享,精选热门产品助力上云,云服务器首年88元起,买的越多返的越多,最高满返5000元! 购买预付费包更加优惠 识别 小时语音不到 元 每月赠送免费额度最大程度降低客户成本 效果好 字准率 处于业界领先水平 与微信王者荣耀的语音转文字使用一套服…

【pdf翻译中文】免费自用日语pdf转中文、韩语pdf转中文(也可以转英文)或者其他小语种法语、德语pdf转中文

不是很精确、有点慢,但是也够用,胜在免费free 效果图: 一些对比: 模型来自于: https://huggingface.co/models 文件目录 调用模型的代码: 运行此段代码,执行翻译 一些简单的设置在这里…

在线翻译_英汉互译,支持繁体,韩语,日语 - 微信小程序在线翻译,单词句子翻译

打开微信,搜索页面 输入:超实用工具箱 找到上图所示的小程序点击打开,在菜单栏中找到【在线翻译】,点开进入翻译页面 有多种语言可以选择:英文,简体中文,香港,台湾,韩语&…

韩语在线翻译图片识别_最强文字识别APP

在我们日常生活和办公中,处理纸质文档上的文字是必不可免的,而当我们需要快速把纸质上的文字转换成可编辑的电子文档时候,如果单靠打字输入的话往往令人有点头疼,特别是面对字数众多的文本。此时此刻,一个识别准确 OCR…

【韩语图片文字识别】如何快速识别韩语图片文字,将文字变成电子档,进行翻译处理教程

场景:在韩语学习,韩语工作中经常遇到一些文字图片,如何将韩语图片文字从图片上扣下来,我们可以直接复制粘贴,提高我们的工作效率 我们会用到一款小工具:咕嘎ocr多语言文字识别系统 软件下载链接&#xff…

网站接入qq客服在线聊天

一. 注册一个网站专用QQ。 二. 到QQ商家设置QQ在线状态:http://wp.qq.com/set.html 免费开通设置会话类型 三、生成代码 四、将代码粘贴到自己的网站上,之后访客就可以点击图标给网站客服QQ留言了。

网站在线沟通工具,网站即时聊天工具-TTKEFU在线客服系统功能介绍

接待多渠道顾客——PC简洁版 TTKEFU客服打通web网站、移动网站、微信、APP、电话、表单、邮件等等,无论顾客来自于哪个渠道,都可以在TTKEFU客服后台统一接待。 接待多渠道顾客——PC工作台版 整合同一顾客在不同渠道不同场景的碎片化行为,将…

中国存储“军团”补位美光,存储芯片的垄断格局要崩了

‍数据智能产业创新服务媒体 ——聚焦数智 改变商业 2023年5月21日晚间,中国网络安全审查办公室官网发布了美光公司在华销售的产品未通过网络安全审查的结果。 来源:cac.gov.cn 公告内容显示,审查发现,美光公司产品存在较严重网络…

​汇集198篇论文,首篇关于Segment Anything Model的综述来了!

©PaperWeekly 原创 作者 | 小马 单位 | FightingCV公众号运营者 研究方向 | 计算机视觉 写在前面 四月份,AI Research 提出的基础分割模型 Segment Anything Model(SAM)火爆了整个网络,各种基于 SAM 的二创项目也如雨后春笋…

360集团副总裁梁志辉:大模型驱动的AI数字员工,将带来一场深刻的生产力变革丨数据猿专访...

‍数据智能产业创新服务媒体 ——聚焦数智 改变商业 近日,在360智脑大模型应用发布会上,360集团创始人周鸿祎在现场创造了自己的数字分身,充当360公司的新闻发言人,其行为和思维方式可以仿真周鸿祎本人。 据悉,数字人…

两周时间,我体验了 GPT-4 从编程‘神器’变成编程‘智障’!

前言 两周前,我让 GPT-4 从头编写一款应用程序。由于这段经历感觉良好,当时我认为 GPT-4 是非常强大的编程伙伴。然而,上周末我让 GPT-4 扩展这款应用程序,却有了完全不同的体验。 因此,我想通过本文记录整个过程&…

“两周时间,我体验了 GPT-4 从编程‘神器’变成编程‘智障’!​”

GPT-4 的出现,令许多程序员直呼“解放双手”,但随着功能需求的逐渐增多,它的编码能力似乎没那么强了。 原文链接:https://klaviyo.tech/gpt-4-from-strong-pair-coder-to-annoying-pair-coder-6e2d202d8bc0 未经授权,禁…

点亮儿童的故事世界,一种会说话的绘本,趣学伴儿童故事放映机体验

四五岁的小孩一般求知欲都特别旺盛,总喜欢听故事,要是放在几年前,我们就得放下手里的活计,翻开故事书来给孩子一页页讲,现在则没这么麻烦了,因为市面上有很多故事机可选,能够自动给孩子播放各种故事、儿歌,用起来也简单,甚至不需要我们去干预,顶多就是帮孩子把电充满…

IT小故事

Java小故事 在最初,Java语言是叫做oak(橡树)。是因为刚开始公司门口有一颗橡树。所以就叫做橡树。然后发现oak已经被美国橡树公司注册了,就不能再继续使用了。所以需要改名。而程序员最爱喝的是咖啡,盛产咖啡的岛叫做爪…