我参加 NVIDIA Sky Hackathon---语音识别+前端设计

一、语音识别

针对项目中要求识别的果皮,瓶子,纸箱这些物品我们选择采集以下文字对应的语音数据: 请检测出果皮

请检测出纸箱

请检测出瓶子

请检测出果皮和纸箱

请检测出纸箱和瓶子

请检测出果皮和瓶子

请检测出纸箱、果皮和瓶子

1.语音录制

我们找了许多本专业的同学和朋友使用Audacity软件录制出以上文字对应的单声道音频,并导出为 wav格式文件。

2.人工识别

收集完录音后由人工识别语音,将每个语音文件加入文件夹名为其语音内容的对应文件夹中。

3.生成训练文件

完成数据的收集后,编写python脚本,生成语音模型训练所需的json文件。脚本程序流程如下

遍历语音数据文件夹中的所有文件。

对每个语音文件建立一个字典。

由于之前整理语音文件时已经将语音文件加入其对应文字命名的文件夹中,所以可以直接知道

遍历到每个语音文件时其内部语音所对应的文字内容,将其作为字典中text关键字的值。

使用librosa库计算每段语音的时长作为字典中time关键字对应的值。

将此时的路径作为字典中path关键字的值。

使用json库将字典类型转换为json字符串。

设定训练集和测试集的比例p:q,以(p/(p+q))的概率将该json字符串加入表示训练集的json文件,以(q/(p+q))的概率将该json字符串加入表示测试集的json文件,我们这里划分的比例取了 1:1。 该过程对应的代码如下

 

4.语音模型训练

我们选择在服务器上搭建训练环境,GPU使用的是Nvidia T4,由于靠手动能收集的数据量有限,我们 把bachsize调小后运行文件开始训练,约一小时以内就能跑完200个epoch。

最后使用预训练模型和我们训练完成的模型对所有验证集中的语音模型计算字错率,经过训练后字错率下降了3个百分点

二、前端设计

本次比赛首次加入了web前端的设计环节,希望参赛者可以在官方提供界面的基础上,通过自己的设计实现出便于用户操作和美观的界面。

我们团队对于本次前端设计主要是“科技,未来,智能“,所以我们采用了Three.js 和 gsap搭建一个3D的太空场景作为我们的UI界面。

  1. 场景搭建

首先我们使用Three.js搭建一个太空背景,引入银河星空的背景图片作为我们的环境贴图,之后在场景中随机位置,添加圆球形状的几何体,模拟太空的恒星,使用gsap为每个恒星添加一个向后运动的动画,在我们所在的视角看到的就是一个在太空中前行的效果,如图所示:

2.创建机器人模型

之后添加一个未来感的机器人模型,作为我们引导者,在用户的视角彷佛就是有一个机器人在和用户进行互动,使用gsap为机器人添加机器人跟随鼠标转动方向的效果,增加用户的操作感和参与感,如图所示:

3。添加用户操作面板

添加一个用户操作面板来放我们主体的内容,用户主要在这个面板上进行我们的相关操作,面板整体采用了科技感的蓝绿色设计,底色采用了黑绿色的渐变效果,文字主要使用白色外发光的设计,一来和底色形成高度对比,方便用户阅读,而来外放光的效果有助于在深色环境中模拟亮光的效果,体现科技感和未来感。面板如图所示:

4.添加界面动效

为了体现科技和智能的整体感觉,我们需要让界面动起来,我们为面板添加一个后置的环形结构,这个结构的1/4进行填充,其余3/4为空白,之后为整个环形结构添加一个周期旋转的动画效果,实现一个在画面中,实时运动的圆环。现在画面中已经包含了背景的太空,与用户感官交互的机器人以及用户操作的控制面板,整体界面如图所示:

5.交互流程优化

现在我们实现了整体界面的设计,之后是对交互流程进行优化,我们在开始界面新增一个以机器人口吻描述的系统整体功能和操作的介绍,让用户快速了解我们的系统,添加一个加载模型的按钮来开始我们的整体流程。对于我们的整体按钮设计,为了和整套UI相适应,我们采用了蓝绿色的镂空按钮设计,同时在用户将鼠标移动到上方时,将背景颜色和字体颜色互换,实现一个提示性质的动效。

因为加载模型的过程比较冗长,所以我们为整个加载的过程添加了一个加载动画,加载动画采用了一组长度和颜色渐变的蓝绿色线段组成,通过动效与整体的界面风格适配。如图所示:

 

加载完毕后,为界面添加一个右侧的选项卡,用户可以自己切换我们系统的三项功能,单点识别语音,读取视频识别垃圾,获得FPS和mPA以及识别图片中的垃圾。选项卡初始只显示图标,用户将鼠标移动到指定模块上时,选项卡展开,显示文字内容,其具体效果如下:

6.语音识别过程

在语音识别中,我们将原始的上传文件组件隐藏,之后重写一个上传文件的组件的UI,当点击按钮时,触发上传文件的组件的点击事件,从而实现文件上传的组件和整体UI风格适配的效果,当用户上传文件后,显示识别的指令,点击识别语音,效果如下:

 

在其他的界面实现与我们设计相协调的文字,按钮和输入框等效果,实现整体UI风格一致,并且实现界面间的相互切换,所有界面的UI如下图所示:

   

 

 

 

 

   

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/28461.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

VR开发者如何把Oculus Quest中的录制视频导出

最近在开发Oculus上的一个APP,在向上级汇报的时候,录制了一段视频,那怎样把这段视频导出到个人的PC上呢? 之前用过Android Studio开发过手机的APP,之前可以在Android Studio上之间看到整个手机的目录。Oculus也是Android的系统&…

【资源】Oculus meta Quest 2游戏下载VR一体机游戏资源合集下载教程Pro

meta Oculus Quest2的VR一体机已经发布有一段时间了,虽然后起之秀的VR一体机设备陆续也发布,尤其是近期pico4的发布,但是不可否认,Quest2至今依然是VR一体机设备的生态之王,丰富的VR游戏和应用资源是其他设备望尘莫及的…

《基于Qt的VR编辑器开发》(Yanlz+Unity+SteamVR+5G+AI+VR云游戏+Qt+编辑器+跨平台+人机交互+触发事件+立钻哥哥+==)

《基于Qt的VR编辑器开发》 《基于Qt的VR编辑器开发》 版本 作者 参与者 完成日期 备注 YanlzFramework_Qt_V01_1.0 严立钻 2019.09.04 ##《基于Qt的VR编辑器开发》发布说明: “基于Qt的VR编辑器开发”:是对“Qt”的了解拓…

基于UnityXR 开发 Oculus Quest VR应用------的前期工作

开发oculus quest vr应用有两种方式: 1、基于unity xr toolkit 开发 2、直接接入oculus 原生sdk开发 方式1:使用untiy xr开发,项目会更好维护一些,用的api也都是unity xr那一套,可直接上手开发。 方式2:现成…

如何使用Oculus Quest学习SteamVR开发

在与学员朋友们的交流过程中,越来越多的朋友在报名之前会询问这样一个问题:现在并没有HTC VIVE,手头上只有一个Oculus Quest1/2,能不能报名学习课时或者是自行进行steam VR的开发?本文将介绍关于这方面的内容。. 先上结…

unity +vive(设备)+steam vr(软件)(第一天)

废话不多说,直接开始! 首先是设备! 下载我们最爱的steam!!! 同时下载一下一个叫steam VR的一个工具 主要我们就有了基本游玩vr的工具。 vr眼镜我用的是学校提供的HTC vive家的设备 unity版本是2020.3.2…

VR联机体验破圈难?VRChat进军移动端分析

4年前,VR社交应用Rec Room为了扩大用户群体,宣布进军iOS移动生态,随后又陆续登陆了PlayStation、Xbox、安卓等主流的非VR硬件平台。而近期,另一款经典VR社交应用VRChat也宣布将支持安卓移动平台。毫无疑问,跨设备对于社…

Win10系统中用Unity进行Oculus quest 2 VR开发的测试与打包

具体打包的整个流程可以参考文章: 如果是将apk文件打包在电脑上需要通过adb这个命令行工具进行安装,安装方式比较简单, 1、去官网下载适用于 Windows 的 SDK Platform-Tools 2、下载安装后配置环境变量 # 比如我的安装位置是 E:\software\install\ADB…

vrchat新手教程_VRChat入门指南| 最新电脑资讯

您知道电脑硬盘是如何读取和存储数据的吗?恢复软件是如何找回数据的吗?通过这个视频教程,你将了解你丢失的数据是否还在,这些文件能否找回。 请点击 - 》》》》 观看视频 如何安全找回丢失数据的方法 1. 下载并安装B计划数据恢复软…

分享一种虚拟现实显示的思路,多面曲面显示非头戴VR

⑴技术领域 本文主要涉及三维虚拟空间的三维坐标转换到二维平面显示时二维坐标变换关系,具体属于计算机图形领域。 ............................................................................................................. ⑵引出技术点 目前的显示方…

0基础学习VR全景平台篇 第57篇:高级功能-多语言

功能位置示意 一、本功能将用在哪里? 多语言功能,可一键设置作品界面语言为中/英文,或跟随系统自动切换中/英文,各位可以用户可以轻松制作英文版VR全景作品,满足国外用户访问的需求。 此外蛙色VR平台,可通…

小白初窥VR世界的通行证?浅聊 PCVR 串流软件 Virtual Desktop - VR与串流篇 上

什么是Virtual Desktop? Virtual Desktop (以下简称VD)是一款VR串流软件,其通过局域网低延迟、高质量的流式传输将PC端的界面同步到用户的VR头显中,给用户带来舒适且愉快的VR体验,是VR头显串流PCVR的重要助手。 VD作为VR玩家几乎人…

Unity接入百度语音识别SDK windows平台

1.先注册百度开放平台的账号,然后按文档申请试用资格及创建应用:https://ai.baidu.com/ai-doc/SPEECH/qknh9i8ed Windows平台选择“不需要”就可以了。 2.下载C# SDK包 解压以后里面包含这两个文件夹,我工程里面用的是net45,将文…

(每日更新)《虚拟现实VR资讯》(Yanlz+Unity+SteamVR+云技术+5G+AI=VR云游戏=云渲染+人机交互+立钻哥哥+==)

虚拟现实(Virtual Reality) 虚拟现实简称VR,是一种可以创建和体验虚拟世界的计算机仿真系统,它利用计算机生成一种模拟环境,是一种多源信息融合的、交互式的三维动态视景和实体行为的系统仿真使用户沉浸到该环境中。 …

微软又出大招!ChatGPT将加入云服务!

点击下方卡片,关注“CVer”公众号 AI/CV重磅干货,第一时间送达 点击进入—>CV微信技术交流群 本文转载自:机器之心 | 编辑:陈萍、蛋酱 微软动作很迅速,继 ChatGPT 或将加入 Word、PPT、Excel 后,这次微软…

UE5 Oculus Quest2 使用跨平台交互语音聊天Cross-Platform Voice Chat Pro制作语音聊天功能 1

局域网多人联机 1.WidgetMenu追加UI 2. Server按钮蓝图 3.Client按钮蓝图 备注:目前固定了局域网服务器IP地址。有兴趣的小伙伴可自行拓展。 参考:

基于腾讯云实时音视频(TRTC)的web端 多人人脸识别小游戏

场景介绍 一个双人视频互动的小游戏, 连接后,可以实时看到对方的视频情况, 根据对方的视频情况实时进行游戏操作 摇头进行控制挡板 不让球掉落。 眨眼发球。 准备工作 获取应用 SDKAppID 和 应用秘钥 登录腾讯云 搜索 实时音视频 TRTC 创…

ChatGPT的前生: Prompting思想

Prompt的思想是语言模型通往真正大一统的关键一步 。 ChatGPT目前大火,然而不少人对于ChatGPT的前辈---Prompt范式却不了解。希望通过本文,可以让读者对Prompt范式所蕴含的思想有所了解。本文不侧重细节的讲解,而重点突出Prompt范式背后的思想…

使用Python机器学习预测足球比赛结果:第一篇 数据采集 (上)

利物浦7比0狂胜曼联,这个锅不能再让C罗背了吧。预测足球比分有什么好方法吗? 微信搜索关注《Python学研大本营》,加入读者群,分享更多精彩 探索足球结果和赔率的 Python 项目。 随着数据建模成为处理随机性的强大资源&#xff0…

ChatGPT、GPT4、AutoGPT 和 MemoryGPT:初学者指南

人工智能 (AI) 不仅在改变行业,也在改变我们的日常生活。借助人工智能,我们可以改善我们的组织和生产力,让我们能够专注于真正重要的事情。在本文中,我们将探讨一些适用于日常生活的 AI 工具,以及它们如何帮助您保持井…