通信原理课设(gec6818) 007:语音识别

目录

1、去科大讯飞官网下载对应的sdk

2、科大讯飞文件夹的意思

3、配置ARM的录音环境

4、编程实现语音识别


我们的需求是将一个语音文件从客户端传到服务器,因此我们最好是选用tcp
    
现在市面上面常用的语音识别解决方案为:科大讯飞c和百度c++

离线语音识别和在线语音识别有一定区别,以识别“你好”为例:
在线:语音识别可以直接返回“你好”这个字符串    
离线:只能做命令词 --- 根据我的需求写好代号
           如:你好 --- 1001
           最终我们可以拿到这个1001这个id

语音解决方案没有arm的环境,因此我们需要用开发板去录音,将这个录音文件发送给乌班图,由乌班图识别出来之后返回给arm板

1、去科大讯飞官网下载对应的sdk

进入科大讯飞官网 -> 讯飞开放平台 -> 离线命令词识别 -> 免费试用
    -> 下载对应的SDK-> 跳转到对应的sdk下载界面->注意下面三个红色框框的选择(下载sdk可能会提示要实名认证,认证就好了)

2、科大讯飞文件夹的意思

每个人下载的sdk都是不一样的

进入到\samples\asr_offline_sample,可以看到有一个makefile文件,我们在编译的时候直接make就可以了。make会找Makefile去执行,make完成如果没有报错,它会在bin目录里面生成一个asr_offline_sample可执行文件。

由于我们只用x64的库,所以我们用记事本打开makefile,将x86改成x64

在执行的时候要找到这个库  我们需要将这个库弄到 /lib文件夹

 sudo cp lib/x64/libmsc.so /lib

3、配置ARM的录音环境

链接:https://pan.baidu.com/s/1LZ0Lpj9DhqpMzhzYjp0xVg?pwd=scrt 
提取码:scrt

1、首先将alsa-1.0.tar.gz这个文件拷贝到开发板的 /home
     cp /mnt/udisk/alsa-1.0.tar.gz /home

2、在home目录里面解压这个文件
     tar xvf alsa-1.0.tar.gz

3、进入  alsa-1.0这个文件夹 
     cd  alsa-1.0
     进入这个文件夹里面的bin目录
     cd bin
     将这个bin目录里面的  arecord aplay这两个文件复制到 /bin
     cp arecord aplay /bin
    
4、 然后cd ..
     进入lib这个文件夹 cd bin
     将里面so这些动态库复制到 /lib这个文件夹
     cp libasound.s* /lib

5、回到home目录
      cd /home
      在home目录里面建立一个文件夹 叫gec
      mkdir gec
      继续在gec文件夹里面建立一个文件夹alsa-1.0.22
      mkdir -p /home/gec/alsa-1.0.22
      将这个alsa-1.0整体copy 到gec文件夹里面去 并且要换一个名字叫alsa-1.0.22(必须是这个名字)
      cd /home/alsa-1.0  进入这个文件夹
      cp -rf * /home/gec/alsa-1.0.22

6、录音环境配置完成,进行测试

      录音:arecord 1.wav  (ctrl + c结束)
      放音:aplay 1.wav

      录音4s,频率16000,保存为hehe.pcm:arecord -d4 -c1 -r16000 -traw -fS16_LE hehe.pcm
      放音:aplay -d4 -c1 -r16000 -traw -fS16_LE hehe.pcm

(录音是arecord ,放音是aplay ,其他参数都是一样的)

4、编程实现语音识别

我们进行语音识别时,也是在网络编程,需要客户端和服务端。在这里,客户端是开发板,开发板进行录音,并将录音文件发送给乌班图。Ubuntu是服务端,接收开发板发送过来的录音文件,并进行语音识别,返回语句的id。

在第二部分我们知道文件夹中的bin存放可执行文件以及识别的音频。我们进入bin文件夹可以看到一个call.bnf,用记事本打开:

看到这个,我们就能知道语音识别仅仅能识别返回在call.bnf定义了id的语句,那怎么才能识别我们想要说的话呢?简单,我们自己在里面加就可以了。比如加个“打开蜂鸣器”:

有了这个基础,我们后面才能实现语音控制开发板。

现在先实现简单的语句识别,即开发板录音并将录音文件发给ubuntu,ubuntu进行语音识别,并返回对应语句的id:

建立两个文件夹:client和server

client文件夹存放客户端程序tcp_client.c

server文件夹存放科大讯飞的sdk和服务端程序tcp_sever.c

由于这次是传文件,和上一篇网络编程的传法还是有些不同的

关键代码:

tcp_client.c :

void function(void)
{unsigned char buf[1024] = {0};while(1){//首先发送文件大小//阻塞你按回车printf("按回车继续\n");getchar();//弄你的文件printf("请录音4秒........\n");//获取音频文件 system("arecord -d4 -c1 -r16000 -traw -fS16_LE hehe.pcm");int fd = open("hehe.pcm",O_RDWR);if(-1 == fd){perror("open pcm error");exit(10);}int filesize = lseek(fd,0x00,SEEK_END);lseek(fd,0x00,SEEK_SET);//偏移到开头send(sockfd,&filesize,4,0);//接收信息 "error!!!" or "next!!!!"recv(sockfd,buf,9,0);printf("11111 %s\n",buf);if(strcmp(buf,"next!!!!")){printf("服务器错误了\n");continue;}//如果是"next!!!!"发送文件while(1){int r = read(fd,buf,1024);if(-1 == r){perror("read pcm error");break;}else if(0 == r){printf("over\n");break;				}else{send(sockfd,buf,r,0);}}close(fd);//等待接收idint id;recv(sockfd,&id,4,0);	if(id == 6666){printf("打印");}printf("id ===== %d\n",id);}
}

asr_offine_sample.c :

//一个全局的科大讯飞的id  也就是我最终想要得到的结果
int FlayId = 0;//0代表一个错误值//解析出相应的id出来 id固定为4位
int StringToId(const char * str)
{int id = 0;printf("------> %s\n",str);int len = strlen(str) - 3;//固定匹配  "id="这个字符串  模式匹配用正则表达式for(int i = 0;i < len;i++){if(!strncmp(str,"id=",3)){str += 4;//id=" 这个字符串给过掉printf("------> %s\n",str);id = (str[0]-'0')*1000+(str[1]-'0')*100+(str[2]-'0')*10+(str[3]-'0'); break;}str++;//一旦没有匹配 那么我们就往后面走一个}return id;
}//语音识别  返回结果
//返回的是ID  返回0表示识别失败
int GetFlayId(void)
{int ret = run_asr(&asr_data);if(MSP_SUCCESS != ret)//识别出错{printf("离线语法识别出错: %d \n", ret);return 0;}return FlayId;
}

tcp_server.c :

void SaveFile(int accceptfd,int filesize)
{//每一次都是重复的覆盖hehe.pcmint fd = open("wav/hehe.pcm",O_RDWR | O_TRUNC | O_CREAT, 0664);//截短这个文件if(-1 == fd){send(accceptfd,"error!!!",9,0);//失败发送这个错误return;}send(accceptfd,"next!!!!",9,0);//发送下一步的指令unsigned char buf[1024] = {0};int size = 0;//接收文件的内容while(1)		{int r = recv(accceptfd,buf,1024,0);if(-1 == r){perror("recv error");break;}else if(0 == r)//客户端已经断了{printf("对方断开连接了\n");break;}else//接收到信息了{//将文件的内容写入到文件write(fd,buf,r);//做完之后要退出size += r;if(size >= filesize)break;}}close(fd);
}//专门用于去服务一个客户的线程
void * ClinetFunction(void * arg)
{pthread_detach(pthread_self());//将其分离int * accceptfd = (int *)arg;printf(" * accceptfd = %d\n", * accceptfd);int filesize = 0;//你发什么信息过来  我就在这个信息之前加上一节 然后回发给你while(1){printf("\t\t等待客户端传文件过来........\n");int r = recv(*accceptfd,&filesize,4,0);//阻塞等待数据过来if(-1 == r){perror("recv error");break;}else if(0 == r)//客户端已经断了{printf("对方断开连接了\n");break;}else//接收到信息了{//文件大小SaveFile(* accceptfd,filesize);int id = GetFlayId();//文件接收完毕  那么我们就放过去识别即可//给客户端返回idsend(* accceptfd,&id,4,0);}}close(*accceptfd);free(accceptfd);return NULL;
}

完整工程:

链接:https://pan.baidu.com/s/1thUvAArWzcqmOT6QrvGHew?pwd=yuyi 
提取码:yuyi

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/227756.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

gitLab页面打tag操作步骤

作者&#xff1a;moical 链接&#xff1a;gitLab页面打tag简单使用 - 掘金 (juejin.cn) 来源&#xff1a;稀土掘金 著作权归作者所有。商业转载请联系作者获得授权&#xff0c;非商业转载请注明出处。 ---------------------------------------------------------------------…

华为无线AC内三层漫游配置详解

重要说明 1、在一台ac中实现三层漫游 2、ac和核心的互联vlan和ap的管理vlan是同一个广播域&#xff0c;可以不用配option 43 3、直接转发模式&#xff0c;ac上可以不起业务vlan&#xff0c;ac和核心交换机上可以只放行一个互联vlan 10 4、ac上要启两个vap魔板&#xff0c;两个…

Python:正则表达式速通,码上上手!

1前言 正则表达式&#xff08;Regular Expression&#xff09;是一种用来描述字符串模式的表达式。它是一种强大的文本匹配工具&#xff0c;可以用来搜索、替换和提取符合特定模式的文本。 正则表达式由普通字符&#xff08;例如字母、数字、符号等&#xff09;和元字符&#…

网络安全—认证技术

文章目录 加密认证对称密钥体制公钥密码体制公钥的加密公钥身份认证和加密 鉴别码认证MAC鉴别码 报文摘要认证认证 加密只认证数字签名 通过了解以前前辈们使用的消息认证慢慢渐进到现代的完整的认证体系。所以在学习的时候也很蒙圈&#xff0c;因为前期的很多技术都是有很严重…

【OpenCV】OpenCV 4.9.0 正式发布

​ 开源计算机视觉库 OpenCV 4.9.0 已于2023年12月29日正式发布。 此次发布有DNN模块对ONNX Attention、Einsum等层的支持、新的fastGEMM实现、transformers的实验性支持等诸多亮点。 OpenCV 4.9.0 更新内容&#xff1a; &#xff08;来自OpenCV中国团队以及中国社区的贡献…

Java多线程<三>常见的多线程设计模式

多线程的设计模式 两阶段线程终止 park方法 interrupted() 会让他失效。 使用volatile关键字进行改写 单例模式 双锁检测 保护性暂停 实现1&#xff1a; package threadBase.model;/*** author: Zekun Fu* date: 2022/5/29 19:01* Description:* 保护性暂停&#xff0c;* …

主流级显卡的新选择,Sparkle(撼与科技)Intel Arc A750兽人体验分享

▼前言 对于玩家而言&#xff0c;英特尔独显的出现不仅打破了NVIDIA与AMD双雄天下的局面&#xff0c;而且旗下的Arc A系列显卡还拥有不俗的做工性能以及颇具优势的价格&#xff0c;无论是升级或者是装新机都非常合适。如果要在Arc A系列当中选一个性能不俗&#xff0c;能够满足…

2023年全国网络安全行业职业技能大赛数据安全管理员操作技能赛题(样题)

2023年全国网络安全行业职业技能大赛数据安全管理员操作技能赛题(样题) 2023年全国网络安全行业职业技能大赛数据安全管理员操作技能赛题(样题) 第一部分&#xff1a;数据安全防护(30%) 第二部分&#xff1a;数据安全管理(30%) 第三部分&#xff1a;数据安全处置(40%) 项目介绍…

pytorch01:概念、张量操作、线性回归与逻辑回归

目录 一、pytorch介绍1.1pytorch简介1.2发展历史1.3pytorch优点 二、张量简介与创建2.1什么是张量&#xff1f;2.2Tensor与Variable2.3张量的创建2.3.1 直接创建torch.tensor()2.3.2 从numpy创建tensor 2.4根据数值创建2.4.1 torch.zeros()2.4.2 torch.zeros_like()2.4.3 torch…

Baumer工业相机堡盟工业相机如何通过NEOAPI SDK设置相机的固定帧率(C++)

Baumer工业相机堡盟工业相机如何通过NEOAPI SDK设置相机的固定帧率&#xff08;C&#xff09; Baumer工业相机Baumer工业相机的固定帧率功能的技术背景CameraExplorer如何查看相机固定帧率功能在NEOAPI SDK里通过函数设置相机固定帧率 Baumer工业相机通过NEOAPI SDK设置相机固定…

计算机毕业设计 基于HTML5+CSS3的在线英语阅读分级平台的设计与实现 Java实战项目 附源码+文档+视频讲解

博主介绍&#xff1a;✌从事软件开发10年之余&#xff0c;专注于Java技术领域、Python人工智能及数据挖掘、小程序项目开发和Android项目开发等。CSDN、掘金、华为云、InfoQ、阿里云等平台优质作者✌ &#x1f345;文末获取源码联系&#x1f345; &#x1f447;&#x1f3fb; 精…

深度学习 | 编码器-解码器网络、seq2seq模型、束搜索算法

我们知道传统RNN输入和输出数据是等长的&#xff0c;这显然极大限制了他的应用范围。 前面几节我们讲到的循环神经网络的各种变体基本上都在解决一个序列的问题。还有一大类问题涉及到的是两个序列间转换。它是自然语言处理中的一个重要领域&#xff0c;包括机器翻译、语音识别…

【GOLANG】使用插件 Goanno 的方式来对方法、接口、结构体注释模板配置

直接 使用插件 Goanno 的方式来对方法、接口、结构体注释模板配置 1、简单安装 Goanno 插件 File->Settings->Plugins , 搜索 Goanno Normal Method 配置内容如下&#xff1a; // Title ${function_name} // Description ${todo} // Author mumu ${date} ${time} // Par…

速卖通详情API接口技术贴:解锁全球商品信息,引领电商创新潮流

一、概述 速卖通详情API接口是一种应用程序接口&#xff0c;允许开发者访问速卖通平台的商品详情数据。通过使用该API接口&#xff0c;开发者可以获取商品的基本信息、描述、图片等&#xff0c;并将其集成到自己的应用程序或网站中&#xff0c;为用户提供更全面的商品信息。 …

进阶学习——Linux系统服务器硬件认识与RAID磁盘

目录 一、服务器知识补充 1.硬件 2.服务器常见故障 二、认识RAID 1.什么是RAID 2.RAID的优点 3.RAID的实现方式 三、RAID磁盘陈列 1.RAID 0 磁盘陈列介绍——RAID 0 2.RAID 1 磁盘陈列介绍——RAID 1 3.RAID 5 磁盘陈列介绍——RAID 5 4.RAID 6 磁盘陈列介绍——RA…

解决阿里云远程连接yum无法安装问题(Ubuntu 22.04)

解决阿里云远程连接yum无法安装问题&#xff08;Ubuntu 22.04&#xff09; 第一步 进入阿里云远程连接后&#xff0c;尝试安装宝塔面包第二步&#xff1a;尝试更新软件包等一些列操作第三步&#xff1a;完成上述操作之后&#xff0c;尝试安装yum第四步&#xff1a;尝试更换清华…

代数结构与图论

文章目录 图的基本概念欧拉图与哈密顿图树平面图代数系统群与环格与布尔代数 图的基本概念 图的阶&#xff1a;图中的顶点数 &#xff0c;n 个顶点被称为 n 阶图零图&#xff1a;一条边都没有 平凡图&#xff1a;一阶零图基图&#xff1a;将有向图的各条有向边改成无向边所得到…

java springboot将接口查询数据放在系统中 一小时系统更新一次 避免用户访问接口查询数据库缓慢

真到了公司 很多数据库表 特别是常用的功能业务对应的 都是几百万条起步的数据 查询会比较缓慢 那么 我们就可以不用每次都真的查询数据库 例如 我这里有一个接口 通过 封装的 IBookService.list 函数去查询数据库 接口返回是这样的 我们先在启动类 条件装配上 这个接口所在的…

阿里云30个公共云地域、89个可用区、5个金融云和政务云地域

阿里云基础设施目前已面向全球四大洲&#xff0c;公共云地域开服运营30个公共云地域、89个可用区&#xff0c;此外还拥有5个金融云、政务云地域&#xff0c;并且致力于持续的新地域规划和建设&#xff0c;从而更好的满足用户多样化的业务和场景需求。伴随着基础设施的加速投入和…

【Java开发岗面试】八股文—Java基础集合多线程

声明&#xff1a; 背景&#xff1a;本人为24届双非硕校招生&#xff0c;已经完整经历了一次秋招&#xff0c;拿到了三个offer。本专题旨在分享自己的一些Java开发岗面试经验&#xff08;主要是校招&#xff09;&#xff0c;包括我自己总结的八股文、算法、项目介绍、HR面和面试…