利用科大讯飞语音合成模块SDK实现ROS语音交互

利用科大讯飞语音合成模块SDK实现ROS语音交互

本文内容与CSDN博主「AI Chen」的原创文章相同,可以直接参考原文:https://blog.csdn.net/qq_39400324/article/details/125351722快速链接
本文目的在于记录学习过程,作为笔记。
本文标记为转载。

目录

  • 利用科大讯飞语音合成模块SDK实现ROS语音交互
    • 参考及引用
    • 一、SDK下载
    • 二、语音与文字的相互转换
      • 1.语音转文字
        • Ⅰ对下载的SDK进行编译
        • Ⅱ若出现编译报错
        • Ⅲ运行语音转文字历程
      • 2.文字转语音
        • Ⅰ对下载的SDK进行编译
        • Ⅱ运行文字转语音历程
        • Ⅲ在上述基础上实现自动播放
    • 三、ROS的语音与文字转换
      • 1.语音输入转为文字
        • Ⅰ创建工作空间
        • Ⅱ修改代码文件
        • Ⅲ配置编译文件
        • Ⅳ运行代码程序
      • 2.文字输入转为语音
        • Ⅰ创建工作空间
        • Ⅱ修改代码文件
        • Ⅲ配置编译文件
        • Ⅳ运行代码程序
      • 3.使用launch文件将语音与文字实现相互转换
        • Ⅰ介绍
        • Ⅱ建立launch文件
        • Ⅲ运行代码程序
    • 四、实现语音交互
      • 1.介绍
      • 2.修改cpp文件
      • 3.配置编译文件
      • 4.创建launch文件
      • 5.运行代码程序

参考及引用

CSDN博主「AI Chen」的原创文章
本文大部分内容根据CSDN博主「AI Chen」的原创文章(遵循CC 4.0 BY-SA版权协议)所记录的笔记。
原文链接:https://blog.csdn.net/qq_39400324/article/details/125351722快速链接

————————————————————————————————————————————

一、SDK下载

讯飞开放平台:https://www.xfyun.cn/快速链接
控制台——创建新应用——下载Linux MSC

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
下载后解压,移动到Ubuntu内,我命名为Linux_aisound

二、语音与文字的相互转换

1.语音转文字

Ⅰ对下载的SDK进行编译

home/安装Ubuntu的用户名/所下载的SDK包/samples/iat_online_record_sample路径下,使用如下命令进行编译

source 64bit_make.sh

在这里插入图片描述

Ⅱ若出现编译报错

若出现编译报错,则使用该命令安装后,再编译一次,具体可参考此处

sudo apt-get install libasound2-dev

Ⅲ运行语音转文字历程

在第Ⅰ步编译完成后,会在home/安装Ubuntu的用户名/所下载的SDK包/bin/路径下产生iat_online_record_sample,在home/安装Ubuntu的用户名/所下载的SDK包/bin/路径下打开终端,运行如下指令:

./iat_online_record_sample

在这里插入图片描述

出现如下报错:

./iat_online_record_sample: error while loading shared libraries: libmsc.so: cannot open shared object file: No such file or directory

解决办法:
home/安装Ubuntu的用户名/所下载的SDK包/bin/libs/x64/路径下的libmsc.so文件复制到usr/lib/在这里插入图片描述在这里插入图片描述
可以参考原作者提供的办法

sudo cp libs/x64/libmsc.so /usr/lib/
sudo ldconfig

我i这里尝试后发现会报错,于是更改了路径后(vm123是我的用户名)就能复制成功,指令如下:

sudo cp /home/vm123/Linux_aisound/libs/x64/libmsc.so /usr/lib

复制完成后,重新运行:

./iat_online_record_sample

并进行配置:
①是否上传使用者的字符库,选择 No

②语音从哪里来,选择From microphone

最后,对着麦克风讲话,将识别并转换为文字。

2.文字转语音

Ⅰ对下载的SDK进行编译

home/安装Ubuntu的用户名/所下载的SDK包/samples/tts_online_sample路径下,使用如下命令进行编译

source 64bit_make.sh

在这里插入图片描述

Ⅱ运行文字转语音历程

在第Ⅰ步编译完成后,会在home/安装Ubuntu的用户名/所下载的SDK包/bin/路径下产生tts_online_sample,在home/安装Ubuntu的用户名/所下载的SDK包/bin/路径下打开终端,运行如下指令:

./tts_online_sample

运行结束后关闭终端,会在home/安装Ubuntu的用户名/所下载的SDK包/bin/路径下生成刚才测试产生的语音。

Ⅲ在上述基础上实现自动播放

home/安装Ubuntu的用户名/所下载的SDK包/samples/tts_online_sample/路径下修改tts_online_sample.c文件。
在这里插入图片描述
在第174行printf("合成完毕\n");后面,添加如下代码,就可以在合成之后自动播放合成的文件。

popen("play tts_sample.wav","r");

添加完成后需按照上述重新编译。

三、ROS的语音与文字转换

1.语音输入转为文字

在这里插入图片描述

Ⅰ创建工作空间

创建工作空间,命名为catkin_ws_voice_control,在工作空间创建一个功能包,命名为robot_voice,创建功能包的依赖为roscpp std_msgs
所下载的语音SDK包/include/路径下的7个.h文件复制到home/安装Ubuntu的用户名/catkin_ws_voice_control/robot_voice/include/robot_voice/路径下。
在这里插入图片描述
所下载的语音SDK包/samples/iat_online_record_sample/路径下的3个.h文件复制到home/安装Ubuntu的用户名/catkin_ws_voice_control/robot_voice/include/robot_voice/路径下。
在这里插入图片描述
所下载的语音SDK包/samples/iat_online_record_sample/路径下的3个.c文件复制到home/安装Ubuntu的用户名/catkin_ws_voice_control/src/robot_voice/src/路径下。并把iat_online_record_sample.c改为iat_publish.cpp(注意后缀更改)。
在这里插入图片描述

Ⅱ修改代码文件

首先,修改iat_publish.cpp
①头文件

#include "qisr.h"
#include "msp_cmn.h"
#include "msp_errors.h"
#include "speech_recognizer.h"

改为

#include "robot_voice/qisr.h"
#include "robot_voice/msp_cmn.h"
#include "robot_voice/msp_errors.h"
#include "robot_voice/speech_recognizer.h"

如图所示:
在这里插入图片描述

在这里插入图片描述

#include "ros/ros.h"
#include "std_msgs/String.h"int wakeupFlag   = 0 ;
int resultFlag   = 0 ;

添加后如图:
在这里插入图片描述


在这里插入图片描述

resultFlag=1;

在这里插入图片描述


在这里插入图片描述

// 初始化ROSros::init(argc, argv, "voiceRecognition");ros::NodeHandle n;ros::Rate loop_rate(10);// 声明Publisher和Subscriber// 订阅唤醒语音识别的信号ros::Subscriber wakeUpSub = n.subscribe("voiceWakeup", 1000, WakeUp);   // 订阅唤醒语音识别的信号    ros::Publisher voiceWordsPub = n.advertise<std_msgs::String>("voiceWords", 1000);  ROS_INFO("Sleeping...");int count=0;


在这里插入图片描述
在这里插入图片描述

while(ros::ok())
{// 语音识别唤醒     if(wakeupFlag){printf("Demo recognizing the speech from microphone\n");printf("Speak in 8 seconds\n");demo_mic(session_begin_params);printf("8 sec passed\n");wakeupFlag=0;}// 语音识别完成if(resultFlag){resultFlag=0;std_msgs::String msg;msg.data = g_result;voiceWordsPub.publish(msg);}ros::spinOnce();loop_rate.sleep();count++;
}


在这里插入图片描述

void WakeUp(const std_msgs::String::ConstPtr& msg)
{printf("waking up\r\n");usleep(700*1000);wakeupFlag=1;
}

⑦若需要修改15秒的语音转文字为其他时间的语音转文字,则
在这里插入图片描述

printf("Demo recognizing the speech from microphone\n");
printf("Speak in 8 seconds\n");printf("Speak in 8 seconds\n");printf("8 sec passed\n");

在这里插入图片描述

/* demo 8 seconds recording */
while(i++ < 8)sleep(1);

其次,修改linuxrec.cspeech_recognizer.c
在这里插入图片描述

#include "robot_voice/formats.h"
#include "robot_voice/linuxrec.h"


在这里插入图片描述

#include "robot_voice/speech_recognizer.h"
#include "robot_voice/qisr.h"
#include "robot_voice/msp_cmn.h"
#include "robot_voice/msp_errors.h"
#include "robot_voice/linuxrec.h"

Ⅲ配置编译文件

在这里插入图片描述
添加可执行文件:

add_executable(iat_publish src/iat_publish.cpp src/speech_recognizer.c src/linuxrec.c)

添加编译连接库:

target_link_libraries(iat_publish${catkin_LIBRARIES}libmsc.so -ldl -lpthread -lm -lrt -lasound
)

Ⅳ运行代码程序

编译功能包
(环境变量)
(运行roscore)
运行代码程序

rosrun robot_voice iat_publish

发布话题

 rostopic pub /voiceWakeup std_msgs/String "data: 'input any words'" 

2.文字输入转为语音

在这里插入图片描述

Ⅰ创建工作空间

所下载的语音SDK包/samples/tts_online_sample/路径下的tts_online_sample.c文件复制到home/安装Ubuntu的用户名/catkin_ws_voice_control/src/robot_voice/src/路径下。并把tts_online_sample.c改为tts_subscribe.cpp(注意后缀更改)。

Ⅱ修改代码文件

修改tts_subscribe.cpp
①头文件

#include "qtts.h"
#include "msp_cmn.h"
#include "msp_errors.h"

改为

#include "robot_voice/qtts.h"
#include "robot_voice/msp_cmn.h"
#include "robot_voice/msp_errors.h"

如图所示:
在这里插入图片描述

②增加ROS头文件

#include "ros/ros.h"
#include "std_msgs/String.h"

③修改代码内容
将如图所示内容删除(main函数内)
在这里插入图片描述

④在主函数内插入ros句柄

ros::init(argc,argv,"TextToSpeech");
ros::NodeHandle n;
ros::Subscriber sub =n.subscribe("voiceWords", 1000, voiceWordsCallback);
ros::spin();

在这里插入图片描述

⑤在主函数前边插入文字转语音的回调函数

void voiceWordsCallback(const std_msgs::String::ConstPtr& msg)
{
char cmd[2000];
const char* text;
int         ret                  = MSP_SUCCESS;
const char* session_begin_params = "voice_name = xiaoyan, text_encoding = utf8, sample_rate = 16000, speed = 50, volume = 50, pitch = 50, rdn = 2";
const char* filename             = "tts_sample.wav"; //合成的语音文件名称std::cout<<"I heard :"<<msg->data.c_str()<<std::endl;
text = msg->data.c_str(); /* 文本合成 */
printf("开始合成 ...\n");
ret = text_to_speech(text, filename, session_begin_params);
if (MSP_SUCCESS != ret)
{printf("text_to_speech failed, error code: %d.\n", ret);
}
printf("合成完毕\n");
popen("play tts_sample.wav","r");
sleep(1);
} 

在这里插入图片描述

⑥注释掉一部分
在这里插入图片描述

⑦修复一个错误
在这里插入图片描述

void toExit()
{printf("按任意键退出 ...\n");getchar();MSPLogout(); //退出登录
}

Ⅲ配置编译文件

将以下添加至CMakeLists.txt文件

add_executable(tts_subscribe src/tts_subscribe.cpp)
target_link_libraries(tts_subscribe${catkin_LIBRARIES}libmsc.so -ldl -pthread 
)

Ⅳ运行代码程序

编译功能包
(环境变量)
(运行roscore)
运行代码程序

rosrun robot_voice tts_subscribe

随后打开另一终端运行

rostopic pub /voiceWords std_msgs/String "data: ' 这是一个测试案例'"

若报错,可自行寻找原因,或使用我运行成功的代码https://blog.csdn.net/m0_64730542/article/details/128792625

3.使用launch文件将语音与文字实现相互转换

Ⅰ介绍

在这里插入图片描述

Ⅱ建立launch文件

①在home/安装Ubuntu的用户名/catkin_ws_voice_control/src/robot_voice/路径下创建名为launch的文件。
②新建文本,命名为repeat_voice.launch
内容为

<launch><node name="iat_publish" pkg="robot_voice" type="iat_publish" output="screen"/><node name="tts_subscribe" pkg="robot_voice" type="tts_subscribe" output="screen"/></launch>
roslaunch robot_voice repeat_voice.launch

Ⅲ运行代码程序

四、实现语音交互

1.介绍

在这里插入图片描述

2.修改cpp文件

在这里插入图片描述
①添加to_string( )函数

std::string to_string(int val) 
{char buf[20];sprintf(buf, "%d", val);return std::string(buf);
}

②修改voiceWordsCallback( )函数

void voiceWordsCallback(const std_msgs::String::ConstPtr& msg)
{char cmd[2000];const char* text;int         ret                  = MSP_SUCCESS;const char* session_begin_params = "voice_name = xiaoyan, text_encoding = utf8, sample_rate = 16000, speed = 50, volume = 50, pitch = 50, rdn = 2";const char* filename             = "tts_sample.wav"; //合成的语音文件名称std::cout<<"I heard :"<<msg->data.c_str()<<std::endl;std::string dataString = msg->data;if(dataString.find("你是谁") != std::string::npos || dataString.find("名字") != std::string::npos){char nameString[100] = "我是你的语音小助手,你可以叫我小R";text = nameString;std::cout<<text<<std::endl;}else if(dataString.find("你几岁了") != std::string::npos || dataString.find("年龄") != std::string::npos){char eageString[100] = "我已经四岁了,不再是两三岁的小孩子了";text = eageString;std::cout<<text<<std::endl;}else if(dataString.find("你可以做什么") != std::string::npos || dataString.find("干什么") != std::string::npos){char helpString[100] = "你可以问我现在时间";text = helpString;std::cout<<text<<std::endl;}else if(dataString.find("时间") != std::string::npos){//获取当前时间struct tm *ptm; long ts; ts = time(NULL); ptm = localtime(&ts); std::string string = "现在时间" + to_string(ptm-> tm_hour) + "点" + to_string(ptm-> tm_min) + "分";char timeString[40] = {0};string.copy(timeString, sizeof(string), 0);text = timeString;std::cout<<text<<std::endl;}else{text = msg->data.c_str();}/* 文本合成 */printf("开始合成 ...\n");ret = text_to_speech(text, filename, session_begin_params);if (MSP_SUCCESS != ret){printf("text_to_speech failed, error code: %d.\n", ret);}printf("合成完毕\n");popen("play tts_sample.wav","r");sleep(1);
}

3.配置编译文件

CMakeLists.txt添加

add_executable(voice_assistant src/voice_assistant.cpp)
target_link_libraries(voice_assistant${catkin_LIBRARIES} libmsc.so -ldl -pthread
)

4.创建launch文件

创建名为voice_assistant.launch的文件,内容为

<launch><node name="iat_publish" pkg="robot_voice" type="iat_publish" output="screen"/><node name="voice_assistant" pkg="robot_voice" type="voice_assistant" output="screen"/>
</launch>

5.运行代码程序

运行

roslaunch robot_voice voice_assistant.launch

然后发布

rostopic pub /voiceWakeup std_msgs/String "data: 'any words'" 

即可进行
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/49942.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

华为鲲鹏HCIA考试-练习02

文章目录 单选题多选题判断题其他练习&#xff1a;模拟考试&#xff1a; 单选题 镜像导出时&#xff0c;支持的最大镜像文件大小是? A、128GB B、64GB C、32GB D、256GB A通过源码编译制作软件包时&#xff0c;默认会把打包后的rpm包放在以下哪个目录下? A、BUILD B、SPECS …

人工智能术语库分享(包括彩云小译分享码)【更新链接】

来源&#xff1a;https://github.com/jiqizhixin/Artificial-Intelligence-Terminology-Database 内容介绍 经常使用彩云小译翻译文献&#xff0c;在网上找到这个术语库的时候很高兴&#xff0c;里面包含了很多机器学习的词汇。 我将其整理成了excel表格&#xff0c;可进行导入…

Meta 开源语音 AI 模型支持 1,100 多种语言

自从ChatGPT火爆以来&#xff0c;各种通用的大型模型层出不穷&#xff0c;GPT4、SAM等等&#xff0c;本周一Meta 又开源了新的语音模型MMS&#xff0c;这个模型号称支持4000多种语言&#xff0c;并且发布了支持1100种语言的预训练模型权重&#xff0c;最主要的是这个模型不仅支…

重磅!普惠AI--华为云语音语义万次调用1元购,有奖问答@评论区等你来!

活动快速入口&#xff1a;https://activity.huaweicloud.com/language_speech_promotion0.html 语音交互与自然语言处理 语音交互是一种人机交互方式&#xff0c;以开放API的方式提供给用户&#xff0c;用户通过实时访问和调用API获取语音交互结果。自然语言处理是针对各类企…

华为OD机试用Python实现 -【云短信平台优惠活动】(2023-Q1 新题)

华为OD机试题 华为OD机试300题大纲云短信平台优惠活动题目描述输入描述输出描述示例一输入输出说明示例二输入输出说明Python 代码实现代码编写思路华为OD机试300题大纲 参加华为od机试,一定要注意不要完全背诵代码,需要理解之后模仿写出,通过率才会高。 华为 OD 清单查看…

华为认证HCIA-Kunpeng Application Developer多选习题总结

最近参加了华为HCIA-Kunpeng Application Developer的认证考试。所以分享一下在培训和备考过程中做的一些习题。 ▣ 考试总共90分钟&#xff0c;有60个题。分别有单选、多选和判断。总分1000分&#xff0c;600分过。 多选练习题 1.TaiShan 200机架服务器包含哪些型号&#xf…

【愚公系列】华为云系列之ModelArts搭建中文语音识别系统

文章目录 前言1.ModelArts是什么 一、语音识别技术概述1.语音识别概述2.语音识别的一般原理3.信号处理与特征提取方法3.1 MFCC 4.基于深度学习的声学模型DNN-HMM 二、DFCNN全序列卷积神经网络介绍三、Transformer原理四、使用ModelArts快速上手训练DFCNNTransformer模型完成中文…

软件开发工程师个人简历模板3篇

软件开发工程师个人简历模板篇1 姓 名&#xff1a; 张先生 性 别&#xff1a; 男 婚姻状况&#xff1a; 未婚 民 族&#xff1a; 汉族 户 籍&#xff1a; 广东-珠海 年 龄&#xff1a; 28 现所在地&#xff1a; 广东-珠海 身 高&#xff1a; 168cm 希望地区&#xff1a; …

软件测试岗简历模板制作指南

Hello 大家好 &#xff1a;&#xff09;近期有很多老铁在筹备面试中&#xff0c;私信小编说帮忙看看简历&#xff0c;实在很忙&#xff0c;所以就今天抽时间出一篇相关文章&#xff0c;希望给大家带来帮助 首先说大家给我发的简历&#xff0c;其中一份简历&#xff0c;就第一眼…

程序员如何写好技术简历?

文章来源一位实验室朋友的投稿&#xff0c;斩获BAT头条等公司的offer,文末有他的公众号可以关注一下。 1.简历的重要性 各大公司每年都要接收成千上万份简历&#xff0c;但是考虑到招聘成本&#xff0c;简历要先经过系统和 HR 筛选&#xff0c;简历筛选决定了你是否有笔试和面试…

那些进大厂的程序员,「简历」都是怎么写的?我决定分享出来

你知道的越多&#xff0c;你不知道的越多 点赞再看&#xff0c;养成习惯 本文 GitHub https://github.com/JavaFamily 已收录&#xff0c;有一线大厂面试点思维导图&#xff0c;也整理了很多我的文档&#xff0c;欢迎Star和完善&#xff0c;大家面试可以参照考点复习&#xff0…

技术咖简历怎么写?腾讯技术工程事业群TEG「求职笔记」之简历撰写篇

导语&#xff1a;想来腾讯做技术吗&#xff1f; 在鹅厂做技术到底“爽”在哪&#xff1f;面试官在意你的哪些能力&#xff1f;想收到心动的校招offer&#xff1f;那就快到TEG的碗里来&#xff01; 「技术简历撰写干货」 Q1&#xff1a;请简单介绍一下校招简历。 校招学长&…

大后端开发简历模板

场 景 大家好&#xff0c;我是数据派掌门人一方清宇。今天给大家安利一个图表文并茂的简历模板&#xff0c;开箱即用。 这些年面过100一线大后端开发人员&#xff0c;好的简历确认能让人眼前一亮。 近期也陆续有朋友让帮忙鉴定大数据开发简历或提供简历模板供其参考。于是乎…

跳槽面试,外包履历能写在简历上吗?

外包的可怕之处在于心态。 如果你觉得自己没有归属感&#xff0c;每天按时上班&#xff0c;按时下班&#xff0c;做完工作就无所事事。这种工作状态&#xff0c;不管甲方还是乙方都是一个样子。 改变心态后&#xff0c;外包其实并没有想象中那么可怕&#xff0c;只要你有有能…

origin绘图操作

origin同时设置打开x轴和上下边框 双击图像内部的空白&#xff0c;在下面这个对话框中勾选显示元素-框架。 以上是chatgpt给出的操作&#xff0c;但我没找到layer properties。 上下柱状图的增减设置不同颜色&#xff1a;按住Ctrl&#xff0c;双击想要改颜色的柱子&#xff0c;…

VNCTF2023 WP

验证码 hint&#xff1a;tuppers 在线工具Tupper’s Formula Tools (tuppers-formula.ovh) 把验证码中的数字全部提取出来 159419939177025035445518308105480263158055459045678127698130297824334808857677481698114546007742213604778097220037521229335738368509996952…

【数学模型】TOPSIS

文章目录 回顾&#xff1a;层次分析法的一些局限性 一、模型介绍 1.1 引例&#xff1a; 一个简单的想法&#xff1a; 一个较好的方法&#xff1a; 1.2 增加指标&#xff1a; 统一指标类型 标准化处理 计算得分 二、TOPSIS的介绍 第一步&#xff1a;将原始矩阵正向…

【关于ChatGPT的30个问题】17、ChatGPT是否能够应用于不同类型的文本?/ By 禅与计算机程序设计艺术

17、ChatGPT是否能够应用于不同类型的文本? 目录 17、ChatGPT是否能够应用于不同类型的文本?

AI产品经理的工作内容及面试准备

ChatGPT的爆火&#xff0c;让人看到了新的生产力发展方向&#xff0c;微软也因此放弃了元宇宙&#xff0c;ALL In AI&#xff0c;各大巨头和资本也陆续进入&#xff0c;誓要打造中国版的ChatGPT&#xff0c;并觉得人工智能可以改写现有的程序应用场景&#xff0c;带来新的生产力…

分享一个图片展示特效

先上效果图&#xff1a; 备注&#xff1a;这个效果图太大了&#xff0c;压缩了一下效果有点不咋好看。感兴趣同学们可以自己运行代码看一下&#xff0c;保证不会失望~ 再上代码&#xff1a; <!DOCTYPE html> <html lang"en"> <head><meta cha…