离线语音交互技术路线之语音合成(TTS)篇

  在ChatGPT大行其道之际,我心血来潮想要研究研究如何实现离线语音交互,把它和ChatGPT相结合,自己尝试实现个语音助手玩玩。本篇文章主要先从整体上分析了离线语音交互的技术实现路线,以及每个环节可能用到的参考技术,然后详细阐述了其中一个环节:语音合成(TTS)的实现方案。

1. 离线语音交互技术路线

离线语音交互技术路线
如图所示,离线语音交互主要由以下几个流程组成:

  1. 关键词唤醒:类似于“小爱同学”这样的唤醒指令,可用参考技术:Snowboy;
  2. 获取语音:通过麦克风等收音设备将声音记录为音频文件或数字信号,可用参考技术:speech_recognition;
  3. 语音识别(ASR):将音频转换为文本,可用参考技术:Speechbrain;
  4. 语义识别(NLP):将人类能够理解的文本转化为计算机可以理解的数据,可用参考技术:NNLM等各类NLP模型;
  5. 应用层:可以通过理解指令控制设备(例如智能家居),或与chatbot(例如ChatGPT)进行交流
  6. 语音合成(TTS):将文本合成为人类语音(例如导航APP中的人声合成),可用参考技术:pyttsx3。

2. 语音合成(TTS)的实现方案

  pyttsx3能够实现将文本合成为人类语音(例如导航APP中的人声合成),详见 pyttsx3官方技术文档 。

简单测试:

import pyttsx3
text = """
这是一段测试文本。
"""
pyttsx3.speak(text)

详细使用例程:

import pyttsx3
text = """
这是一段测试文本。
"""
engine = pyttsx3.init()  # 初始化语音引擎
# 设置语音合成器
voices = engine.getProperty('voices')  # 获取当前设备支持的语音合成器列表
engine.setProperty('voice',voices[0].id)  # 设置第一个语音合成器
# 设置语速
rate = engine.getProperty('rate')  # 获取当前语速
engine.setProperty('rate', 200)  # 设置语速
# 设置音量
volume = engine.getProperty('volume')  # 获取当前音量
engine.setProperty('volume',1.0)  # 设置音量,范围为0.0-1.0  默认值为1.0engine.say(text)  # 合成语音
engine.save_to_file(text,'test.mp3')  # 保存语音为音频文件
engine.runAndWait()
engine.stop()  # 关闭语言引擎

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/24126.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Linux中文显示乱码问题

终端输入命令回显的时候中文显示乱码,出现这个情况一般是由于没有安装中文语言包,或者设置的默认语言有问题导致的。 Linux系统与windows系统在编码上有显著的差别。Windows中的文件的格式默认是GBK(gb2312),而Linux系统中文件的格式默认是UT…

解决中文乱码问题大全

相信大家在开发过程中遇到很多中文乱码的问题,为此小编在这里汇集了很多不同情况下怎么解决中文乱码,希望对大家有所帮助 1、IDEA控制台输出乱码 修改idea配置文件:找到idea的安装目录,在bin目录下找到dea64.exe.vmoptions和idea.exe.vmoptions这两个文件,分别在这两个文…

解决中文乱码的方法

今天跟路飞学习爬虫时,遇到的中文乱码。他提出了一种解决方法,而我在弹幕上也看到了一种方法。 法1:在响应数据时加一句 response.encoding response.apparent_encoding 法2: #通用处理中文乱码的解决方法img_name img_name.en…

中文乱码问题整理总结

目录 1、字符编码 2、乱码产生的原因 3、乱码解决方案 3.1、解决HTML页面中的中文问题: 3.2、解决JSP页面中的中文问题 3.3、解决Servlet响应结果的中文问题 3.4解决页面数据传输的中文问题 3.5、解决HTTP(get)请求中的中文问题 3.6、解决MySQL数据库的中文…

php echo中文乱码问题

用echo输出的中文显示成乱码, 其实应该是各种服务器脚本都会遇到这个问题, 根本还是编码问题, 一般来说出于编码兼容考虑大多的页面都将页面字符集定义为utf-8 这时候要正常显示中文需要转化一下编码方式,比如 echo iconv(“…

中文出现乱码最常见的几种方式解析

1、出现古文夹杂日韩文,以GBK读取UTF-8编码 2、出现方块形,以UTF-8读取GBK 3、各种符号,以ISO8859-1方式读取UTF-8 4、拼音码,带声调的字母,以ISO8859-1方式读取GBK 5、长度为奇数时,最后的字符变成问号&am…

SEO百度搜索引擎优化30min了解网站排名

目录 seo优化 介绍seo是什么 网站更新: 网站排名在21世纪的意义: 网站为电商引流 百度算法规则 排名流程 seo策略 规则——“学会在线球里玩” 单页面收录显示 必要条件——链接数量 日志统计——及时优化seo策略 降低识别难度 收录越多排名就越大吗 …

毕设项目《基于STM32的智能乒乓球捡球小车的设计与实现》从零开始过程笔记

毕设项目《基于STM32的智能乒乓球捡球小车的设计与实现》从零开始过程笔记 小车实物 前言 本文是后来记录而写,如有不足之处,欢迎批评指正。 如果您觉得文章写得不错,欢迎一键三连。(比心 orz) 目录 毕设项目《基于S…

全面剖析OpenAI发布的GPT-4比其他GPT模型强在哪里

最强的文本生成模型GPT-4 一、什么是GPT-4二、GPT-4的能力三、和其他GPT模型比较3.1、增加了图像模态的输入3.2、可操纵性更强3.3、复杂任务处理能力大幅提升3.4、幻觉、安全等局限性的改善3.6、风险和缓解措施改善更多安全特性3.7、可预测的扩展 四、与之前 GPT 系列模型比较五…

GPT-4 官方技术报告(译)

摘要 我们报告了GPT-4的开发情况,这是一个大规模的多模态模型,可以接受图像和文本输入并产生文本输出。虽然在许多现实世界的场景中,GPT-4的能力不如人类,但在各种专业和学术基准上表现出人类水平的性能,包括在模拟的律…

重磅突发!OpenAI正式推出多模态GPT-4

大家好,今天这篇文章是我的好朋友阿法兔翻译的,她凌晨熬夜研究了一下 OpenAI 推出的 GPT-4,基本把所有发布的内容重点都读完了,分享给大家,希望能给你一些启发。 作者 | OpenAI&TheVerge&Techcrunch 翻译 &am…

Chatbox - 一款适用于 GPT-4 / GPT-3.5 (OpenAI API) 的桌面应用程序

简介 给大家推荐一款适用于 GPT-4 / GPT-3.5 (OpenAI API) 的桌面应用程 ChatBox,开源的 ChatGPT API (OpenAI API) 跨平台桌面客户端,Prompt 的调试与管理工具,也可以用作 ChatGPT Plus 平替。 下载 ► chatBox 下载安装 ⇲ 为什么不直接…

是兄弟就来找 ChatGPT 漏洞,OpenAI:最高赏金 2 万刀

这是「进击的Coder」的第 822 篇技术分享 作者:克雷西 发自 凹非寺 来源:量子位(ID:QbitAI) “ 阅读本文大概需要 5 分钟。 ” 现在,给 ChatGPT 找漏洞有钱挣了。 今天凌晨,OpenAI 宣布开启漏洞…

chatgpt赋能python:Python配色方案:让您的代码更易于阅读和管理

Python配色方案:让您的代码更易于阅读和管理 Python是一种广泛使用的编程语言,它具有简单易学、功能强大的特点。但是,当您开始编写更复杂的代码时,遇到的主题和配色问题可能会影响代码的可读性和管理能力。 为了解决这个问题&a…

LLM系列 | 09: 基于ChatGPT构建智能客服系统(query分类安全审核防注入)

简介 竹斋眠听雨,梦里长青苔。门寂山相对,身闲鸟不猜。小伙伴们好,我是卖热干面的小女孩。紧接前面几篇ChatGPT Prompt工程系列文章: 04:ChatGPT Prompt编写指南05:如何优化ChatGPT Prompt?06:ChatGPT Prompt实践&am…

Rabbitmq使用笔记

前言 mq的优点:异步提速、解耦、流量削峰 mq的缺点: mq宕机可能导致消息丢失、消费者未成功消费如果保证整个系统架构的事务安全、消息可能被重复消费出现幂等问题、消息未被消费到引发死信问题、消息出现消费延迟或消费异常引发的顺序消费错乱问题...…

Dapr,可能是传统应用转向微服务式应用最快的技术路线

一、开篇小记 过去的一段时间,一直在赶一些项目的进度,再加上前阵子的封控,一直没有时间静下心来好好整理和总结。从这周开始,总算有时间整理点东西了,就还是继续折腾了一些关于微服务的知识点。 由于我本人呢&#…

大模型 NLP 算法 大汇总

大模型 & NLP & 算法 大汇总 订阅本专栏【大模型 & NLP & 算法 知识大礼包】,即可获取博主多年积累的关于 【大模型 & NLP & 算法】 全部资料,只要59.9!订阅成功后请主动联系博主索要资料~ 目前大模型和…

关于midjourney、novelai的订阅购买

midjourney 最近人工智能非常火热,有chatgpt、midjourney及novelai等等,在不同领域都应用广泛,关于订阅购买,这边做个记录。 购买midjourney 注册discord账户,进入社区,直接访问公共服务器,进…

Unity接入大模型(小羊驼Vicuna,vLLM,ChatGPT等)

实现在Unity内部的大模型访问,我也是第一次接触Unity中通过大模型url访问。此博客面向新手,旨在给大家简单理解大模型POST和GET过程,还有实现简单的大模型访问。 参考博客:什么是chatGPT?Unity结合OpenAI官方api实现类…