python实现免费同声传译 (离线语音识别+免费翻译接口+系统声音录制)

前言

前段时间碰到个英文面试,结果差点因为听不懂美式发音的python(派送)而GG了。。。我一直说的都是"派森"。。。所以就有个想法,英文电话会议的时候是不是可以做一个实时翻译的小工具,这样就可以给我这样的口语渣渣多点提示了。

So,让我们开始吧

第一步 语音识别ASR

测试了百度和AWS的语音识别效果,都还行,就是都要钱,而我的目标是给所有小伙伴免费用,所以怎么能收费呢————因此转进免费ASR库VOSK,它是用离线的模型计算的,准确性是不如在线API的,但是好在不要钱。参考地址

第二步 免费的翻译接口~

这个也是有各种API存在的,不过和前面一样的问题,折腾了几次最后决定用谷歌的免费API,每小时1000次请求,感觉也差不多刚好够用。也碰到了一些问题。好在最后搞定了。

2023.4.21更新:
谷歌关闭了cn节点,虽然可以通过修改hosts连接,但是感觉也不稳定。建议换成其他翻译sdk,比如百度翻译。

第三步 音频录制

最后发现这个才是最难的地方。。。尤其是mac平台
MAC

安装pyaudio:
1

brew install portaudio
pip3 install pyaudio

用brew按照portaudio时我报了个 Error: pkg-config: wrong number of arguments (given 1, expected 0) 错误,用brew update-reset修复了

2 安装虚拟声卡blakhole 这东西的作用是把系统声音做成一个输入。而pyaudio只能抓输入。

brew install blackhole-2ch

3 设置MIDI
mac应用中搜索midi设置
新增一个多输出设备,选择blackhole和你的耳机或者扬声器。这样声音就会既被你听到,又被blackhole转成了一个输出。增加完之后需要右键将这个设备设置成输出设备。

在这里插入图片描述

测试代码

# -*- coding: utf-8 -*-
# @date    : 2022/3/1 2:52 下午
# @author  : meng_zhihao
# @email   : 312141830@qq.com
import sounddevice as sd
import scipy.io.wavfile# Recording properties
SAMPLE_RATE = 48000
SECONDS = 10# Channels
MONO = 1
STEREO = 2print(sd.query_devices())  # 打印设备列表 这里的输出设备会显示为>xxx
# Command to get all devices listed: py -m sounddevice
# Device you want to record
# sd.default.device = "外置麦克风"
# 貌似mac有坑
sd.default.device[0] = 0  # 我的BlackHole是第0个设备,所以这里sd.default.device[0] = n, n选择0
fs = 48000
sd.default.samplerate = fsprint(f'Recording for {SECONDS} seconds')# Starts recording
recording = sd.rec(int(SECONDS * SAMPLE_RATE), samplerate=SAMPLE_RATE, channels=MONO)
sd.wait()  # Waits for recording to finish
print("done recording")
scipy.io.wavfile.write("test3.wav", SAMPLE_RATE, recording, )  # 貌似文件名不能重

代码整合

最后的成品项目地址:https://github.com/MemoryAndDream/freeRealtimeTranslation/

似乎谷歌翻译挂了。。。先关博客

windows

windows 研究了一下发现和mac的区别是不需要装什么额外的虚拟声卡。
开始-运行-输入mmsys.cpl 录制-右键立体混音-启用 然后在脚本里选择立体混音对应的设备编号即可。

更多语言支持

实际上这个工具也可以在你看外语视频的时候实时翻译,所以————
加上VOSK的日语库就能翻译日语了呢。。。。。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/35150.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

uni-app 微信同声传译,实现AI语音功能(语音转文字,文字转语音,英汉互译

uni-app 微信同声传译,实现AI语音功能(语音转文字,文字转语音,英汉互译) 一:添加插件1、登录微信公众号平台,进入左边导航栏的设置,选择第三方设置,,添加插件…

小程序之定位语音识别=>插件:微信同声传译

说明:文章部分内容及图片出自网络,如有侵权请与我本人联系(主页有公众号:小攻城狮学前端) 作者:小只前端攻城狮、 主页:小只前端攻城狮的主页、 首发:掘金 GitHub:P-J27、 CSDN:PJ想做前端攻城狮 著作权归作…

关于使用微信同声传译报错的问题

最近开发微信小程序,需要用到语音识别的功能,于是就用了微信官方的微信同声传译的插件,但是使用的时候报错了,我使用了云开发,后来经过这是误报,可以忽略,类似的报错也是可以忽略的

百度新突破:AI同声传译系统STACL,可预测,低延迟

文章来源:ATYUN AI平台 百度开发了新的AI系统,名为同声传译和预期与可控延迟(STACL),百度声称这代表了自然语言处理的重大突破。 与大多数AI翻译系统不同,STACL能够在演讲者讲话后几秒钟开始翻译&#x…

语音识别+语音合成+同声传译 微信小程序

语音识别语音合成同声传译 微信小程序 代码库链接为:https://github.com/Resulte/SpeechProcessMiniProgram (希望您去Github的时候顺便给个Star) 项目预览 扫描下方小程序码,即可查看预览: 主页 语音识别 #### 语…

“同声传译”的难度有多大?

同声传译,简称“同传”,又称“同声翻译”、“同步口译”,是指译员在不打断讲话者讲话的情况下,不间断地将内容口译给听众的一种翻译方式。 同声传译作为一种翻译方式,其最大特点在于效率高,原文与译文翻译…

小程序=》添加同声传译插件,做简单的播放文本功能

一、进入小程序管理后台,菜单拉到最底下的“设置” 二、设置》第三方设置》插件管理》添加插件,输入“微信同声传译”即可添加 三、修改app.json文件,plugins节点下增加 "WechatSI": {"version": "0.3.5",&qu…

中英同声传译,线上同声传译服务

疫情期间,线上会议需求量激增,英信翻译升级同传翻译功能,制定线上同传大会解决方案,可远程快速接入,以线上同传(云同传)形式为大会提供全流程实时同传翻译服务。 3月份,“中信证券年度业绩交流会”会议以网…

交替传译和同声传译哪个难

我们知道,交替传译和同声传译是会议口译的高级形式。在涉外会议和商务活动中,往往根据需要采用这两种不同的口译方式。那么,针对交替传译Consecutive Interpreting和同声传译 Simultaneous Interpretation,这两种口译方式哪种比较…

使用微信同声传译插件开发一款翻译类的小程序

使用微信同声传译插件开发一款翻译类的小程序 1. 微信同声传译插件简介 1.1 微信同声传译插件有三个功能:语音输入、文本翻译、语音合成。可参考微信开发文档https://developers.weixin.qq.com/miniprogram/dev/platform-capabilities/extended/translator.html 2. …

Taro 微信同声传译插件使用详解

最近在做语音交互用到了 微信同声传译插件 ,下面介绍一下这个插件的用法 1.首先在微信公众后台添加 同声传译插件 正式开始使用微信同声传译小程序插件之前需先在微信公众平台 -> 第三方设置 -> 插件管理处添加插件,点击详情可以查看文档。如下图…

微信小程序使用同声传译实现语音识别功能

微信小程序使用同声传译实现语音识别功能 我使用同声传译语音识别功能是为了实现微信小程序首页的语音搜索功能,如果你也是那么恭喜你,你可以ctrlc、ctrlv再改一改,如果你不是那么你也不要着急的走可以看完我的文章会对你有所帮助&#xff0…

微信小程序同声传译使用总结

最近在做项目中需要使用录音转文字,之前用微信SDK可以直接使用wx.translateVoice({}),但是小程序中没有提供此类方法,没办法只能查资料解决了,看了好多大多是保存当前录音文件掉讯飞接口实现语音转译,还需要…

(保姆教程及高级玩法及坑)微信同声传译插件-语音识别

目录 一、背景 二、效果 ​编辑 三、保姆级教程 3.1 小程序后台添加插件:微信同声传译 3.1.1 设置 -> 第三方设置 -> 添加插件 3.1.2 搜索插件 3.1.3 成功添加后,点击详情 3.1.4 复制它的AppID和最新版本号(后序有用) …

微信小程序语音识别、语音合成(微信同声传译)使用代码实例

最近在开发一款“单词大作战”的微信小程序,想增加语音识别、语音合成这2个功能。(让用户能听到单词的读音,并对比自己读音是否标准正确)。 查了一下资料,大概有几种方式:用百度翻译(需要配置后…

同声传译,主要难在哪里?

搜狗的机器翻译团队成绩有目共睹,而且搜狗同传也是国内目前唯一曾应用于大型会议的语音识别机器翻译系统,从去年世界互联网大会上,搜狗CEO王小川首秀了这项技术。随后,搜狗同传又在香港科技大学学术讲座、前哨大会、GMIS大会上“炫…

使用微信同声传译,实现页面滑动播放

一、添加微信同声传译插件 由于目前使用官方推荐的添加方式无法查找到微信同声传译插件,因此,我们直接使用微信服务平台进行添加,操作步骤如下: 1.点击微信服务平台链接,下滑找到微信同声传译 2.点击添加插件按钮&am…

线上Debug,学会Arthas拿捏所有bug

点击上方“Java基基”,选择“设为星标” 做积极的人,而不是积极废人! 每天 14:00 更新文章,每天掉亿点点头发... 源码精品专栏 原创 | Java 2021 超神之路,很肝~中文详细注释的开源项目RPC 框架 Dubbo 源码解析网络应…

中国首档程序员真人秀,20位选手找bug做模型,结果一开场主办方就惨遭攻击...

金磊 杨净 发自 凹非寺 量子位 报道 | 公众号 QbitAI 终于!终于!终于! 以程序员为主题的综艺真人秀,真真儿的诞生了! 你以为是参赛选手都会是秃头、黑眼圈,21岁拥有40岁的面容? 图源&#xff1a…

跑分达ChatGPT的99%,人类难以分辨!开源「原驼」爆火,iPhone都能微调大模型了...

梦晨 发自 凹非寺量子位 | 公众号 QbitAI 自动测试分数达到ChatGPT的99.3%,人类难以分辨两者的回答…… 这是开源大模型最新成果,来自羊驼家族的又一重磅成员——华盛顿大学原驼(Guanaco)。 更关键的是,与原驼一起提出…