谷歌开源Live Transcribe语音识别转文字工具

谷歌开源Live Transcribe语音识别转文字工具

news/2024/11/24 18:37:46/文章来源:https://blog.csdn.net/bingbob/article/details/99790079

640?wx_fmt=gif

8月18日，Google宣布开源Android语音识别转录工具Live Transcribe的语音引擎。

这家公司希望这样做可以让任何开发人员为长篇对话提供字幕，减少因网络延迟、断网等问题导致的沟通障碍。源代码现在可以在GitHub上获得。这意味着无论你是出国或是与新朋友见面，Live Transcribe都可以帮助你进行沟通。

640?wx_fmt=png

交流时可以实时畅通（只要有网络）

Google于今年2月发布了Live Transcribe。该工具使用机器学习算法将音频转换为实时字幕，与Android即将推出的Live Caption功能不同，Live Transcribe是一种全屏体验，使用智能手机的麦克风（或外接麦克风），并依赖于Google Cloud Speech API。Live Transcribe可以用70多种语言和方言标题实时口语。另一个主要区别是Live Transcribe可在18亿台Android设备上使用（当Live Caption在今年晚些时候推出时，它只适用于部分Android Q设备）。

在云上工作

Google的Cloud Speech API目前不支持发送无限长的音频流。此外，依赖云意味着网络连接、数据成本和延迟方面都有潜在问题。

结果，语音引擎在达到超时之前关闭并重新启动流请求，包括在长时间静默期间重新开始会话并且每当语音中检测到暂停时关闭。在会话之间，语音引擎还在本地缓冲音频，然后在重新连接时发送它。因此，Google避免了截断的句子或单词，并减少了会话中丢失的文本量。

640?wx_fmt=png

70多种语言和方言中挑选自己合适的

为了降低带宽需求和成本，Google还评估了不同的音频编解码器：FLAC，AMR-WB和Opus。FLAC（无损编解码器）可以保持准确性，不会节省太多数据，并且具有明显的编解码器延迟。AMR-WB可以节省大量数据，但在嘈杂的环境中准确度较低。

与此同时，Opus允许数据速率比大多数音乐流媒体服务低许多倍，同时仍保留音频信号的重要细节。Google还会在长时间的静音期间使用语音检测来关闭网络连接。

总体而言，该团队能够实现“在不影响准确性的情况下，将数据使用量减少10倍”。

为了比Cloud Speech API更进一步减少延迟，Live Transcribe使用自定义Opus编码器。编码器恰好提高了比特率，使“延迟在视觉上无法区分发送未压缩的音频”。

长按二维码，关注我们

640?wx_fmt=jpeg

新睿云，让云服务触手可及

云主机｜云存储｜云数据库｜云网络

640?wx_fmt=jpeg

640?wx_fmt=jpeg

640?wx_fmt=jpeg

640?wx_fmt=jpeg

640?wx_fmt=jpeg

640?wx_fmt=jpeg

640?wx_fmt=gif

点击“阅读原文”参与活动

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/62196.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

python简单实现文字转语音，语音识别

python简单实现文字转语音，语音识别

直接语音合成需要安装 pip3 install pyttsx3 pip3 install pypiwin32 安装pyttsx3的时候出错，结果重装了一次python才行。。。 tips:最后本人安装的版本是3.6 import pyttsx3 # 初始化 engine pyttsx3.init()engine.say(我要开始语音合成) engine.say(好好学习&am…

阅读更多...

语音识别（语音转文字）语音合成（文字转语音）

语音识别（语音转文字）语音合成（文字转语音）

【语音合成API】SpeechSynthesisUtterance是HTML5中新增的API,用于将指定文字合成为对应的语音.也包含一些配置项,指定如何去阅读(语言,音量,音调)等 // 语音播报speek (content) {let message new SpeechSynthesisUtterance()message.text contentmessage.lang zh-CNmessag…

阅读更多...

手把手使用Python语音识别，进行语音转文字

手把手使用Python语音识别，进行语音转文字

目录 0. 太长不看系列，直接使用识别结果 1. Python调用标贝科技语音识别接口，实现语音转文字 1.1 环境准备： 1.2 获取权限 1.2.1 登录 1.2.2 创建新应用 1.2.3 选择服务 1.2.4 获取Key&Secret 2. 代码实现 2.1 获取access_to…

阅读更多...

语音识别1-3语音克隆-语音转文字-聊天盒子-python

语音识别1-3语音克隆-语音转文字-聊天盒子-python

语音识别文本合成语音克隆声音项目语音转文字bug解决文字转语音不保存文件转语音重复自己刚说过的话聊天盒子环境信息 B站教学视频跳转音频格式在线转换： https://www.aconvert.com/cn/audio/m4a-to-mp3/ 或者用格式工厂文本合成语音 from gtts import gTTS …

阅读更多...

Android语音转文字一识别语音

Android语音转文字一识别语音

项目地址：https://github.com/zhanlv/VtDemo 讯飞AndroidSDK文档：https://doc.xfyun.cn/msc_android/%E9%A2%84%E5%A4%87%E5%B7%A5%E4%BD%9C.html 讯飞语音SDK不提供android平台语音转写的功能（只支持java平台，当然android可以通…

阅读更多...

语音识别，将语音转换成文字

语音识别，将语音转换成文字

通常，我们在不想打字的时候，就会给别人发语音。但是如果你想把你说的一段话给它转换成文字，该怎么操作呢？今天就来给大家分享一个技能，快速的将语音转换成文字。无论是写文章，或者做会议记录，…

阅读更多...

语音识别（利用python将语音转化为文字）

语音识别（利用python将语音转化为文字）

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、申请讯飞语音端口1.点击链接进入讯飞平台主页面2.在页面注册自己的个人账户3.申请语音端口4.查看自己的端口编码二、python代码讲解1.代码如下&#xff08…

阅读更多...

chatglm-6b_ptuning error:bash .sh，出现ModuleNotFoundError

chatglm-6b_ptuning error:bash .sh，出现ModuleNotFoundError

文章目录模型效果演示问题描述分析一分析二 ChatGLM-6B是一个由清华大学和智谱AI联合研发的开源对话语言模型。它是一个支持中英双语问答的对话系统，并在中文方面进行了特别的优化。该模型基于General Language Model (GLM)架构，具有62亿参数。借助模型…

阅读更多...

【自然语言处理】【大模型】用于大型Transformer的8-bit矩阵乘法介绍

【自然语言处理】【大模型】用于大型Transformer的8-bit矩阵乘法介绍

用于大型Transformer的8-bit矩阵乘法介绍原文地址：A Gentle Introduction to 8-bit Matrix Multiplication for transformers at scale using transformers, accelerate and bitsandbytes 相关博客【深度学习】【分布式训练】Collective通信操作及Pytorch示例【自…

阅读更多...

简单易懂------使用PyTorch实现Chatbot

简单易懂------使用PyTorch实现Chatbot

本系列文章通过通俗易懂的方式介绍强化学习的基本概念，虽然语言通俗，但是内容依旧非常严谨性。文中用很多的公式，对数学公式头疼的读者可能会被吓住，但是如果读者一步一步follow下来，就会发现公式的推导非常自然&#…

阅读更多...

Hugging Face Transformer：从原理到实战的全面指南

Hugging Face Transformer：从原理到实战的全面指南

一、前言前面我面介绍过ChatGPT的基本原理以及预训练大语言模型的发展史，我们知道ChatGPT和所有预训练大语言模型的核心是什么？其实就是 Transformer，Hugging Face 的火爆离不开他们开源的这个 Transformers 库。这个开源库里有数万个我们可…

阅读更多...

[AI存储] NLP 和 AI: 数据存储在推动生成式 AI 工具中的作用

[AI存储] NLP 和 AI: 数据存储在推动生成式 AI 工具中的作用

很少有技术现象像新一批生成式 AI 工具（如Dall-E和ChatGPT）那样迅速流行起来。似乎一夜之间，这些引人入胜的新应用正被各种各样的人用于不同的应用 – 从内容原创到邮件和报告撰写、软件开发、内容研究等等。特别是ChatGPT，由于其…

阅读更多...

微信小程序云开发实现一对一即时聊天，发送语音、文件、图片、朋友圈、添加好友等功能

微信小程序云开发实现一对一即时聊天，发送语音、文件、图片、朋友圈、添加好友等功能

点此源码获取前几篇博文前几篇文章实现了，利用云开发的即时通信demo做的仿照微信好友聊天。本篇文章主要在前几篇的基础上进行的修改，实现即时一对一聊天，群聊天，发送文件图片，发送语音，更换聊天背景…

阅读更多...

微信小程序目前最新的授权登录接口-2021年10月份

微信小程序目前最新的授权登录接口-2021年10月份

微信小程序目前最新的授权登录接口-2021年10月份效果图： 说明：首先我们需要在app.js里用云函数获取到openid,然后在用户点击登录的时候用获取到的openid去用户表里查询是否有该用户，如果没有就把用户信息写入数据库里的用户表，再…

阅读更多...

微信小程序原生接入腾讯云im（单聊，列表，聊天界面，自定义消息，自动回复）

微信小程序原生接入腾讯云im（单聊，列表，聊天界面，自定义消息，自动回复）

微信小程序原生接入腾讯云im（单聊，列表，聊天界面，自定义消息，自动回复） 发送图片语音消息传送→ 文章目录 1.项目需求 2.参考文档 3.效果图 4.初始化集成SDK 5.登录 6.会话列表 7.聊天页面 8.遇到的问…

阅读更多...

微信小程序接入腾讯云IM即时通讯（发送消息开发步骤）

微信小程序接入腾讯云IM即时通讯（发送消息开发步骤）

微信小程序接入腾讯云IM即时通讯（聊天窗口） 1.效果图： 2.功能点 ： 1.布局要分左右两边布局，如果是自己为发送消息方，都在右边，对方发送的消息在左边。 2.腾讯云返回的是时间戳，需…

阅读更多...

uniapp小程序接入腾讯IM聊天

uniapp小程序接入腾讯IM聊天

腾讯IM中创建项目拿到AppID 与密钥下载demo 将debug 文件夹拖到自己项目中在第一个js文件中填入自己项目的APPID 与密钥下载（tim-wx-sdk 上传文件的依赖看项目所需 import TIM from tim-wx-sdk; import TIMUploadPlugin from tim-upload-plugin; let optio…

阅读更多...

用最通俗易懂的语言告诉你什么是信息熵

用最通俗易懂的语言告诉你什么是信息熵

图和公式都挂了，想看原文的小伙伴去公众号后台回复”信息熵”即可假设有个考试作弊团伙，需要连续不断地向外传递4选1单选题的答案。直接传递ABCD的ascii码的话，每个答案需要8个bit的二进制编码，从传输的角度，这显然有…

阅读更多...

外景黑纱婚纱照高级感十足

外景黑纱婚纱照高级感十足

婚纱照不止有自然小清新(＆还可以暗黑高级看腻了千篇一律的白色婚纱礼服炎追求个性、与众不同的仙女们不妨尝试一下黑色婚纱🖤 黑纱不一定只有酷和暗黑也有法式赫本风的复古优雅满满的氛围感和高级感 🎬 女生的拖尾黑裙神秘又优雅 …

阅读更多...

福州一般拍一套婚纱照要多少钱

福州一般拍一套婚纱照要多少钱

随着婚纱摄影行业发展以来，近几年选择婚纱照旅拍的准新人越来越多了。相信每一位新人对于这些都是第一次没有经验的，所以也不太清楚行情，不知道选择怎么样的套餐，那小编就来科普一下现在旅拍的行情，让你们在选择婚纱照…

阅读更多...

最新文章

推荐文章