文章目录
- 语音转写调研
- 1. 科大讯飞
- 2. 百度 AI 语音技术
- 3. 阿里智能语音交互
- 4. 华为云智能语音交互
- 写在最后
语音转写调研
本文主要介绍以下几种语音转写的介绍,分享给大家。
1. 科大讯飞
语音转写(Long Form ASR)基于深度全序列卷积神经网络,将长段音频(5小时以内)数据转换成文本数据,为信息处理和数据挖掘提供基础。
语音转写是非常适合当前交互单中语音音频的转写 API。
它能够将预先录制完毕的完整音频文件,通过转写服务输出此音频对应的完整文字结果。
特点
支持多种方言
支持区分讲话人
官网文档点击进入
开发者文档
2. 百度 AI 语音技术
音频文件转写 接口可以将大批量的音频文件异步转写为文字。
适合批量录音质检、会议内容总结、录音内容分析等场景,一般12小时内返回识别接口。
产品概述
特点
语音转换的文件需要先上传至百度 BOC 或者给一个外网能够访问的链接即可
支持区分讲话人
支持单双轨识别
3. 阿里智能语音交互
录音文件识别是针对已经录制完成的录音文件,进行识别的服务。录音文件识别是非实时的,识别的文件需要提交基于 HTTP 可访问的 URL 地址,不支持提交本地文件。
产品概述
支持区分讲话人
没有百度和科大讯飞的精准度高
实时语音识别对不限时长的音频流做实时识别,达到“边说边出文字”的效果,内置智能断句,可提供每句话开始结束时间。
不支持在线转写
4. 华为云智能语音交互
SIS 语音交互服务(Speech Interaction Service,简称SIS)需要用户通过调用API接口,将语音文件识别成可编辑的文本,然后返回JSON格式的识别结果
特点
存在约束限制,例如,音频文件必须在华为的 OBS 中。
文件大小不超过 300 M。
支持区分讲话人
写在最后
个人觉得科大讯飞和百度 AI 现阶段识别率较高。
阿里云提供智能语音自学习平台公共云,支持语音学习,也是可以满足业务场景。
华为云提供语音语调,情感分析也是有自己的独特支持。
没有最好的,满足你所需要的才是最重要的。