【ASR技术】WhisperX安装使用

介绍

WhisperX 是一个开源的自动语音识别（ASR）项目，由 m-bain 开发。该项目基于 OpenAI 的 Whisper 模型，通过引入批量推理、强制音素对齐和语音活动检测等技术。提供快速自动语音识别（large-v2 为 70 倍实时），具有单词级时间戳和说话人分类。
WhisperX 的核心技术包括：
批量推理：利用 faster-whisper 后端，实现了高效的批量推理，大幅提升了转录速度。
强制音素对齐：通过 wav2vec2 对齐模型，提供了精确的单词级时间戳。
说话人识别：集成了 pyannote-audio 进行说话人分割，实现了多说话人 ASR。
语音活动检测（VAD）：预处理阶段使用 VAD，减少了幻听现象，同时不影响转录准确性。

安装

官网：https://github.com/m-bain/whisperx?tab=readme-ov-file
参考安装：https://www.bilibili.com/opus/902027713218347033
上面介绍的比较详细了，下面只描述一下个人安装过程遇见的问题

conda安装国内镜像源

conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud//pytorch/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/pro/#设置搜索时显示通道地址
conda config --set show_channel_urls yes

直接运行whisperx会有Timeout连接错误，程序第一次运行会去下载镜像，需要使用HuggingFace镜像源，添加到环境变量中去

HF_ENDPOINT = "https://hf-mirror.com"

遇见报错：找不到cudnn_ops64_9.dll
cudnn和cuda重新安装了一次，还是报错，最后还是手动添加到环境变量中去。

到安装目录中，手动搜索【cudnn_ops64_9.dll】，找到路径之后添加到环境变量中去

最好使用管理员身份运行【Anaconda Powershell Prompt】

使用

whisperx 1.mp3 --model large --language zh

在这里插入图片描述
精确到毫秒级的单词识别（json文件）

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/473858.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

【ASR技术】WhisperX安装使用

介绍

安装

使用

相关文章

android framework ams/wms常见系统日志（main\system\events\crash，protoLog使用）

2024年11月16日星期六重新整理Go技术

深度解读混合专家模型（MoE）：算法、演变与原理

Area-Composition模型部署指南

HTML之列表学习记录

Java基础-内部类与异常处理

C/C++中使用MYSQL

华为ensp实验二--mux vlan的应用

Redis知识分享（三）

Java基础-组件及事件处理（中）

【论文阅读】主动推理：作为感知行为的理论

HuggingFace：基于YOLOv8的人脸检测模型

React--》如何高效管理前端环境变量：开发与生产环境配置详解

SpringSecurity+jwt+captcha登录认证授权总结

计算机视觉和机器人技术中的下一个标记预测与视频扩散相结合

2024-11-17 -MATLAB三维绘图简单实例

WebAssembly在桌面级应用开发中的探索与实践

第二十一周学习周报

《Spring 基础之 IoC 与 DI 入门指南》

Vulnhub靶场案例渗透[9]- HackableIII