# 微调Whisper语音识别模型和加速推理
简体中文
## 前言
OpenAI在开源了号称其英文语音辨识能力已达到人类水准的Whisper项目,且它亦支持其它98种语言的自动语音辨识。Whisper所提供的自动语音识与翻译任务,它们能将各种语言的语音变成文本,也能将这些文本翻译成英文。本项目主要的目的是为了对Whisper模型使用Lora进行微调,**支持无时间戳数据训练,有时间戳数据训练、无语音数据训练**。目前开源了好几个模型,具体可以在[openai](https://huggingface.co/openai)查看,下面列出了常用的几个模型。另外项目最后还支持CTranslate2加速推理和GGML加速推理,提示一下,加速推理支持直接使用Whisper原模型转换,并不一定需要微调。支持Windows桌面应用,Android应用和服务器部署。
### 请先点`star`
## 支持模型
- openai/whisper-tiny
- openai/whisper-base
- openai/whisper-small
- openai/whisper-medium
- openai/whisper-large
- openai/whisper-large-v2
**使用环境:**
- Anaconda 3
- Python 3.8
- Pytorch 1.13.1
- Ubuntu 18.04
- GPU A100-PCIE-40GB*1
### 视频讲解:[哔哩哔哩](https://www.bilibili.com/video/BV1S8411o7rm/)
### 演示地址:[Web部署](http://whisper.yeyupiaoling.cn:8081/)
## 目录
- [项目主要程序介绍](#项目主要程序介绍)
- [模型测试表](#模型测试表)
- [安装环境](#安装环境)
- [准备数据](#准备数据)
- [微调模型](#微调模型)
- [单卡训练](#单卡训练)
- [多卡训练](#多卡训练)
- [合并模型](#合并模型)
- [评估模型](#评估模型)
- [预测](#预测)
- [加速预测](#加速预测)
- [GUI界面预测](#GUI界面预测)
- [Web部署](#Web部署)
- [接口文档](#接口文档)
- [Android部署](#Android部署)
- [Windows桌面应用](#Windows桌面应用)
- [打赏作者](#打赏作者)
<a name='项目主要程序介绍'></a>
## 项目主要程序介绍
1. `aishell.py`:制作AIShell训练数据。
2. `finetune.py`:微调模型。
3. `merge_lora.py`:合并Whisper和Lora的模型。
4. `evaluation.py`:评估使用微调后的模型或者Whisper原模型。
5. `infer_tfs.py`:使用transformers直接调用微调后的模型或者Whisper原模型预测,只适合推理短音频。
6. `infer_ct2.py`:使用转换为CTranslate2的模型预测,主要参考这个程序用法。
7. `infer_gui.py`:有GUI界面操作,使用转换为CTranslate2的模型预测。
8. `infer_server.py`:使用转换为CTranslate2的模型部署到服务器端,提供给客户端调用。
9. `convert-ggml.py`:转换模型为GGML格式模型,给Android应用或者Windows应用使用。
10. `AndroidDemo`:该目录存放的是部署模型到Android的源码。
11. `WhisperDesktop`:该目录存放的是Windows桌面应用的程序。
<a name='模型测试表'></a>
## 模型测试表
1. 原始模型字错率测试表。
| 使用模型 | 指定语言 | aishell_test | test_net | test_meeting | 下载地址 | CTranslate2 | GGML |
|:----------------:|:-------:|:------------:|:--------:|:------------:|:----------------------------------------------------------------:|:----------------------------------------------------------------:|:----------------------------------------------------------------:|
| whisper-tiny | Chinese | 0.31898 | 0.40482 | 0.75332 | [点击下载](https://pan.baidu.com/s/1q8xHr71XPe1dnRHv2IzldQ?pwd=wjrf) | [点击下载](https://pan.baidu.com/s/1Rg8KM1gDKLw8kObZEJQG1A?pwd=hnhe) | [点击下载](https://pan.baidu.com/s/1AjkdrF2YC5oP_CiGtAtZKg?pwd=4w9k) |
| whisper-base | Chinese | 0.22196 | 0.30404 | 0.50378 | [点击下载](https://pan.baidu.com/s/1q8xHr71XPe1dnRHv2IzldQ?pwd=wjrf) | [点击下载](https://pan.baidu.com/s/1Rg8KM1gDKLw8kObZEJQG1A?pwd=hnhe) | [点击下载](https://pan.baidu.com/s/1AjkdrF2YC5oP_CiGtAtZKg?pwd=4w9k) |
| whisper-small | Chinese | 0.13897 | 0.18417 | 0.31154 | [点击下载](https://pan.baidu.com/s/1q8xHr71XPe1dnRHv2IzldQ?pwd=wjrf) | [点击下载](https://pan.baidu.com/s/1Rg8KM1gDKLw8kObZEJQG1A?pwd=hnhe) | [点击下载](https://pan.baidu.com/s/1AjkdrF2YC5oP_CiGtAtZKg?pwd=4w9k) |
| whisper-medium | Chinese | 0.09538 | 0.13591 | 0.26669 | [点击下载](https://pan.baidu.com/s/1q8xHr71XPe1dnRHv2IzldQ?pwd=wjrf) | [点击下载](https://pan.baidu.com/s/1Rg8KM1gDKLw8kObZEJQG1A?pwd=hnhe) | [点击下载](https://pan.baidu.com/s/1AjkdrF2YC5oP_CiGtAtZKg?pwd=4w9k) |
| whisper-large | Chinese | 0.08969 | 0.12933 | 0.23439 | [点击下载](https://pan.baidu.com/s/1q8xHr71XPe1dnRHv2IzldQ?pwd=wjrf) | [点击下载](https://pan.baidu.com/s/1Rg8KM1gDKLw8kObZEJQG1A?pwd=hnhe) | [点击下载](https://pan.baidu.com/s/1AjkdrF2YC5oP_CiGtAtZKg?pwd=4w9k) |
| whisper-large-v2 | Chinese | 0.08817 | 0.12332 | 0.26547 | [点击下载](https://pan.baidu.com/s/1q8xHr71XPe1dnRHv2IzldQ?pwd=wjrf) | [点击下载](https://pan.baidu.com/s/1Rg8KM1gDKLw8kObZEJQG1A?pwd=hnhe) | [点击下载](https://pan.baidu.com/s/1AjkdrF2YC5oP_CiGtAtZKg?pwd=4w9k) |
2. 微调数据集后字错率测试表。
| 使用模型 | 指定语言 | 数据集 | aishell_test | test_net | test_meeting | 下载地址 | CTranslate2 | GGML |
|:----------------:|:-------:|:----------------------------------------------------------:|:------------:|:--------:|:------------:|:----------------------------------------------------------------:|:----------------------------------------------------------------:|:----------------------------------------------------------------:|
| whisper-tiny | Chinese | [AIShell](https://openslr.magicdatatech.com/resources/33/) | 0.13043 | 0.4463 | 0.57728 | [点击下载](https://pan.baidu.com/s/1hIximy9ddN3cMHN4_VdhnQ?pwd=nfc2) | [点击下载](https://pan.baidu.com/s/1H-OBD9L0hYV-M_WoPEbiJA?pwd=8hbb) | [点击下载](https://pan.baidu.com/s/1HV6q0JvCRwDSYtMIzD33aw?pwd=h0bn) |
| whisper-base | Chinese | [AIShell](https://openslr.magicdatatech.com/resources/33/) | 0.08999 | 0.33089 | 0.40713 | [点击下载](https://pan.baidu.com/s/1hIximy9ddN3cMHN4_VdhnQ?pwd=nfc2) | [点击下载](https://pan.baidu.com/s/1H-OBD9L0hYV-M_WoPEbiJA?pwd=8hbb) | [点击下载](https://pan.baidu.com/s/1HV6q0JvCRwDSYtMIzD33aw?pwd=h0bn) |
| whisper-small | Chinese | [AIShell](https://openslr.magicdatatech.com/resources/33/) | 0.05452 | 0.19831 | 0.24229 | [点击下载](https://pan.baidu.com/s/1hIximy9ddN3cMHN4_VdhnQ?pwd=nfc2) | [点击下载](https://pan.baidu.com/s/1H-OBD9L0hYV-M_WoPEbiJA?pwd=8hbb) | [点击下载](https://pan.baidu.com/s/1HV6q0JvCRwDSYtMIzD33aw?pwd=h0bn) |
| whisper-medium | Chinese | [AIShell](https://openslr.magicdatatech.com/resources/33/) | 0.03681 | 0.13073 | 0.16939 | [点击下载](https://pan.baidu.com/s/1hIximy9ddN3cMHN4_VdhnQ?pwd=nfc2) | [点击下载](https://pan.baidu.com/s/1H-OBD9L0hYV-M_WoPEbiJA?pwd=8hbb) | [点击下载](https://pan.baidu.com/s/1HV6q0JvCRwDSYtMIzD33aw?pwd=h0bn) |
| whisper-large-v2 | Chinese | [AIShell](https://openslr.magicdatatech.com/resources/33/) | 0.03139 | 0.12201 | 0.15776 | [点击下载](https://pan.baidu.com/s/1hIximy9ddN3cMHN4_VdhnQ?pwd=nfc2) | [点击下载](https://pan.baidu.com/s/1H-OBD9L0hYV-M_WoPEbiJA?pwd=8hbb) | [点击下载](https://pan.baidu.com/s/1HV6q0JvCRwDSYtMIzD33aw?pwd=h0bn) |
| whisper-tiny | Chinese | [WenetSpeech](./tools/create_wenetspeech_data.py) | 0.17711 | 0.24783 |
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
项目主要程序介绍 aishell.py:制作AIShell训练数据。 finetune.py:微调模型。 merge_lora.py:合并Whisper和Lora的模型。 evaluation.py:评估使用微调后的模型或者Whisper原模型。 infer_tfs.py:使用transformers直接调用微调后的模型或者Whisper原模型预测,只适合推理短音频。 infer_ct2.py:使用转换为CTranslate2的模型预测,主要参考这个程序用法。 infer_gui.py:有GUI界面操作,使用转换为CTranslate2的模型预测。 infer_server.py:使用转换为CTranslate2的模型部署到服务器端,提供给客户端调用。 convert-ggml.py:转换模型为GGML格式模型,给Android应用或者Windows应用使用。 AndroidDemo:该目录存放的是部署模型到Android的源码。 WhisperDesktop:该目录存放的是Windows桌面应用的程序
资源推荐
资源详情
资源评论
收起资源包目录
微调Whisper语音识别模型和加速推理 (100个子文件)
gradlew.bat 3KB
ggml.c 495KB
jni.c 8KB
whisper.cpp 181KB
index.css 1KB
Whisper.dll 572KB
WhisperDesktop.exe 335KB
recording.gif 4KB
.gitignore 225B
.gitignore 84B
.gitignore 31B
build.gradle 2KB
settings.gradle 328B
build.gradle 296B
gradlew 6KB
ggml.h 37KB
whisper.h 24KB
index.html 5KB
gradle-wrapper.jar 58KB
android4.jpg 78KB
android3.jpg 49KB
android2.jpg 44KB
android1.jpg 42KB
desktop2.jpg 32KB
api.jpg 28KB
desktop3.jpg 25KB
web.jpg 24KB
desktop1.jpg 19KB
gui.jpg 18KB
android.jpg 8KB
record.js 9KB
augmentation.json 664B
RecordActivity.kt 8KB
AudioView.kt 6KB
AudioFileActivity.kt 5KB
LibWhisper.kt 5KB
TestActivity.kt 4KB
Utils.kt 4KB
MainActivity.kt 1KB
ExampleInstrumentedTest.kt 675B
ExampleUnitTest.kt 348B
README_en.md 27KB
README.md 25KB
README_en.md 2KB
README.md 2KB
README_en.md 1KB
README.md 1KB
Android.mk 834B
Whisper.mk 683B
Application.mk 21B
qq.png 50KB
record.png 5KB
proguard-rules.pro 750B
gradle.properties 1KB
gradle-wrapper.properties 230B
reader.py 13KB
create_wenetspeech_data.py 12KB
infer_gui.py 9KB
finetune.py 9KB
convert-ggml.py 6KB
infer_server.py 5KB
aishell.py 5KB
evaluation.py 5KB
utils.py 3KB
binary.py 2KB
merge_lora.py 2KB
infer_ct2.py 2KB
data_utils.py 2KB
infer_tfs.py 2KB
callback.py 2KB
model_utils.py 622B
__init__.py 0B
run.sh 2KB
requirements.txt 336B
test.wav 262KB
test.wav 262KB
ic_launcher_round.webp 8KB
ic_launcher_round.webp 6KB
ic_launcher_round.webp 4KB
ic_launcher.webp 4KB
ic_launcher_round.webp 3KB
ic_launcher.webp 3KB
ic_launcher.webp 2KB
ic_launcher_round.webp 2KB
ic_launcher.webp 1KB
ic_launcher.webp 982B
ic_launcher_background.xml 5KB
ic_launcher_foreground.xml 2KB
AndroidManifest.xml 1KB
activity_test.xml 1KB
activity_record.xml 1KB
activity_main.xml 958B
themes.xml 872B
activity_audio_file.xml 862B
data_extraction_rules.xml 551B
backup_rules.xml 478B
colors.xml 378B
ic_launcher_round.xml 343B
ic_launcher.xml 343B
strings.xml 81B
共 100 条
- 1
资源评论
- LoganQ2024-03-14非常有用的资源,可以直接使用,对我很有用,果断支持!
- 公子倚南2024-04-23资源值得借鉴的内容很多,那就浅学一下吧,值得下载!
云哲-吉吉2021
- 粉丝: 4110
- 资源: 1128
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 基于改进NSGA-II的柔性工艺路线多目标优化.pdf
- 生成对抗网络在医学图像计算上的进展与展望.pdf
- 多工况分析下汽车驱动桥壳轻量化设计.pdf
- 基于MSR的水下图像增强算法研究.pdf
- 过热度和液膜厚度对微米级液膜闪蒸影响的数值模拟探究.pdf
- 社群关系在Web服务发现与推荐中的研究现状分析.pdf
- 多种数据补全策略对商超客流量预测影响研究.pdf
- springboot723基于java_springboot的福聚苑社区团购系统设计实现(代码+数据库+演示录像+运行教学+软件下载).zip
- springboot722基于java_springboot的社区疫情防控平台设计实现(代码+数据库+演示录像+运行教学+软件下载).zip
- 某轿车盘式制动器零部件约束模态仿 真分析.pdf
- 一种基于贝叶斯分类器的PCB焊点缺陷检测方法.pdf
- 注意力机制引导的混合失真图像复原研究.pdf
- 基于改进MSR的小波变换图像增强算法.pdf
- 基于比例公平调度算法的认知无线电系统性能分析.pdf
- 冲压成形虚拟仿 真实验系统构建与关键技术研究.pdf
- 面向网络入侵检测的反向综合学习粒子群优化算法研究.pdf
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功