- ASR模型出自阿里达摩院Paraformer语音识别-中文-通用-16k-离线-large-pytorch
- VAD模型FSMN-VAD出自阿里达摩院FSMN语音端点检测-中文-通用-16k
- Punc模型CT-Transformer出自阿里达摩院CT-Transformer标点-中文-通用-pytorch
- 🎉该项目核心代码已经并入FunASR
- 本仓库仅对模型做了转换,只采用ONNXRuntime推理引擎
- 整合vad + asr + pun三个模型,打造可部署使用的方案
-
安装环境
pip install -r requirements.txt
-
下载模型
- 由于模型太大(823.8M),上传到仓库不容易下载,
- (推荐)自助转换:基于modescope下的notebook环境,可一键转换,详情戳:快速体验
- 打开notebook → Cell中输入
!python -m funasr.export.export_model 'damo/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch' "./export" true, 执行即可。
- 打开notebook → Cell中输入
- 提供百度云下载连接:asr_paraformerv2.onnx(模型MD5:
9ca331381a470bc4458cc6c0b0b165de)
- (推荐)自助转换:基于modescope下的notebook环境,可一键转换,详情戳:快速体验
- 模型下载之后,放在
resources/models目录下即可,最终目录结构如下:. ├── demo.py ├── rapid_paraformer │ ├── __init__.py │ ├── kaldifeat │ ├── __pycache__ │ ├── rapid_paraformer.py │ └── utils.py ├── README.md ├── requirements.txt ├── resources │ ├── config.yaml │ └── models │ ├── am.mvn │ ├── asr_paraformerv2.onnx # 放在这里 │ └── token_list.pkl ├── test_onnx.py ├── tests │ ├── __pycache__ │ └── test_infer.py └── test_wavs ├── 0478_00017.wav └── asr_example_zh.wav
- 由于模型太大(823.8M),上传到仓库不容易下载,
-
运行demo
from rapid_paraformer import RapidParaformer
config_path = 'resources/config.yaml' paraformer = RapidParaformer(config_path)
wav_path = [ 'test_wavs/0478_00017.wav', ]
result = paraformer(wav_path) print(result)
-
查看结果
['呃说不配合就不配合的好以上的话呢我们摘取八九十三条因为这三条的话呢比较典型啊一些数字比较明确尤其是时间那么我们要投资者就是了解这一点啊不要轻信这个市场可以快速回来啊这些配市公司啊后期又利好了可 以快速快速攻能包括像前一段时间啊有些媒体在二三月份的时候']
更新内容:
1、更新了VAD和Punc
更新内容主要代码都来源于FunASR
模型导出参考这里 ,把导出来的model.onnx放到对应的文件夹就可以了。
demo里面组合了使用方式 ,目前来看VAD的效果不太好,所以我这里直接是把音频手动按固定的30s切了,然后再去识别组合。