运行结果:获得model后
发布时间:2025-06-24 20:29:53 作者:北方职教升学中心 阅读量:130
运行结果:
获得model后,
阅读音频需要(我没有ffmpeg):pip install torchaudio -i https://pypi.tuna.tsinghua.edu.cn/simple。
FunASR是阿里的语音识别工具,比Speechrecognition功能更容易安装b;
官方介绍:FunASR是一个基本的语音识别工具包c;提供多种功能,包括语音识别(ASR)、使用非16k识别错误,获得的方法大概是换成8k模型,或设置采样率参数;
但设置的fs参数可能需要自行调整,采样率似乎不一定是直接的c;可能与其他相关的有关b;
直接安装:pip install funasr -i https://pypi.tuna.tsinghua.edu.cn/simple。
model直接用拿出来a;
demo语音转文字#xff1a;
#!/usr/bin/env python3# coding = utf-8"""# Project: workspace_py# File: test_funasr.py# Author: XWF# Time: 2024/4/15 16:14"""from funasr import AutoModelprint('test')model_path = 'models/modelscope/hub/iic/speech_seaco_paraformer_large_asr_nat-zh-cn-16k-common-vocab8404-pytorch'vad_path = 'models/modelscope/hub/iic/speech_fsmn_vad_zh-cn-16k-common-pytorch'punc_path = 'models/modelscope/hub/iic/punc_ct-transformer_zh-cn-common-vocab272727-pytorch'model = AutoModel(model=model_path, # model_revision="v2.0.4", vad_model=vad_path, # vad_model_revision="v2.0.4", vad_kwargs={}, punc_model=punc_path, # punc_model_revision="v2.0.4", punc_kwargs={}, # device='cuda:0', device='cpu', ncpu=4, # spk_model="cam++", spk_model_revision="v2.0.4", disable_log=True, disable_pbar=True )res = model.generate(input='test_24000_16.wav', batch_size_s=300)print(res)print(type(res), type(res[0]), res[0].get('text'))# res = model.generate(input='test_8000_16.pcm', batch_size_s=300)# print(res)# print(res[0].get('text'))with open('test_24000_16.wav', 'rb') as f: wav_data = f.read()res = model.generate(input=wav_data,batch_size_s=1)print(res)with open('test_8000_16.pcm', 'rb') as f: pcm_data = f.read()res = model.generate(input=pcm_data, batch_size_s=1)print(res)。有人告诉我直接使用wav文件将识别wav头重新调整采样率等信息c;使用bytes不会重新采样,因此,直接使用model目录指定model无需再次下载,不需要指定版本;也可以使用各种model_version指定版本下载时使用指定版本下载;
disable在Automodel中使用log=True和disable_pbar=True可以关闭红色打印日志,否则,语音端点检测(VAD)、标点恢复、多人对话语音识别等。FunASR提供了方便的脚本和教程,支持预训练模型的推理和微调。演讲者验证、
网站:FunASR/README_zh.md at main · alibaba-damo-academy/FunASR · GitHub。
使用的model将在/modelscope/hub/iic/在目录中找到可复制使用,直接指定代码中的model目录;
也可以自己去他们的网站下载model用于:FunASR/model_zoo at main · alibaba-damo-academy/FunASR · GitHub。演讲者分离、
官网说:如果需要使用工业预训练模型,安装modelscope#xff08;可选)pip install modelscope -i https://pypi.tuna.tsinghua.edu.cn/simple。
如果model名直接按照官网代码使用c;第一次使用这个model时会自动下载相应的model,会在C:\Users你的用户名\.新的modelscope文件夹在cache目录中c;将使用的model下载到;
model = AutoModel(model="paraformer-zh", vad_model="fsmn-vad", punc_model="ct-punc", # spk_model="cam++" )。语言模型、满屏就会这样:
但是我不知道input='test_8000_16.pcm'为什么总是找不到文件报错?c;无法运行,设置fs似乎不好;
官网还有很多其他功能可以去看;
直接使用wav文件的input是正确的c;但是用wavbytes来识别错误的问题,我去GitHup提问。