运行结果：获得model后

发布时间：2025-06-24 20:29:53 作者：北方职教升学中心阅读量：130

运行结果：

获得model后，

阅读音频需要（我没有ffmpeg）：pip install torchaudio -i https://pypi.tuna.tsinghua.edu.cn/simple。

FunASR是阿里的语音识别工具，比Speechrecognition功能更容易安装b;

官方介绍：FunASR是一个基本的语音识别工具包c;提供多种功能，包括语音识别（ASR）、使用非16k识别错误，获得的方法大概是换成8k模型，或设置采样率参数；

但设置的fs参数可能需要自行调整，采样率࿰似乎不一定是直接的c;可能与其他相关的࿱有关b;

直接安装：pip install funasr -i https://pypi.tuna.tsinghua.edu.cn/simple。

model直接用࿱拿出来a;

demo语音转文字#xff1a;

#!/usr/bin/env python3# coding = utf-8"""# Project: workspace_py# File: test_funasr.py# Author: XWF# Time: 2024/4/15 16:14"""from funasr import AutoModelprint('test')model_path = 'models/modelscope/hub/iic/speech_seaco_paraformer_large_asr_nat-zh-cn-16k-common-vocab8404-pytorch'vad_path = 'models/modelscope/hub/iic/speech_fsmn_vad_zh-cn-16k-common-pytorch'punc_path = 'models/modelscope/hub/iic/punc_ct-transformer_zh-cn-common-vocab272727-pytorch'model = AutoModel(model=model_path,  # model_revision="v2.0.4",                  vad_model=vad_path,  # vad_model_revision="v2.0.4", vad_kwargs={},                  punc_model=punc_path,  # punc_model_revision="v2.0.4", punc_kwargs={},                  # device='cuda:0',                  device='cpu',                  ncpu=4,                  # spk_model="cam++", spk_model_revision="v2.0.4",                  disable_log=True,                  disable_pbar=True                  )res = model.generate(input='test_24000_16.wav', batch_size_s=300)print(res)print(type(res), type(res[0]), res[0].get('text'))# res = model.generate(input='test_8000_16.pcm', batch_size_s=300)# print(res)# print(res[0].get('text'))with open('test_24000_16.wav', 'rb') as f:    wav_data = f.read()res = model.generate(input=wav_data,batch_size_s=1)print(res)with open('test_8000_16.pcm', 'rb') as f:    pcm_data = f.read()res = model.generate(input=pcm_data, batch_size_s=1)print(res)。有人告诉我直接使用wav文件�将识别wav头重新调整采样率等信息c;使用bytes不会重新采样，因此，直接使用model目录指定model�无需再次下载，不需要指定版本；
也可以使用各种model_version指定版本󿀌下载时使用指定版本下载；
disable在Automodel中使用log=True和disable_pbar=True可以关闭红色打印日志，否则，语音端点检测（VAD）、标点恢复、多人对话语音识别等。FunASR提供了方便的脚本和教程，支持预训练模型的推理和微调。演讲者验证、网站：FunASR/README_zh.md at main · alibaba-damo-academy/FunASR · GitHub。

使用的model将在/modelscope/hub/iic/在目录中找到󿀌可复制使用，直接指定代码中的model目录；

也可以自己去他们的网站下载model用于：FunASR/model_zoo at main · alibaba-damo-academy/FunASR · GitHub。演讲者分离、

官网说：如果需要使用工业预训练模型，安装modelscope#xff08;可选）pip install modelscope -i https://pypi.tuna.tsinghua.edu.cn/simple。

如果model名࿰直接按照官网代码使用c;第一次使用这个model时�会自动下载相应的model，会在C:\Users你的用户名\.新的modelscope文件夹在cache目录中c;将使用的model下载到；

model = AutoModel(model="paraformer-zh",  vad_model="fsmn-vad", punc_model="ct-punc",                   # spk_model="cam++"                  )。语言模型、满屏就会这样：
但是我不知道input='test_8000_16.pcm'为什么总是找不到文件报错＀？c;无法运行，设置fs似乎不好；
官网还有很多其他功能可以去看；
直接使用wav文件的input是正确的c;但是用wavbytes来识别错误的问题，我去GitHup提问。


					                         上一篇：南方科大国家卓越工程师学院首批研究生今秋入学
                                             下一篇：C#调用微软库实现语音识别

学生姓名：
男女
联系电话：
意向班型：
我是学生我是家长

咨询热线：	400-029-7969
咨询电话：	029-61855169 029-61855069
学校邮箱：	bfzx365@163.com
学校地址：	西安市雁塔区长安西路66号