第二步:模型训练
发布时间:2025-06-24 20:09:42 作者:北方职教升学中心 阅读量:946
选择训练有素的GPT和Sovits模型,上传参考音频输入参考音频文本输入需要转换的文本,点击“合成语音”!
GPT-Sovits软件是由RVC变声器创始人“花儿不哭”大佬开发的c;GPT-Sovits的出现,语音克隆被商业垄断的历史已经完全结束,只要你有一个显卡,也可以玩曾经高大的语音克隆。
第二步:模型训练。日、
填写参考音频的路径,需要克隆的音频保存路径,如上图所示c;其他参数可以默认。
好的显卡,例如,
然后返回软件根目录找到两个推理的批处理,如下图。英、
项目地址https://github.com/RVC-Boss/GPT-SoVITS。
下面是V2版本的更新。:[AI语音克隆]GPT-SoVITS V2版,业内最强大的人工智能声音克隆软件,
如果是中文ASR 这里的模型建议使用阿里的达摩ASR,ASR 根据显卡,
UI顶部有官方使用教程手册,可以参考进行系统学习a;https://www.yuque.com/baicaigongchang1145haoyuangong/ib3g1e。
下载软件后解压,建议将其解压到非中文目录,记住!
所有操作前,准备需要克隆的声音材料,要求无杂音吐吐清楚1-3分钟左右就够了。更快地识别。30系、
材料质量,决定合成效果。:新增两种语种现在支持中、40系显卡,选择 “推理 半精度,例如,模型尺寸,好卡选择large#xff0c;更准确、#xff0c;自定义设置可参考官方文件。然后点击“打开语音切割”。旧的显卡,例如,20系前的旧卡,不支持半精度选择 “推理 全精度”。
点击“打开一键三连”,如上图。文本转语音工具,新增两种新语种更强的V2模型。
然后切换到“1B” “微调训练”选项卡c;下图,Batch_size和总轮数一般默认都很好,也可以根据自己的材料和显卡来设置。
大家自己体验其他更多的效果,类似于以前的旧版本。模型尺寸也是,好卡选择large-V3,更准确、
减压后,运行 go-webui.bat,webUI界面即可启动c;所有后期操作,在整个页面上。
如果是英语或日本和韩国ASR 这里使用openAIWhisper模型c;ASR 根据显卡,粤物种语种现在一分钟的参考音频可以训练出很好的效果。韩、
下载一键包。
第三步:推理。
材料准备好后切换到 “1-GPT-SoVITS-TTS” ,填写 模型名称其他参数可以默认如果你对研究其他参数感兴趣,
优化中英多音字,解决了旧版吞字问题,情感复刻效果更逼真。
第一步:素材准备。
默认其他参数然后点击“打开离线批量ASR”c;如上图。更快地识别。