第二步:模型训练

发布时间:2025-06-24 20:09:42  作者:北方职教升学中心  阅读量:946


read-normal-img

选择训练有素的GPT和Sovits模型,上传参考音频󿀌输入参考音频文本󿀌输入需要转换的文本,点击“合成语音”!

read-normal-img

GPT-Sovits软件是由RVC变声器创始人“花儿不哭”大佬开发的c;GPT-Sovits的出现,语音克隆被商业垄断的历史已经完全结束,只要你有一个显卡,也可以玩曾经高大的语音克隆。

第二步:模型训练。日、

read-normal-img

填写参考音频的路径,需要克隆的音频保存路径,如上图࿰所示c;其他参数可以默认。

read-normal-img

好的显卡,例如,

然后返回软件根目录󿀌找到两个推理的批处理,如下图。英、

项目地址󿄚https://github.com/RVC-Boss/GPT-SoVITS。

下面是V2版本的更新。:[AI语音克隆]GPT-SoVITS V2版,业内最强大的人工智能声音克隆软件,

read-normal-img

如果是中文󿼌ASR 这里的模型�建议使用阿里的达摩ASR,ASR 根据显卡,

UI顶部有官方使用教程手册,可以参考࿱进行系统学习a;https://www.yuque.com/baicaigongchang1145haoyuangong/ib3g1e。

下载软件后󿀌解压,建议将其解压到非中文目录,记住!

所有操作前,准备需要克隆的声音材料,要求无杂音󿀌吐吐清楚󿀌1-3分钟左右就够了。更快地识别。30系、

材料质量,决定合成效果。:新增两种语种󿀌现在支持中、40系显卡,选择 “推理 半精度,例如,模型尺寸,好卡选择large#xff0c;更准确、#xff0c;自定义设置可参考官方文件。然后点击“打开语音切割”。旧的显卡,例如,20系前的旧卡,不支持半精度选择 “推理 全精度”。

点击“打开一键三连”,如上图。文本转语音工具,新增两种新语种󿀌更强的V2模型。

然后切换到“1B” “微调训练”选项卡c;下图,Batch_size和总轮数一般默认都很好,也可以根据自己的材料和显卡来设置。

大家自己体验其他更多的效果,类似于以前的旧版本。模型尺寸也是,好卡选择large-V3,更准确、

减压后,运行 go-webui.bat,webUI界面࿰即可启动c;所有后期操作,在整个页面上。

如果是英语或日本和韩国󿼌ASR 这里使用openAIWhisper࿰模型c;ASR 根据显卡,粤物种语种󿀌现在一分钟的参考音频可以训练出很好的效果。韩、

下载一键包。

read-normal-img

第三步:推理。

read-normal-img

材料准备好后󿀌切换到 “1-GPT-SoVITS-TTS” ,填写 模型名称󿀌其他参数可以默认󿀌如果你对研究其他参数感兴趣,

优化中英多音字,解决了旧版吞字问题,情感复刻效果更逼真。

第一步:素材准备。

默认其他参数󿀌然后点击“打开离线批量ASR࿰”c;如上图。更快地识别。