国服最强文字转音频?Fish Speech
发布时间:2025-06-24 17:06:21 作者:北方职教升学中心 阅读量:666
官网文档及示例。
Fish Speech V1.2 是从语音到语音的领先文本 (TTS) 模型,使用 30 训练一万小时的英语、中文和日语音频数据。我试着用1066运行,但质量并不令人满意,建议使用RTX系列显卡进行推理。
显示使用结果。
text。=""" 2024。1月6日,#xff00c;夜色如墨但是深圳C局客户机房的灯光极其明亮,松哥现场支持c;眼睛盯着屏幕,键盘上快速敲击手指#xff0c;随着最后一行代码的执行,他兴奋地在大网改造保障群对话框中快速写下:“服务启动完成,OSS(无线运营商业务系统)正常接入,正常生成定时报表,数据迁移范围符合预期……”这不仅仅是一条消息,更是胜利的号角。消息一发出,#xff00c;该组立即沸腾,喜欢和鼓掌的表情包不断地在屏幕上跳动。此时此刻,我们所有人的心都紧密相连,分享这来之不易的喜悦。我坐在电脑前闭上眼睛让思想穿越时空,回到过去一年的每一个日夜...起源:OMC(在跨领域迎接挑战;#xfff09无线网络管理;先进领域,运营商客户始终追求拥有一个高效的管理系统——一个理想的平台,可以统一控制庞大的网络设备。无论省份和设备制造商如何分散无缝运维管理可以通过统一的OMC系统实现c;这将大大提高运维效率,优化网络性能。之前,我们的PRS(#xff09无线网络性能评估系统;#xff0作为无线网络管理领域的创新成果c;它已成为运营商客户日常网络运维不可或缺的一部分。客户对我们的信任和对大网络能力的期望,成为我们不断追求技术突破的动力。2019。年,我们迈出了重要的一步:PRS首套1W大网商用系统上线。“1W大网”可管理1万个等效网元,为有效处理大量T级网络性能数据,我们首次引入了“Hadoop分布式集群系统”。同时,我们还拥有不到1万网元的灵活管理规模 “PRS小网络”系统,它一直依赖于公司自主开发的高斯数据库来存储数据。所以在大网商用之初,R&D团队面临的一大挑战是同时维护Hadoop和高斯两套技术栈。 """
#xff1输出结果a; output.wav。
官网相关文档。
https://fish.audio/zh-CN/about/。 # 官方。https://speech.fish.audio/samples/。 # 示例。https://github.com/fishaudio/fish-speech。 # 源码地址。
硬件要求的使用。
GPU 内存: 4GB (用于推理), 8GB (用于微调)。
系统: Linux, Windows。
本文介绍了ubuntu系统的安装和使用。本文使用windows ubuntu22.04子系统。
- 安装。
# 创建一个 python 3.10 虚拟环境, 你也可以用 virtualenv。python3。 -m。venv sp_venv。source。sp_venv/bin/activate。# 安装 pytorch。pip3。 install。torch torchvision torchaudio。 -i。https://pypi.tuna.tsinghua.edu.cn/simple。# 下载fish-speech 代码。git。clone https://github.com/fishaudio/fish-speech。# 安装 fish-speech。cd。fish-speechpip3。 install。-e。.。# (Ubuntu / Debian 用户) 安装 sox。apt。install。libsox-dev。
- 下载模型文件。
方法一。: 官网给出的下载模型文件命令:python ./tools/download_models.py。
但由于网络原型下载可能不成功。如果有翻墙工具,可以下载。
方法二。: 通过 modelscope 下载社区 :https://modelscope.cn/models/AI-ModelScope/fish-speech-1.2/files。
cd。fish-speech。mkdir。checkpoints/fish-speech-1.2-sft。
复制下载的模型文件 fish-speech-1.2-sft 文件夹下。
如果使用windows 子系统 可以用一下 命令。
wsl。 cp。config.json /home/km/fish-speech/checkpoints/fish-speech-1.2-sft。
- 使用。
有两种使用方法
一种是通过 web UI 使用,更直观的,便捷。
一种是通过API,更灵活,移植性更大。
web UI。
python。 -m。tools.webui。 \。--llama-checkpoint-path。 "checkpoints/fish-speech-1.2-sft"\。--decoder-checkpoint-path。 "checkpoints/fish-speech-1.2-sft/firefly-gan-vq-fsq-4x1024-42hz-generator.pth"\。--decoder-config-name firefly_gan_vq。
启动后 web : http://127.0.0.1:7860。
API 方式使用。
python。 -m。tools.api。 \。--listen。0.0。.0.0:8080。 \。--llama-checkpoint-path。 "checkpoints/fish-speech-1.2-sft"\。--decoder-checkpoint-path。 "checkpoints/fish-speech-1.2-sft/firefly-gan-vq-fsq-4x1024-42hz-generator.pth"\。--decoder-config-name firefly_gan_vq。
使用。
python。 -m。tools.post_api。 \。--text。"要输入的文本"\。--reference_audio。"参考音频路径"\。--reference_text。"参考音频的文本内容"\。--streaming。True。
参考音频路径 可以在 https://speech.fish.audio/samples/ 下载一个参考音频。您还可以使用自己创建的音频文件。
注意格式为 :wav。