国服最强文字转音频？Fish Speech

发布时间：2025-06-24 17:06:21 作者：北方职教升学中心阅读量：666

官网文档及示例。

在这里插入图片描述

Fish Speech V1.2 是从语音到语音的领先文本 (TTS) 模型，使用 30 训练一万小时的英语、中文和日语音频数据。我试着用1066运行，但质量并不令人满意，建议使用RTX系列显卡进行推理。

显示使用结果。

text。="""    2024。1月6日，#xff00c;夜色如墨󿀌但是深圳C局客户机房的灯光极其明亮，松哥࿰现场支持c;眼睛盯着屏幕，键盘上快速敲击手指#xff0c;随着最后一行代码的执行，他兴奋地在大网改造保障群对话框中快速写下：“服务启动完成，OSS（无线运营商业务系统）正常接入，正常生成定时报表，数据迁移范围符合预期……”这不仅仅是一条消息，更是胜利的号角。消息一发出，#xff00c;该组立即沸腾，喜欢和鼓掌的表情包不断地在屏幕上跳动。此时此刻，我们所有人的心都紧密相连，分享这来之不易的喜悦。我坐在电脑前󿀌闭上眼睛�让思想穿越时空，回到过去一年的每一个日夜...起源：OMC（在跨领域迎接挑战;#xfff09无线网络管理;先进领域，运营商客户始终追求拥有一个高效的管理系统——一个理想的平台，可以统一控制庞大的网络设备。无论省份和设备制造商如何分散󿀌无缝运维管理࿰可以通过统一的OMC系统实现c;这将大大提高运维效率，优化网络性能。之前，我们的PRS（#xff09无线网络性能评估系统;#xff0作为无线网络管理领域的创新成果c;它已成为运营商客户日常网络运维不可或缺的一部分。客户对我们的信任和对大网络能力的期望，成为我们不断追求技术突破的动力。2019。年，我们迈出了重要的一步：PRS首套1W大网商用系统上线。“1W大网”可管理1万个等效网元，为有效处理大量T级网络性能数据，我们首次引入了“Hadoop分布式集群系统”。同时，我们还拥有不到1万网元的灵活管理规模 “PRS小网络”系统，它一直依赖于公司自主开发的高斯数据库来存储数据。所以在大网商用之初，R&D团队面临的一大挑战是同时维护Hadoop和高斯两套技术栈。    """

#xff1输出结果a; output.wav。

官网相关文档。

https://fish.audio/zh-CN/about/。    # 官方。https://speech.fish.audio/samples/。 # 示例。https://github.com/fishaudio/fish-speech。 # 源码地址。

硬件要求的使用。

GPU 内存: 4GB (用于推理)， 8GB (用于微调)。
系统: Linux, Windows。

本文介绍了ubuntu系统的安装和使用。本文使用windows ubuntu22.04子系统。

安装。

# 创建一个 python 3.10 虚拟环境, 你也可以用 virtualenv。python3。 -m。venv sp_venv。source。sp_venv/bin/activate。# 安装 pytorch。pip3。 install。torch torchvision torchaudio。 -i。https://pypi.tuna.tsinghua.edu.cn/simple。# 下载fish-speech 代码。git。clone https://github.com/fishaudio/fish-speech。# 安装 fish-speech。cd。fish-speechpip3。 install。-e。.。# (Ubuntu / Debian 用户) 安装 sox。apt。install。libsox-dev。

下载模型文件。
方法一。：官网给出的下载模型文件命令：python ./tools/download_models.py。
但由于网络原型�下载可能不成功。如果有翻墙工具，可以下载。
方法二。：通过 modelscope 下载社区：https://modelscope.cn/models/AI-ModelScope/fish-speech-1.2/files。

cd。fish-speech。mkdir。checkpoints/fish-speech-1.2-sft。

在这里插入图片描述
复制下载的模型文件 fish-speech-1.2-sft 文件夹下。
如果使用windows 子系统可以用一下命令。

wsl。 cp。config.json /home/km/fish-speech/checkpoints/fish-speech-1.2-sft。

使用。
有两种使用方法󿀌
一种是通过 web UI 使用，更直观的，便捷。
一种是通过API，更灵活，移植性更大。

web UI。

python。 -m。tools.webui。 \。--llama-checkpoint-path。 "checkpoints/fish-speech-1.2-sft"\。--decoder-checkpoint-path。 "checkpoints/fish-speech-1.2-sft/firefly-gan-vq-fsq-4x1024-42hz-generator.pth"\。--decoder-config-name firefly_gan_vq。

在这里插入图片描述
启动后 web : http://127.0.0.1:7860。

API 方式使用。

python。 -m。tools.api。 \。--listen。0.0。.0.0:8080。 \。--llama-checkpoint-path。 "checkpoints/fish-speech-1.2-sft"\。--decoder-checkpoint-path。 "checkpoints/fish-speech-1.2-sft/firefly-gan-vq-fsq-4x1024-42hz-generator.pth"\。--decoder-config-name firefly_gan_vq。

使用。

python。 -m。tools.post_api。 \。--text。"要输入的文本"\。--reference_audio。"参考音频路径"\。--reference_text。"参考音频的文本内容"\。--streaming。True。

参考音频路径可以在 https://speech.fish.audio/samples/ 下载一个参考音频。您还可以使用自己创建的音频文件。
注意格式为：wav。
在这里插入图片描述

上一篇：庆祝上市 35 周年纪念日，路虎发布了特别版“发现” SUV：售价 8 配系列最强大的动力是1万英镑

下一篇：超越经典计算机的量子模拟器来了

学生姓名：
男女
联系电话：
意向班型：
我是学生我是家长

咨询热线：	400-029-7969
咨询电话：	029-61855169 029-61855069
学校邮箱：	bfzx365@163.com
学校地址：	西安市雁塔区长安西路66号