阿里巴巴开源语音理解和语音生成大型FunAudioLMLML
人民网>>社会·法治

阿里巴巴开源语音理解和语音生成大型FunAudioLMLML

2025-06-24 12:40:55 | 来源:人民网
小字号

      近几年,人工智能(AI)人与机器的互动方式࿰的进步极大地改变了c;如GPT-4o、Gemin-1.5等。这种转变在语音处理领域尤为明显c;其中,高精度的语音识别、情感识别、语音生成等能力为更直观、更类人的互动铺平了道路。阿里开源大模型。FunA。udioLLM,创新框架,旨在促进人类和大型语言模型(LLMs)它们之间的自然语音交互。FunAudioLLM的核心是两个开创性模型:Sensevoice用于语音理解,Cosyvoice用于语音生成。

1。 FunAudioLLM 模型。

     FunAudioLLM 模型家族包括两个核心模型:SenseVoice 和 CosyVoice,分别负责语音理解和语音生成。。

     链接:https://github.com/FunAudioLLM。

1.1 。SenseVoice:语音理解模型。

SenseVoice 是一种功能强大的语音理解模型,支持各种语音处理任务:

  • 自动语音识别 (ASR): 将声音转换为文本。
  • 语言识别 (LID): 识别语音所属的语言。
  • 语音情绪识别 (SER): 识别说话人的情绪。
  • 检测音频事件 (AED): 识别语音中的特定事件,比如音乐,掌声,笑声等等。

1.1.1。 SenseVoice 模型特点。

  • 多语言支持:SenseVoice 支持各种语言的语音识别,包括 SenseVoice-Small 支持的 5 种语言和 SenseVoice-Large 支持的 50 多种语言。
  • 低延迟:SenseVoice-Small 推理延迟极低,比 Whisper-small 快 5 倍以上,比 Whisper-large 快 15 倍以上,适用于实时语音交互应用。
  • 高精度:SenseVoice-Large 支持超过 50 语音识别,并且具有高精度识别能力󿀌适用于需要高精度识别的应用。
  • 语音理解功能丰富:SenseVoice 还可以进行情绪识别和音频事件检测,支持更复杂的语音交互应用。

1.1.2。 SenseVoice 模型架构。

SenseVoice 包括两个版本,分别针对不同的需求:

1.2.2。 CosyVoice 模型架构。

  • SenseVoice-Small:非自回归编码器模型󿀌利用内存增强的自注意网络 (SAN-M) 结构,有快速推理的能力。
  • SenseVoice-Large:自回归编码器-解码器模型-xff0c;采用 Transformer 结构,具有高精度识别能力。
  • 1.2 。CosyVoice:语音生成模型。

  • CosyVoice 是一种功能强大的语音生成模型,能产生自然流畅的声音,并能控制多种语言、音色、说话风格和说话人的身份。

    1.2.1。 CosyVoice 模型特点。

  • 多语言语音生成#xff1a;中文、英语、日语、粤语、韩语等语言的语音可以生成。
  • 零样本学习:语音克隆࿰可以通过少量参考语音进行c;例如 3 秒的参考语音。
  • 跨语言语音克隆#xff1a;在不同的语言中可以克隆语音。
  • 情感语音生成:能产生情感丰富的声音,比如快乐,悲伤,愤怒等等。
  • 指令遵循:语音输出的各个方面࿰可以通过指令文本控制c;例如说话者的身份,说话风格和副语言特征。

CosyVoice 包括三个版本,分别针对不同的需求:

CosyVoice-base-300M:专注于准确表达说话人的身份、零样本学习和跨语言语音克隆。CosyVoice-instruct-300M󿄚专注于生成情感语音,并且可以通过指令文本精细控制󿀌例如,演讲者的身份、演讲风格和副语言特征。CosyVoice-sft-300M:在 7 位多语言说话人微调,可直接部署。

2 数据集。

2.1 SenseVoice 训练数据。

SenseVoice-Small 大约使用了模型 30 语音数据10000小时,涵盖汉语、粤语、英语、日语和韩语 5 种语言。SenseVoice-Large 模型在 SenseVoice-Small ,又增加了 10 多样化的多语言数据࿰万小时c;增强其多语言能力。

为了获得丰富的语音识别标签,SenseVoice 该模型采用开源音频事件检测 (AED) 语音情绪识别 (SER) 模型生成伪标签,从而构建了一个包含大量丰富语音识别标签的数据集。其中,AED 数据集包含 1.5 1亿条记录,SER 数据集包含 3000 万条记录。

2.2 CosyVoice 训练数据。

CosyVoice 该模型使用语音数据集࿰,包含多种语言c;用于训练语音生成模型。￰在数据收集过程中c;语音检测和信噪比采用专用工具 (SNR) 估计、演讲者分割、分离等操作。然后,使用 SenseVoice-Large 和 Paraformer 模型生成伪文本标签,并通过强制对齐 (FA) 优化模型,提高标签的准确性,消除低质量数据。

CosyVoice-instruct 该模型使用指令训练数据,对 CosyVoice-base 微调模型,以增强其遵循指令的能力。指令训练数据分为三类:#xff1a;演讲者的身份、演讲风格和副语言特征,用于控制语音输出的各个方面。

3 实验结果。

     FunAudioLLM 实验结果表明,,SenseVoice 和 CosyVoice 该模型在语音理解和语音生成任务方面取得了优异的性能。

3.1。多语言语音识别。

     我们使用字符错误率(CER)来评估模型在五种语言中的表现:中文、粤语、日语、韩语和泰语c;使用错误率(WER)评估所有其他语言。

  • 识别准确率:SenseVoice-S 和 SenseVoice-L 大多数测试集都优于大多数测试集 Whisper 对应模型�尤其是在 Cantonese 在其他低资源语言中表现更好。
  • 识别效率:SenseVoice-S 采用非自回归架构󿀌推理延迟极低,比 Whisper-small 快 5 倍以上,比 Whisper-L-V3 快 15 倍以上。

3.2。 语音情绪识别。

      在7个流行的情绪识别数据集中,我们评估了Sensevoice的SER能力,包括CREMA-D、MELD、IEMOCAP、MSP-Podcast、CASIA、MER2023和ESD。这些语料库涵盖中英文,还有表演、电视剧、日常对话等场景。我们报告了未加权的平均精度(UA)、加权平均准确率(WA)、宏观F1得分༈F1)加权平均F1(WF1)。

  • 识别准确率:SenseVoice 在 7 所有流行的情绪识别数据集都取得了良好的性能,不需要对目标领域进行微调就能获得高精度。
  • 与其它模型的比较:SenseVoice-Large 几乎所有的数据集都取得了最好的结果,SenseVoice-Small 也优于其他基线模型。

3.3。 检测音频事件。

        SenseVoice-Small和SenseVoice-Large模型可以对语音中的音频事件进行分类,包括音乐、掌声和笑声。SenseVoice-L可以进一步预测音频事件的开始和结束,而Sensevoice-Small只能预测音频中发生了什么,每个单词最多一个事件。SenseVoice-Small可以检测到更多类型的事件,例如,咳嗽、打喷嚏、呼吸和哭泣c;这些事件可能发生在人机交互中。

      在不同的任务中,我们将Sensevoice与最先进的音频事件检测模型BEATS和PANNS进行比较,包括环境声音分类(ESC50)、婴儿哭泣/笑声检测,咳嗽检测(Coswara)检测家庭脱口秀事件。

  • 识别准确率:SenseVoice-S 和 SenseVoice-L 能够识别语音中的音频事件,例如音乐、掌声和笑声。SenseVoice-L 还可以预测音频事件的开始和结束。
  • 与其他模型相比:SenseVoice 出色的音频事件分类或检测,虽然其他模型可能有更好的效果 F1 分数。

3.4。 S3 Tokenizer 保留语义信息。

       为了评估S3分词器保留语义信息的能力,我们比较了Sensevoice-L及其原始版本和Whisper-Large V3模型的识别性能。这些模型使用Commonn Voice zh-评估了CN和en基准。。

识别准确率:S3 Tokenizer 在中英文测试集中表现出稳定的识别性能,其中在 common voice zh-CN 收集,S3 Tokenizer 的错误率比 Whisper-Large V3 模型降低了 4.14%。

3.5。 CosyVoice 语音生成质量。

       CosyVoice语音合成的质量是通过检查内容的一致性和说话者的相似性来评估的。Librits分别使用test-clean构建英语和中文评估集的子集和AISHELL-3测试集。对于这些集中的每个文本,我们随机选择提示语音。使用Whisper-Large V3评估英语内容的一致性,用Paraformer评估中文。通过计算语音和提示语音之间嵌入的余弦相似性来量化说话者的相似性,这些嵌入是从ERES2Net中提取的。

  • 内容一致性:CosyVoice 在内容上,生成的语音与原始语音高度一致,与 ChatTTS 与࿰相比c;WER 较低的,插入和删除错误较少。
  • 发言人相似度:CosyVoice 生成的语音与原始语音的发言人非常相似,说明它具有有效的语音克隆能力。

3.6。  CosyVoice 情绪可控性。

      情绪控制准确率:CosyVoice-instruct 在情绪指令下表现出更高的情绪控制精度,优于 CosyVoice-base 和 CosyVoice-instruct 没有情感指令。

3.7。  CosyVoice 作为数据生成器。

     xff1的数据质量a;CosyVoice 生成的语音数据质量很高,可作为其他任务(例如,语音识别和语音翻译#xff09;训练数据,从而提高模型性能。

4 应用与限制。

4.1。 应用。

FunAudioLLM 的 SenseVoice、CosyVoice 和 LLMs 集成,可实现多种应用󿀌例如:

  • 语音翻译#xff1a;将输入语音翻译成目标语言#xff0c;并使用目标语言生成语音。
  • 情感语音聊天:识别输入语音的情绪和音频事件,并产生与情绪一致的声音。
  • 交互式播客:播客脚本࿰是根据实时世界知识和内容生成的c;并使用 CosyVoice 合成语音。
  • 有声读物:分析文本中的情感和角色,并使用 CosyVoice 合成情感丰富的有声读物。
  • 4.2。  限制。

    FunAudioLLM 的 SenseVoice 和 CosyVoice 模型也有一些限制,例如:

  • 低资源语言:SenseVoice 低资源语言语音识别的准确性较低。
  • 流式识别:SenseVoice 不支持流式语音识别。
  • 语言支持:CosyVoice 支持的语言数量有限。
  • 情感和风格推断:CosyVoice 产生特定情绪和风格的声音需要明确的指令。
  • 唱歌:CosyVoice 唱歌表现不佳。
  • 端到端训练:FunAudioLLM 模型不是和 LLMs 端到端训练,这可能会导致误差传播。

(责编:人民网)

分享让更多人看到