FunAudioLLM-SenseVoice+CosyVoice-论文阅读笔记

发布于:2024-08-10 ⋅ 阅读:(23) ⋅ 点赞:(0)

前言:

我一直认为TTS或者端到端S2S,都离不开一个好的ASR模型。
前几天试了一下阿里通义语音团队开源的SenseVoice,发现这个音频识别效果(ASR)还挺好的。
我试了几个B站的视频,可以出一些有意思的结果:
视频链接:https://www.bilibili.com/video/BV1m1421b77q
它竟然还有BGM的占位,以及会加表情包。但肉眼可见的错误还是有的

这里的错误有:从衣怒开始,就识别错了,因为这部分插入的是一段日语。但后面的内容都还好。

但我估计,它这里用来训练的三十万小时视频中,包含了B站的视频,没道理我能拿到,阿里拿不到。

为了提高一下特定领域的识别效果,最好的还是加热词(关键词术语库),或者是微调一下模型。所以,我准备看看Sense voice的论文,看看它到底是个什么东西。

翻开FunAudioLLM全家桶,发现他们是把asr的sensevoice和tts的CosyVoice放一起介绍了。
一个负责听,一个负责说,破开了模型**“聋/哑”**的困局,还是非常有价值的工作。

另外,在他们的工作中表明,这两个部分,确实是可以互相促进的。利用SenseVoice-Large 这个更加精准的大号模型,来为CosyVoice做“有监督的语义语音标记器”,可以提高模型对数据的鲁棒性和上下文语义关系。

另外,在文章最后的展望中,他们还提到一点,CosyVoice这样的一个语音生成器,也能为SenseVoice提供“更高多样性的”音频样本,也能显著提高SenseVoice的能力,并且在他们的实验中表明,**“训练音频文件的多样性”**可能比音频文件的长度更重要,当然,这个多样性的评价标准,我目前没有看到一个标准的量化规则。

他们内部应该已经开始利用这样一套完整的管线,来生成对应的端到端speech to speech方案了,不知道还有没有机会看到开源版本。

哎,作为没啥资源的小白,还是先老老实实,好好学习他们开源的小号模型,看看这条路该怎么走。

虽然,看到他们论文中,非常多的内部数据处理工具,以及没有开源的数据集,看着就非常绝望。

相关链接:

项目主页:https://fun-audio-llm.github.io/

代码,论文都在这里可以看到

摘要的人话总结:

这个报告介绍了FunAudioLLM, 一个旨在增强人类与大型语言模型 (LLMs) 之间自然语音交互的模型家族。 其核心包含两个创新模型: SenseVoice, 处理多语言语音识别、 情感识别和音频事件检测; 以 及CosyVoice, 促进自然语音生成, 可控制多种语言、 音色、 说话风格 和说话者身份。

  • SenseVoice-Small为5种语言提供了极低延迟的自动语音识别 (ASR)
  • SenseVoice-Large支持超过50种语言的高精度ASR(目前还没有开源)。
  • CosyVoice在多语言语音生成、 零样本 (zero-shot) 上下文学习、 跨语言语音克隆和遵循指令的能力方面表现出色。

与SenseVoice和CosyVoice相 关 的 模 型 已 在Modelscope和Huggingface上 开 源, 并 在GitHub上 发 布 了 相 应 的 训 练、 推 断 和 微 调 代 码。 通 过 将 这 些 模 型 与LLMs整 合, FunAudioLLM使得语音对语音翻译、 情感语音聊天、 互动播客和富 有表现力的有声书叙述等应用成为可能, 从而推动了语音交互技术的边界。

introduction就不介绍了,没什么特别的信息量,重要性我在前言里基本上也都提到了。
我个人认为,语音这部分内容,是比图像生成,更有意思的工作,能让agent听懂我的话,以及开口跟我说话,不是太酷了么?手动狗头
后面,我只列出,我认为有价值的内容,并且努力将这些信息串起来。

FunAudioLLM

大小号的模型功能定位不一样,有点像gpt4和3.5的区别。一个是大力出奇迹的,比较慢的大号,一个是推理速度快,成本低的小号。具体到这里:

  • SenseVoice-Small在推理时高效, 识别延迟低于80毫秒, 分别比WhisperSmall和Whisper-large快5倍和15倍。训练时长30万小时,中英粤日韩五种语言。
  • SenseVoice-Large支持超过50种语言的高精度自动语音识别(ASR)。在small的基础上,增加了10万其他45种语言。
  • CosyVoice能够生成多语言语音, 训练时长超过17万小时, 并涵盖中文(ZH)、英语(EN)、日语(JP)、粤语(Yue)和韩语(KO)五种语言。CosyVoice生成的样本可以 实现低于2%的词错误率(WER)和超过75%的说话者相似性,达到了与人类相当的质量水平。 CosyVoice支持零样本(zero-shot)上下文学习,能够在仅有3秒的提示语音下实现语音克隆。 音色、情感、韵律和风格可以在语言间或语言内被重现。我们还发布了一个指令模型,能够通过自然语言说明控制说话者身份、说话风格(例如情感)及其他细粒度的超语言特征。

图 6: 跨语言的SenseVoice训练数据小时数(以对数刻度表示)。

在这里插入图片描述

Voice Understanding Model: SenseVoice

SenseVoice 是一个具备多种语音理解能力的语音基础模型,包括自动语音识别(Automatic Speech Recognition,ASR)、口语语言识别(Language Identification, LID)、语音情感识别(Speech Emotion Recognition, SER)以及音频事件分类(Audio Event Classification, AEC)或音频事件检测 (Audio Event Detection, AED)。为了适应不同的需求,提出了两种具有不同规模和架构的模型:SenseVoice-Small, 一个仅包含编码器的语音基础模型,用于快速语音理解,以及 SenseVoice-Large,一个编码器-解码器 (Vaswani et al., 2017) 的语音基础模型,旨在提供更准确的语音理解,并支持更多语言,如图 2 所示。
注意!大小号模型的结构并不一样!

SenseVoice-Small

SenseVoice-Small 是一个非自回归的仅含编码器的模型,用于多语言多风格的 ASR 和多 个语音理解任务。在给定输入波形后,我们首先计算 80 维的对数梅尔滤波器组,然后堆叠连续帧,将其下采样一个因子为6(这里我没看懂,但这部分应该是图2中的特征提取模块)。提取的特征被映射到编码器的维度 D,表示为 X s p e e c h ∈ R T × D X_{speech} ∈ R^{T ×D} XspeechRT×D,其中 T 是下采样特征的长度。编码器被实现为一个配备内存的自注意 力网络(SAN-M) (Gao et al., 2020)。为了指定任务类型,我们在语音特征前添加四个嵌入标志,然后将其作为编码器的输入:
在这里插入图片描述
这部分内容太难敲了,大家凑活看吧

我也没太懂这个0.8的概率是什么操作,类似于Mask?感觉不自己炼一炉,是体会不到的

SenseVoice-Large

SenseVoice-Large 是一个用于多语言 ASR 和多种语音理解任务的自回归编码器-解码器模型。类似于 Whisper (Radford et al., 2023),SenseVoice-Large 通过一系列输入标记(Token) 来指定任务。具体来说,我们通过分别包含 ⟨LID⟩、⟨SER⟩、⟨AED⟩ 标记(Token)来指定是 否预测语言、语音情感和带时间戳的音频事件。与 SenseVoice-Small 相比,SenseVoice-Large 的优势在于转录准确率和支持大量语言(50+)。

从表1中可以看出来,大家都不是非常准。但sensevoice系列会有一些事件的占位符,输出粒度更精细一些。

表 1: Whisper、SenseVoice-S、SenseVoice-L 的转录示例以及真实值 (ground truth)。

Semantic Speech Tokenizer(语义语音标记器)

这里就是asr对tts的作用了。下面是直接复制的论文翻译。

一个语音标记器将语音信号转换为离散标记(Token),使得其能够被自回归transformer(转换器)建模和预测以进行语音生成。我们的初步实验表明,语音标记器的选择对于整体系统 性能以及数据质量和数量的需求至关重要。我们评估了三类语音标记器:1) 基于余量量化 的标记器,如SoundStream (Zeghidour et al., 2022)、Encodec (Defossez et al., 2022) ´ 和FunCodec (Du et al., 2024b);2) 利用多组量化的标记器,如HifiCodec (Yang et al., 2023);以及3) “语义”语音标记,特别是HuBERT(Hsu et al., 2021)。以上所有标记器都以无监督或自监督的方 式进行训练。因此,它们与语义内容的关联往往较为微弱,导致合成过程不稳定,并对干净 训练数据的需求较高。此外,无监督标记器对数据噪声敏感,需要精心策划的干净数据集。

基于SenseVoice模型的成功, 我们引入了一种监督语义语音标记器, 记作S3 (Du et al., 2024a)。 我们以预训练的SenseVoice-Large模型为基础, 在编码器的前六层后整合了一个 向量量化器, 如图3所示。 重要的是, 量化后增加的位置信息嵌入增强了时间信息。 Encoder1与向量量化器的组合被视为语音标记器,采用最接近的代码向量的索引作为语音 标记(Token)。向量量化器使用一个包含4,096个条目的大型词典的单一代码本。所获得的 标记(Token)序列的频率为50 Hz,从而减少了语言模型中从文本到标记生成的计算负担。

由于语音标记器经过训练以最小化端到端丰富文本的识别错误,提取的标记(Token)与文本和超语言信息具有较强的语义关系。此外,我们的S3标记器受益于监督训练,提高了其对数据噪声的鲁棒性,并减少了对干净数据采集的依赖。因此,可以利用更广泛的数据进行模型训练。

在这里插入图片描述

Voice Generation Model: CosyVoice

CosyVoice,一类基础语音生成模型 (Du et al., 2024a),利用 S3 标记(Token)合成适用于各种应用的自然声音。作为一个多功能模型,CosyVoice 在生成针对特定说话者的多语言声 音、在没有训练的情况下适应新说话者(零样本(zero-shot)上下文学习)、跨语言复制声音(跨语言声音克隆)、创造情感共鸣的声音以及通过指令文本对语音输出进行细致影响等 任务中表现出色。CosyVoice 支持五种语言,包括中文(ZH)、英语(EN)、日语(JP)、粤 语(Yue)和韩语(KO)。我们发布了三个开源模型。

  • 第一个,CosyVoice-base-300M,在 准确表示说话者身份、无需任何微调适应上下文以及跨语言克隆声音方面表现优异
  • 第二 个,CosyVoice-instruct-300M,擅长生成情感丰富的声音,并允许通过指令文本进行细致调 整。
  • 最后,CosyVoice-sft-300M 在七个多语言说话者上进行了微调,并准备立即部署。

它们都共享相同的模型架构和学习框架。与其他开源项目相比,CosyVoice 发布了最广泛的支持 特性,如表 2 所示:
在这里插入图片描述

System Overview of CosyVoice

CosyVoice 结合了一个自回归 transformer(transformer)基础的语言模型(模型)来为输入 文本生成语音标记(Token)。一个基于常微分方程(ODE-based)扩散模型,通过流对齐 (Lipman et al., 2023) 从生成的标记(Token)中重建 Mel 谱。随后,采用基于 HiFTNet 的 声码器 (Li et al., 2023) 从重建的 Mel 谱合成波形。虚线模型在某些应用中是可选的,例如跨 语言克隆和说话者微调推理。

这个跨语言还挺有意思的,非常适合英语视频翻译

CosyVoice Model Training

在训练阶段,自回归语言模型(LM)使用教师强迫(teacher-forcing)范式进行训练。在此过程中,标记(Token)化的文本和语音标记的左移版本作为输入,以预测后续的语音标记。

听fish-speech的作者说,这些模型架构差别都不太大,我得多看几个才行

流匹配(Flow-Matching)模型被开发用于估计条件概率 P(S|X, v, Sref),其中 X 和 v 分别表示语音标记和 说话人嵌入 (Wang et al., 2023b)。S 和 Sref 分别表示目标语音和参考语音的梅尔谱(Mel spectrum)。使用卷积transformer U-Net (Mehta et al., 2023) 来确定先验分布与所需分布之间 的向量场,该分布源自最优传输常微分方程(optimal transport ODE)。解决OT-ODE的简单性质在推理阶段显著减少了迭代次数,通常只需五到十次迭代便可生成令人满意的梅尔谱。 我们还采用了无分类器引导(classifier-free guidance, CFG) (Ho & Salimans, 2022) 技术,并 掩盖70%∼100%的进行特征条件,以增强上下文学习能力。

为了从预测的梅尔谱合成波形, 我们利用基于HiFTNet的声码器 (Li et al., 2023)。 对HiFTNet进行了修改以支持流式生成, 包括对某些组件的替换和重新设计。 有关这些 调整的完整细节,请参见我们发布的代码。

前几天看了冷月的EVA-GAN,发现大家都有在做自己的高质量声码器,新手想攒一套管线太难了。

Zero-shot In-context Learning

CosyVoice 模型(model)展现出零样本(zero-shot)上下文学习能力,只需简短的参考语音 样本即可复制任意声音。该过程涉及为标记(Token)语言模型(LM)精心构建输入序列, 如图 5 所示。对于同一语言的提示语音和输入文本,我们将它们合并以形成统一输入,将 提示语音标记视为预生成的。利用这个输入序列,自回归 LM 迭代预测后续标记(Token), 直到遇到“序列结束”标记 E 为止。然而,当提示语音和输入文本在语言上存在差异时, 我们省略与提示相关的文本和标记,以防原语言的韵律特征影响目标语言。需要注意的是, 对应于提示语音内容的提示文本可以通过人工注释或自动语音识别(ASR)模型进行转录, 例如 SenseVoice。与提示文本类似,提示标记(Token)是通过 S3 标记器从提示语音中提取 的。

在生成语音标记(Token)后,它们被附加到提示标记之后,形成流匹配模型的复合条件。 此外,还纳入了提示语音的说话者嵌入和 Mel 声谱图,以进一步增强音色和环境一致性。

Instruction Fine-tuning

为了进一步增强CosyVoice的可控性,我们实验性地集成了额外的指令微调(Ji et al., 2023)。 CosyVoice-instruct在CosyVoice-base的基础上扩展了增强的指令跟随能力。具体而言,它支持对多个方面的可控性,例如说话者身份(即说话者的特征)、说话风格(包括情感、性别、语速和音高)以及细粒度的旁语特征。这些特征包括插入笑声、呼吸、在笑声中说话以及强调某些词的能力。表3展示了一些说话者身份、说话风格和细粒度旁语特征的示例。
这个细粒度的标注,也是非常令人羡慕了

Training Set for CosyVoice

为了训练CosyVoice模型,我们汇集了一个涵盖多种语言的庞大数据集。在收集过程中,我们使用专门的内部工具进行语音检测、信噪比(SNR)估计、说话人分离和分段。随后,使用SenseVoice-Large和Paraformer生成伪文本标签。这些标签经过强制对齐(FA)模型的辅助处理,帮助去除低质量数据并提高标点符号的准确性。训练数据在不同语言中持续时间的详细分解见表4。

这里的内部管线,羡慕的已经说不出话了。

在这里插入图片描述

对于CosyVoice-instruct模型,我们使用指令训练数据微调CosyVoice-base,而未在自回归语言模型中加入说话人嵌入。表5呈现了不同类型指令的训练数据持续时间。

在这里插入图片描述

实验结果:

指标:

我们使用字符错误率 (CER) 来评估五种语言的模型:汉语、粤语、日语、韩语和泰 语,并对所有其他语言使用词错误率 (WER)。在计算错误率之前,真实值 (ground truth) 转 录和识别输出都使用文本normalization进行标准化,这与Whisper使用的方法一致。所有汉字 都被转换为简体中文版本,并增加了一个额外的文本normalization流程3。

表 6中的结果显示了Whisper、 SenseVoice和Paraformer (Gao et al., 2022, 2023; Shi et al., 2024)在多个流行的开放语音识别基准数据集上的比较,包括AISHELL-1 (Bu et al., 2017)、 AISHELL-2 (Du et al., 2018)、WenetSpeech (Zhang et al., 2022)、Librispeech (Panayotov et al.,2015)和Common Voice (Ardila et al., 2019)。可以看出,SenseVoice-S和SenseVoice-L在大多数 测试集上明显优于它们的Whisper对应模型,除了Librispeech。比较有意思的是,阿里的老模型paraformer-zh和small在中文的能力不相上下,回头也得看看这篇工作了。

图 7展示了SenseVoice-Large和Whisper-Large-V3在更广泛语言范围上的比较性能,输入中有 或没有真实值 (ground truth) LID。尽管一般而言,SenseVoice-Large与Whisper-Large-V3的 表现相当,但在粤语 (Yue)、加泰罗尼亚语 (CA) 和马拉地语 (MR) 等语言中,SenseVoiceLarge的表现明显更好。

不指定语言的话,模型的识别能力还是会有影响的,尤其是小语种。中英混杂其实也不太行

推理效率的评估见表 7。实时因子 (RTF,转录时间与音频长度的比率) 和10秒音频延迟 (转 录10秒音频时的平均时间成本) 在A800机器上进行基准测试,解码批量大小为1。对于基 于编码器-解码器的模型(Whipser-S,Whipser-L-V3和SenseVoice-L),我们在解码时执行大 小为5的束搜索。由于其非自回归架构,SenseVoice-S获得了极低的推理延迟——与Whispersmall相比快了5倍以上,与Whisper-L-V3相比快了15倍以上。SenseVoice-L的表现与WhipserL-V3相近。
在这里插入图片描述

这里的small模型速度确实快,非常快,5分钟的音频,也只需要一秒多点。

Speech Emotion Recognition

这个能力其实很适合做同声翻译,要是无法识别情感,你的tts是做不好的。

我们评估了SenseVoice在7个流行情感识别数据集上的SER能力,包括CREMA-D(Cao et al., 2014)、MELD(Poria et al., 2019)、IEMOCAP(Busso et al., 2008)、MSP-Podcast(Martinez-Lucas et al., 2020)、CASIA(Zhang & Jia, 2008)、MER2023(Lian et al., 2023)和ESD(Zhou et al., 2021)。 这些语料库涵盖中文和英文,以及像表演、电视剧和日常对话等场景。我们报告了无权重 平均准确率(UA)、加权平均准确率(WA)、宏观F1分数(F1)和加权平均F1(WF1),并 将其与文献中最近发布的一些SER基准(EmoBox (Ma et al., 2024a)、Emo-Superb(Wu et al., 2024)和MerBench (Lian et al., 2024))进行比较,见表8。我们展示了SenseVoice在所有测试 集和所有指标上都取得了良好的表现,即使在目标领域没有进行微调。

我们进一步将SenseVoice与一些开源的语音情感识别(SER,speech emotion recognition)模 型进行比较。结果如图 8所示。XLSR-SER是HuggingFace上最流行的SER模型,而Qwen-Audio(Chu et al., 2023)和SALMONN(Tang et al., 2024)是两个可以通过自然语言提示识别语音情感的Audio-LLM模型 。EmoBox的结果也作为参考包含在图中。 SenseVoice-Large在几 乎所有数据集上都取得了最佳结果,而SenseVoice-Small在大多数数据集上也优于其他基线 模型。

Audio Event Detection

两个SenseVoice-Small和SenseVoice-Large模型可以对语音中的音频事件进行分类, 包括音乐(BGM)、掌声和笑声。SenseVoice-L进一步可以预测音频事件的开始和结束位置,而SenseVoice-Small只能预测音频中发生了什么,每次发声最多可以有一个事件。SenseVoice-Small可以检测更多种类的事件,例如咳嗽、打喷嚏、呼吸和哭泣,这些事件可能在人与机器的交互过程中发生。

在这里插入图片描述
我们将SenseVoice与最先进的音频事件检测模型BEATs(Chen et al., 2023a)和PANNs(Kong et al., 2020)在不同任务上进行了比较, 包括环境声音分类 (ESC-50) (Piczak, 2015), 婴儿 哭声/笑声检测5,咳嗽检测(Coswara)(Sharma et al., 2020) 6和家庭脱口秀事件检测。由 于SenseVoice仅预测我们感兴趣的事件,这可能不包括其他模型中的事件类别,因此我们使 用每个事件的F1分数进行评估。Qwen-audio也进行了比较评估。

我们发现, 尽管BEATs和PANNs可能具有更好的F1分数, 这可能归因于两个原因, SenseVoice作为一个良好的音频事件分类或检测模型。 首先, BEATs和PANNs可以修改 检测阈值, 以权衡准确性和召回率, 从而获得更高的F1分数, 但对于SenseVoice和QwenAudio来说, 阈值修改要困难得多 (一个有趣的发现是, SenseVoice和Qwen-Audio的准确率总是远高于召回率,这可能对人机交互更友好)。其次,SenseVoice使用带有AED伪标记的ASR数据进行训练,而不是特定于AED的数据。

说实话,这段我没怎么看懂。

Preserving Semantic Information by S3 Tokenizer

这算是一个验证实验结果了。

为了评估 S3 标记 (Token) 生成器保持语义信息的能力, 我们比较了增强量化器的 SenseVoice-L 模型与其原始版本以及 Whisper-Large V3 模型的识别性能。 这些模型使用 Common Voice zh-CN 和 en 基准进行了评估,结果详细列在表 9 中。

从表中可以看出,我们的 S3 标记(Token)在中文和英文测试集上表现出强大的识别性能。 值得注意的是,在 common voice zh-CN 集上,S3 标记(Token)超越了 Whisper-Large V3 模型,达到了 4.14% 的相对误差率降低。这表明 S3 标记(Token)与语义内容之间存在显 著的相关性。值得一提的是,S3 标记(Token)生成器中只有一个代码本,其字典大小为 4,096 条目。

在这里插入图片描述

Evaluation on Generation Quality of CosyVoice

我们通过检查内容一致性和说话者相似性来评估CosyVoice的语音合成质量。 LibriTTS的“test-clean”子集 (Zen et al., 2019) 和AISHELL-3的测试集 (Shi et al., 2021) 被用于分别构建英语和中文的评估集。对于这些集合中的每个文本,我们随机选择一个提示语音。

  • 内容一致性使用Whisper-Large V3 (Radford et al., 2023)进行英语评估,而中文识别则使用Paraformer (Gao et al., 2022)。
  • 通过计算生成和提示语音的说话者嵌入的余弦相似度,采用ERes2Net (Chen et al., 2023b)提取特征来量化说话者相似性

与其他自回归语言模型类似,我们对我们的标记(Token)语言模型采用随机抽样解码策略, 并使用五个不同的随机种子值进行合成过程的评估:0、7、42、123和1,337。结果评估指标 的平均值用于确定均值和标准差。此外,我们进行了ASR重排序,以展示离线模式中潜在的 性能提升。

表10 和 11 分别呈现了英语和中文的结果。在英语数据集中,CosyVoice达到了人类水平的 表现,具有相似的内容识别能力和更高的说话者相似性。ASR重排序显著提高了内容一致 性,导致词错误率(WER)降低至1.51%。CosyVoice在WER和插入、删除错误数量方面优 于ChatTTS,表明其内容一致性更佳。我们未对ChatTTS评估说话者相似性,因为其未发布语音克隆能力。

在这里插入图片描述

关于中文的结果,CosyVoice生成的语句在与原始语句相比时,其字错误率(CER)是相近的,同时插入和删除错误也相当。在字错误率(CER)方面,ChatTTS在中文生成能力 上优于英文。虽然ChatTTS和CosyVoice的字错误率(CER)相似,但ChatTTS产生了更多的 插入和删除错误。这是由于说话者泄露的问题,其中意外生成了另一位说话者的助词。相反,CosyVoice在插入和删除错误方面没有遭受此问题,错误显著较少。通过**自动语音识别(ASR)重新排序,CosyVoice达到了令人瞩目的低字错误率(CER)1.84%。**与英文相似,CosyVoice也展示了比原始语句更大的说话者相似性,展示了其有效的声音克隆能力。

这里的asr重排,我没太懂。抽卡我知道,但重排是啥?生成N个,然后用ASR排序,抽取和原文本最接近的那个?

Evaluation on Emotion Controllability of CosyVoice

这个我在B站看到有UP主测试过,确实有情绪变化,但音色保持的不太好。

为了验证情感可控性,我们使用公共演讲情感识别模型 emo2vec7 (Ma et al., 2024b)。我们为 六种情感(快乐、愤怒、悲伤、惊讶、恐惧和厌恶)各生成并评估 100 条英语发言。合成文 本的内容旨在与目标情感相匹配。然后,我们测量每种情感从合成语音中预测的情感的准 确性。

所以,人的情感一共有多少种?

表 12 显示了 CosyVoice-base 与 CosyVoice-instruct 之间的情感控制准确性比 较。 对于 CosyVoice-instruct, 输入由内容文本和一种讲话风格的指令 (例如,“快乐.内容文本”) 组成。 相比之下, CosyVoice-base 仅接收内容文本作为输入。结果表明,带有情感指令的 CosyVoice-instruct 相较于没有情感指令的 CosyVoice-base 和 CosyVoice-instruct 显示出显著的改进。

在这里插入图片描述

CosyVoice as a Data Generator

CosyVoice的一个直接应用,是作为数据生成器, 以增强其他任务的训练数据, 例如自动语音识别 (ASR) 和语音到语音翻译 (S2ST)。 以ASR任务为例, 我们在Librispeech语料库上进行实验, 以评估CosyVoice生成高质量数据的能力。 实验结果如表13所示, 其 中“Librispeech”表示原始的960小时数据。“Syn on LS text”和“Syn on MLS text”分别表示使 用Librispeech和MLS训练集文本生成的数据。从表中我们可以看到,仅在合成数据上训练, ASR模型就能达到与原始Librispeech训练集相当的结果。将它们结合后,识别准确率显著提 高。一个有趣的发现是,涉及MLS文本上的合成数据显著提高了识别性能。这可能表明,对 于ASR任务,文本多样性比语音本身的持续时间更为关键。此改进可归因于CosyVoice合成 样本引入的多样化语言内容。我们评估的结果强调了CosyVoice生成样本的高质量。

在这里插入图片描述

Applications

FunAudioLLM 是一个创新框架,旨在促进人类与大型语言模型 (LLMs) 之间的自然语音交 互。通过整合 SenseVoice、CosyVoice 和 LLMs,FunAudioLLM 提供了一系列丰富的应用演 示,包括语音到语音翻译 (S2ST)、情感语音聊天、互动播客和富有表现力的有声读物讲述。 这些演示可在 https://fun-audio-llm.github.io 获得。

我之前做过一点英语视频翻译,当时就苦于不能保留音色和性别,回头可以试一下这个。

在这里插入图片描述

Limitations

SenseVoice 有一些需要解决的局限性。首先,对于资源不足的语言,自动语音识别(ASR) 的性能通常仍然较低。其次,**SenseVoice 并不是为流式转录设计的。**因此,未来的工作可能 会集中在基于 SenseVoice 开发可流式处理的语音理解模型上。

CosyVoice 也有若干局限性。 首先, 它支持的语言数量有限。 虽然它可以根据明确的指 示表达情感和讲话风格,但它无法根据文本的语义内容推断出合适的情感或风格。此外, CosyVoice 在唱歌任务上表现不佳。在实现富有表现力的情感变化的同时保持声音的原始音 色方面仍有改进的空间。

另一个局限性是 FunAudioLLM 中的两个创新模型并没有与大型语言模型(LLMs)进行端到端训练。这种管道式的方法可能会引入错误传播,从而影响整体性能。

在这里插入图片描述

后面也得看看tortoise的工作,要看的东西实在是太多了

总结:

其实总结在前言里已经写过了,但把正片帖子写完,还是有一些内容需要回顾的:

  1. 音频的听写领域在24年应该是比较火的,最近翻arxiv,相关的论文非常多
  2. 相关的高质量开源数据很少,尤其是细粒度标注的。
  3. 一些基础的管线,比如高精度ASR,语音检测、信噪比(SNR)估计、说话人分离和分段等工具,阿里的fun系列已经开源了不少,但还有一些没有开源。

小白刚入坑,欢迎相关大佬批评指正,欢迎推荐一些经典的/重要的工作!