链接说明
项目中文说明书: GPT-SoVITS指南//项目说明书里也有在线使用的链接
原项目作者B站教学视频:耗时两个月自主研发的低成本AI音色克隆软件,免费送给大家!【GPT-SoVITS】_哔哩哔哩_bilibili
作者甚至贴心提供了AutoDL教程!他真的我哭死:AutoDL(Linux系统,镜像更新最快)
同理可以在线训练:AI Hobbyist TTS
项目目前只有TTS(文字转语音Text-To-Speech)、并不支持歌声转换SVC、歌声合成SVS。
支持跨语种合成(可以合成和训练音频语种不一样的语种)
*任何发布基于GPT-SoVITS,需要附带上GPT-SoVITS的tag。
项目版权归原作者所有,此blog仅是lz训练过程记录。 如有谬误欢迎指正。
目录
硬件要求
原项目说明,恩,uu们自行斟酌。
使用步骤
各种文件路径,模型名称都不要有中文。
前往上文提到的项目说明书中下载最新整合包。解压后,双击运行go-webui.bat运行程序。
稍等一会儿,此时会弹出console窗口,如下图,在项目运行时不能关闭该窗口。
稍等一会儿,在默认浏览器中跳出GSV的webUI界面,界面大致如下图所示。 目前最新的整合包中,变声部分仍然在施工中,所以该项目能够实现,通过上传数据集,训练音色,训练好的音色+目标文字→该音色语音。
1.素材准备
需要把音频格式转化为wav以获得更好的音频效果。
此处分享一个在线免费音频格式转换工具:音频转换器- FreeConvert.com
1.1输入&输出管理
所有文件路径复制时都不能有双引号。
项目原输出文件夹可以更改,原输出默认存放在output文件夹中。
可以自行更改文件输出目录, 建议uu们合理地设置数据集的存放,便于后续管理,此处lz提供一个参考的管理方法。
1.2纯净人声获取(如果有干净的人声素材可以跳过此步)
若需要纯净的人声素材,可以使用UVR5对人声进行分离,此项目也整合了这个功能。
点击上图中的开启人声分离webUI后,会在默认浏览器中跳出一个新的窗口,UVR5 WebUI
lz同期有研究一个AI翻唱,也会使用到UVR5,故此处lz使用歌曲素材对音乐中的人声进行分离。
模型说明,上图灰色字已经说得很清楚了,抄作业就是第一遍选择模型1,第二遍选择模型2。uu们也可以自行尝试混合使用其他模型。
可以在 console窗口看到进度
看到这样的输出就说明音频分离成功了
如果去除效果不是很好可以多去除几次,或者切换不同的模型进行去除。去除后最好去完整地听一遍,看看有没有什么问题。
lz最后用的HP5模型对人声和歌曲进行分离。
1.3切割音频
准备一段2分钟左右的素材,数据集并不是越多越好,比起数量,更重要的是质量。
回到GPT-SoVITS WebUI界面。
选好输入输出地址之后,点击开启语音切分即可。
切分完成之后也会输出如下信息
前往输出文件中听取切分好的音频,最好是逐一地去听,挑选一些合适的音频,因为有的切割可能和预期的有差别,可以删除一部分切割得不好的音频,或者重新切割。
1.4打标
先别急着打标,看完打标这一小节再开始!
匹配声音和文字。人工智能里的人工部分。
利用项目自带打标工具进行初步打标。
初步打标之后需要人工校对,点击开启音频标注WebUI进入打标页面
点击后会在默认浏览器弹出一个Gradio的窗口,这就是打标页面了。
文本校对
文本和音频对应,需要注意一些文字是否有误, 比如中文中的同音不同字,语气之间的停顿符号表示。
当页校对结果提交
*注意是每一页,每一页,每一页。
只要点击Next Index,就需要点击Submit Text。不然就得重头开始了。
合并音频
如果一段话被切成了2段,可通过下述方式将其合并。
删除音频
如果某段音频并不符合预期,可将其删除。
校对好后关闭该页面,关闭音频标注WebUI
关闭该页面,就像关浏览器网页一样。
2.开始训练
切换页面开始训练
2.1训练集格式化
直接点击一键三连开始训练。
看到这样的字样说明训练集格式化已完成。
2.2微调训练
以上操作也很无脑,保持默认选项, 依次点击训练即可,可以适当调节batch_size的值,不过不要调得太高。
训练完成
2.3推理
开启推理界面
开启之后会浏览器会默认打开一个新的界面
需要注意参考音频对最终合成效果影响较大,可以理解为主参考音频为模型提供了这个人说这句话的语气,是温柔的还是铿锵有力的。
想立即看到结果就不需要去更改下图的设置,直接点合成语音即可
注意如果是跨语种合成,最好多上传一些辅助音频参考,lz用的英文数据集,在没有上传多个辅助音频之前,生成的音频听起来就像“让我们说中文”,hhh
开源协议 & 署名要求
开源协议:GPT-SOVITS 以 MIT 协议开源,模型以 CC-BY-NC 4.0 协议开源;
署名要求:作品简介必须完整署名,缺一不可(参考下文),否则违反开源协议。
参考署名:
GPT-SoVITS开发者:@花儿不哭
模型训练者:@红血球AE3803 @白菜工厂1145号员工
推理特化包适配 & 在线推理:@AI-Hobbyist
生活像海洋,只有意志坚强的人才能到达彼岸。——来点鸡汤8
以上end