花了一天时间,尝试了各种语音分离软件,测试了URV5.6、Spleeter2.9.5、Audacity3.7.7、IZotope9、光普层SpectraLayers11、GoldWave7、Soundify Vocal Remover1.2.7、Vocal Seperate、MSST_GUI、MSST_WebUI 下来,就个人的测试素材来说,语音分离的王者还是MMST,尤其推荐使用MSST_WebUI,操作简单,还有很丰富的文档。
以下引用https://ai.feishu.cn/wiki/Dy0bwG4XIizBgJkePDucILaMnlf提供的模型列表以供查询使用,按需下载模型即可。感谢大佬提供这么丰富的文档。
尤其值得提的一点是,MSST提供了一个对话分离模型,即可以将音频中带有歌曲的对话中对话分离不出,不来人声的背景音乐。一般的模形分离人声时,连同人生的背景音乐也分离出来了,model_bandit_plus_dnr_sdr_11.47.chpt这个模型可以只分离出对话。对话声音与人声还是有很多差别的,大部分模型主要还是用于音乐方面的分离,如果对于要分离说话声,强烈推荐,没发现比这更好效果的。当然,如果是音乐方面的就随便选了,感觉大差不差。
大佬提供的软件及文档,文档地址:https://ai.feishu.cn/wiki/JSp3wk7zuinvIXkIqSUcCXY1nKc,相关模型说明:https://ai.feishu.cn/wiki/Dy0bwG4XIizBgJkePDucILaMnlf
个人对比了一下MSST_GUI和MSST_WebUI,还是更喜欢MSST_WebUI,使用起来更方便。