首先说明,我不是开发者,我只是站在前人的肩膀上而已。
我为什么分享这些东西呢?我的平台相对来说比较弱(1660s),还需要各位显卡好的富哥们共同努力。
现在的模型是150k的水平,loss平均0.3,效果还可以。要是你有能力,可以把数据集拿回去,然后下载模型接着算,原始数据集中样本一共953条,应该够用。推荐下载“数据集(已校对500条样本)”,这样就什么也不用做,直接开始预处理。如果有时间可以下载原始数据集自己校对字幕,效果更好。
不用担心这项技术会被用来诈骗,以现在的水平,然然特有的语气是几乎不可能被模拟出来的,即使音色无限接近,但听起来效果也不会很好。
模型文件:https://cowtransfer.com/s/449c660c1b3643
数据集(原始):https://cowtransfer.com/s/3fa7f96edfb24e
数据集(已校对500条样本):https://cowtransfer.com/s/0bf6f3d779e840
要是你是个小白,你也想做怎么办?
可以去看看其它up主的教程
教程视频(环境搭建):BV1DL4y1q7VL
教程视频(数据集制作):BV1dq4y137pH
一定要看好up主的每个步骤,注意不要用奶糖提供的MockingBird-main.zip,已经旧了,要自己去GitHub上下载最新版的压缩包,不然用其它模型训练的时候会报错*,这是我踩过的坑。(环境:win10 22H2)
*报错内容如下:
RuntimeError: The size of tensor a (1024) must match the size of tensor b (3) at non-singleton dimension 3
最后,假如你们可以把这个模型训练到更高的水平,欢迎在评论区分享
如果在mockingbird软件安装使用过程中有任何问题的,欢迎在评论区讨论,虽然我不一定有能力解答但大家可以集思广益。
关于注意事项,引用一下其他up主的文章:
1、拟声音频的内容创作投稿应遵循投稿平台和利益相关方的一切规定,拟声视频相关的一切利益和解释权归于声源提供者;
2、拟声音频内容不应包含容易引起误解的观点或立场,包括但不限于对其他主体、事物的评价和议论,这一点对于仿真程度高的拟声内容尤为重要;
3、如非内容创作投稿,拟声音频禁止通过微信、QQ等缺乏内容监管条例的渠道传播,仅供研究学习之用;
4、如有利益相关方认为拟声音频对其构成了利益损失或风险,创作者必须将相关音频立即无条件删除。 ---------作者:GuAAPiii CV14999233
若A-SOUL官方认为该专栏构成了版权问题可联系删除