首先说明，我不是开发者，我只是站在前人的肩膀上而已。

我为什么分享这些东西呢？我的平台相对来说比较弱（1660s），还需要各位显卡好的富哥们共同努力。

现在的模型是150k的水平，loss平均0.3，效果还可以。要是你有能力，可以把数据集拿回去，然后下载模型接着算，原始数据集中样本一共953条，应该够用。推荐下载“数据集（已校对500条样本）”，这样就什么也不用做，直接开始预处理。如果有时间可以下载原始数据集自己校对字幕，效果更好。

不用担心这项技术会被用来诈骗，以现在的水平，然然特有的语气是几乎不可能被模拟出来的，即使音色无限接近，但听起来效果也不会很好。

模型文件：https://cowtransfer.com/s/449c660c1b3643

数据集（原始）：https://cowtransfer.com/s/3fa7f96edfb24e

数据集（已校对500条样本）：https://cowtransfer.com/s/0bf6f3d779e840

要是你是个小白，你也想做怎么办？

可以去看看其它up主的教程

教程视频（环境搭建）：BV1DL4y1q7VL

教程视频（数据集制作）：BV1dq4y137pH

一定要看好up主的每个步骤，注意不要用奶糖提供的MockingBird-main.zip，已经旧了，要自己去GitHub上下载最新版的压缩包，不然用其它模型训练的时候会报错*，这是我踩过的坑。（环境：win10 22H2）

*报错内容如下：

RuntimeError: The size of tensor a (1024) must match the size of tensor b (3) at non-singleton dimension 3

最后，假如你们可以把这个模型训练到更高的水平，欢迎在评论区分享

如果在mockingbird软件安装使用过程中有任何问题的，欢迎在评论区讨论，虽然我不一定有能力解答但大家可以集思广益。

关于注意事项，引用一下其他up主的文章：

1、拟声音频的内容创作投稿应遵循投稿平台和利益相关方的一切规定，拟声视频相关的一切利益和解释权归于声源提供者；

2、拟声音频内容不应包含容易引起误解的观点或立场，包括但不限于对其他主体、事物的评价和议论，这一点对于仿真程度高的拟声内容尤为重要；

3、如非内容创作投稿，拟声音频禁止通过微信、QQ等缺乏内容监管条例的渠道传播，仅供研究学习之用；

4、如有利益相关方认为拟声音频对其构成了利益损失或风险，创作者必须将相关音频立即无条件删除。 ---------作者：GuAAPiii CV14999233

若A-SOUL官方认为该专栏构成了版权问题可联系删除

【mockingbird】拟声鸟 嘉然模型及数据集分享，软件安装使用建议