投稿

音乐检索-Shazam算法原理

2304

1

2023-04-03 18:25:36

未经作者授权，禁止转载

正在缓冲...

参考代码 https://gitee.com/yuhong-ldu/speech-processing/tree/master/%E9%9F%B3%E4%B9%90%E6%A3%80%E7%B4%A2

科技猎手2023

bugyu_ld 发消息

python与人工智能，智能语音处理

自动挂机打金,无限回收,光柱随便爆

语音信号的读取与显示

31:59

语音特征提取与预处理

50:04

语音增强-谱减法-1

25:19

语音增强-谱减法-2

21:13

语音增强-维纳滤波1

33:27

语音增强-维纳滤波2

48:30

语音增强-最小均方误差估计(MMSE)-1

45:24

语音增强-最小均方误差估计(MMSE)-2

37:39

语音增强-子空间法-1

47:16

语音增强-子空间法-2

50:44

语音增强-DNN频谱映射

01:08:26

语音增强-基于DNN的IRM学习方法

28:01

语音增强-SEGAN-1-原理解释

35:49

语音增强-SEGAN-2-Pytorch实现

58:40

语音增强-FRCRN-模型介绍与推理实现

23:58

语音增强-FRCRN-模型整体结构与STFT实现

27:27

语音增强-FRCRN-UNET内部结构

43:35

语音增强-FRCRN-损失函数SI-SNR与训练

27:42

回声消除效果演示-streamlit

11:08

回声消除-LMS-原理

38:26

回声消除-LMS代码实现

12:04

回声消除-BLMS

15:10

回声消除-NLMS

11:23

回声消除-BNLMS

09:01

回声消除-RLS（递归最小二乘）

40:13

回声消除-卡尔曼滤波

25:49

回声消除-FDAF频域动态滤波

31:57

回声消除-PFDAF(分块频域自适应滤波)

33:10

wRLS+神经网络的回声消除（AEC）

43:09

wRLS+神经网络AEC-延时估计TDE部分

26:47

wRLS实现细节

35:01

FSMN神经网络部分介绍

31:26

语音合成-基于WSOLA的语音变调（变声器）

40:48

DTW（动态时间规整）算法原理与应用

33:51

基于GMM的声音转换-1转换模型解析

40:17

基于GMM的声音转换-2具体代码及实现流程

59:07

非并行声音转换-CycleGan-VC2-1

53:35

非并行声音转换-CycleGan-VC2-2

01:14:01

基于StarGan的多对多声音转换-1-原理解释

29:25

基于StarGan的多对多声音转换-2-代码实现

59:19

基于WavNet的乐音生成-1-网络结构

35:33

基于WaveNet的乐音生成-2-代码实现

01:06:27

基于WaveNet的乐音生成-1-基本原理

01:06:27

基于Tacotron2的语音合成-1-网络结构

32:04

基于Tacotron2的语音合成-2-代码实现

01:33:42

SV2TTS-5秒语音克隆

21:04

SV2TTS-语音克隆（中文版）

10:37

Python与人工智能-隐马尔科夫模型（HMM)-1

01:08:20

Python与人工智能-HMM-2-维特比Viterbi译码

21:34

Python与人工智能-HMM-3-模型训练鲍姆-韦尔奇算法（Baum-Welch）

59:34

Python与人工智能-隐马尔科夫模型-5-hmmlearn的应用

46:42

基于GMM-HMM的孤立词识别-1

44:39

基于GMM-HMM的孤立词识别-2

42:50

基于LSTM的唤醒词检测

01:36:23

基于TCN唤醒词检测-1-模型原理

27:41

基于TCN的唤醒词检测-2-模型训练

42:06

基于DTW算法的命令字识别-streamlit实现

01:51

DTW关键字检测-代码实现

01:06:08

声纹识别-GMM-UBM算法原理

24:11

声纹识别-GMM-BUM-数据准备

35:48

声纹识别-GMM-UBM-代码实现

26:37

cam++声纹识别-1-模型原理

48:07

cam++原理-2-模型构建部分代码代码解析

27:48

cam++原理-3-ArcMarginLoss损失

26:25

cam++声纹识别-4-数据准备-训练-验证过程

34:52

音乐检索-Shazam算法原理

20:24

音乐检索-Shazam代码实现

34:33

谁都能开口说-wav2lip演示视频

01:48

wav2lip原理与代码实现

01:04:27

seed-VC原理与推理代码解析

59:13

VITS-1-一个应用实例

11:24

VITS-2-三种生成模型

57:02

VITS-3 模型整体结构

56:37

VITS-4 config文件解释

16:57

VITS-5-文本编码器

25:33

VITS-5-2文本编码器部分代码讲解

11:48

vits-6-相对位置编码 Relative Position Representations

27:00

vits-7-posencoder音频后验编码器

27:59

VITS-8-flow部分的实现

18:26

VITS-9-音频解码decoder部分

18:37

VITS-10-随机时长预测1

42:05

VITS-11-随机时长预测2

27:44

VITS-12-随机时长预测3-convFlow

18:19

VITS-13-鉴别器部分

15:15

VITS-14-生成器总体工作流程

24:15

VITS-15-训练过程及损失函数计算

36:17

VITS-16-数据准备+训练自己的模型

45:44

VITS-17-快速微调(fast finetuning)

30:50

VITS-18-声音转换(voice conversion)

18:37

So-VITS-SVC-1-整体框架

34:52

so-VITS-SVC-2-数据准备和预处理

23:30

So-Vits-SVC-3-先验后验编码器

20:15

So-Vits-SVC-4-decoder部分

47:05

So-VITS-SVC-5-蛇形激活函数

24:42

So-VITS-SVC-6-Flow部分

21:53

So-VITS-SVC-7-训练及损失函数部分

45:28

So-VITS-SVC-8-训练推理以及基频矫正

46:09

Whisper的基本使用

19:00

Faster Whisper 基本使用

27:32

语音识别-conformer的工作原理

01:07:07

顶部