投稿

利用基于帧级跨模态注意力的音视频Confomer的鲁棒音视频唤醒词识别

242

0

2024-05-02 20:30:00

未经作者授权，禁止转载

正在缓冲...

近年来，基于神经网络的唤醒词发现在干净的音频样本上取得了良好的性能，但在嘈杂的环境中却性能下降。音视频唤醒词识别（AVWWS）受到了很多关注，因为视觉嘴唇运动信息不受复杂声学场景的影响。以前的方法通常使用简单的加法或连接进行多模态融合。模态间相关性仍然相对未得到充分探索。在本文中，我们提出了一个名为帧级跨模态注意（Frame-Level Cross-Modal Attention, FLCMA）的新模块，以提高AVWWS系统的性能。该模块可以通过同步的嘴唇运动和语音信号来帮助在帧级对多模态信息进行建模。我们训练基于端到端FLCMA的Conformer，并通过微调预训练单模态模型来进一步提高AVWWS任务的性能。所提出的系统在远场MISP数据集上实现了新的最先进的结果（2.02%的错误拒绝率和2.55%的错误报警率及4.57%的WWS分数）。

科技最前沿

唤醒词识别

语音之家发消息

助力AI语音开发者的社区，前沿AI资讯聚合，全平台同名。

你可以充值，但没必要，这游戏真的可以打金！

通过扬声器提示调优和适配器表示的双参数高效微调【香港理工大学】

02:40

非对称干净片段引导的自监督学习用于声纹识别

01:42

【ICASSP2024】基于记忆感知和Seq2Seq架构的说话人日志系统

02:48

利用基于熵的融合以及基于剪枝的网络架构优化改进多模态情感识别

02:33

自适应过滤器的元学习初始化背后是什么？-是一种加速自适应多通道主动噪声控制收敛的简单方法

02:09

基于无监督学习的端到端无分层生成固定滤波器主动噪声控制

03:06

基于多通道时空特征和知识蒸馏的鲁棒目标说话人提取研究

02:09

一种端到端脑电图通道选择的脑辅助语音增强方法

03:21

具有频率和时间激励网络的双通道异常声音检测框架

01:42

说话人日志与语音识别的多层联合推理

02:59

利用基于帧级跨模态注意力的音视频Confomer的鲁棒音视频唤醒词识别

02:33

SlideSpeech：大规模幻灯片丰富的语音-视频语料库

02:23

VoxBlink:短视频上的大规模说话人验证数据集

03:32

基于多目标渐进聚类的半监督说话人识别域自适应

01:28

利用唤醒词参考语音的高效个人语音活动检测

01:21

基于平行语料的可逆变声

02:40

TF-SepNet：一种用于低复杂度声学场景分类的卷积神经网络中的高效一维核设计

01:50

通过特征解纠缠技术进行跨城市和设备的声学场景分类

02:14

自动音频字幕的图形注意事项

02:15

利用元数据辅助音频生成估计未知异常的无监督异常声音检测

01:27

域移下异常声音检测的分层元数据信息约束自监督学习

01:50

ReFlow-TTS：一个用于高保真的文本到语音的校正流模型

02:22

MISP 2023挑战中视听目标扬声器提取的XMUSPEECH系统

01:57

面向通用语音离散标记：ASR和TTS的一个案例研究

01:36

VoiceFlow:高效的文本到语音的纠正流量匹配

02:23

一个使用单事件声音的详细的音频-文本数据模拟管道

02:49

基于音频辨别的对比学习在连续语音中的可定制关键词检测

01:46

TDT-KWS：基于标记和持续时间转换器的快速精准关键词检测系统

01:48

一次性敏感度感知混合稀疏性剪枝技术在大规模语言模型中的应用

02:33

基于多级域适配器的鲁棒跨域说话人验证技术

02:09

PromptVC：基于自然语言提示的潜在空间灵活风格语音转换

01:30

DualVC 2：用于统一流式与非流式语音转换的动态掩码卷积

01:35

SponTTS：自发风格建模与迁移的文本到语音合成

03:01

MISP 2023挑战赛中基于音频质量的多策略目标说话人提取

01:36

MLCA-AVSR：基于多层交叉注意力融合的视听语音识别

02:22

RaD-Net：一种用于语音信号改善的修复与降噪网络

02:06

BS-PLCNet：基于多任务学习和多判别器的频带分解丢包隐藏网络

02:45

跨多种阵列拓扑结构的多通道语音识别自动通道选择与空间特征集成

01:27

SELM：基于离散标记和语言模型的语音增强方法

02:11

【ICASSP2024 】 SponTTS: 面向自发风格的语音合成与风格迁移西北工业大学

01:29

【ICASSP2024】基于时频域直接利用上下文信息的目标说话人提取方法

01:38

【ICASSP2024】Whisper能否实现基于语音的上下文学习？

02:02

【ICASSP2024】基于条件扩散模型与语言模型的小监督语音合成：语义编码的比较研究

01:48

【ICASSP2024】基于对比标记-声学预训练的语音表征学习

01:55

【ICASSP2024】基于全Diffusion模型的小监督高保真语音合成

01:03

【ICASSP2024】在房间体积估计中注意力是你所需要的一切

01:39

【ICASSP2024】SynthTab：利用合成数据提升吉他谱转录性能

00:59

【ICASSP2024】从语音类别情绪标签学习激活-价值情绪表示

01:43

【ICASSP2024】歌声深度伪造检测的新挑战与解决方法

04:45

【ICASSP2024】利用真实无标签数据进行有效的自监督预训练以改进说话者识别

02:16

【ICASSP2024】语音合成中的层次情感预测与控制

01:23

【ICASSP2024】AdvSV：首个针对说话人验证的OTA攻击开源数据集

00:55

【ICASSP2024】基于神经重放模拟器的OTA攻击对自动声纹识别系统的初步研究

01:17

【ICASSP2024】多尺度子带常数Q变换判别器实现高保真声码器

02:04

【ICASSP2024】Freetalker: 基于扩散模型的可控语音与文本驱动手势生成，增强说话人自然度

01:53

【ICASSP2024】Multi-view MidiVAE：融合音轨与小节视角表征，实现长多音轨符号音乐生成

01:32

【ICASSP2024】神经拼接式歌声转换：重新思考拼接式方法在一次性歌声转换中的应用

03:06

【ICASSP2024】集成频率与音乐风格信息的舞蹈生成，提升表现力

01:09

【ICASSP2024】音频驱动的语音协同人体手势生成：通过扩散模型建模对话意图、情感和上下文

01:23

【ICASSP2024】利用多尺度声学提示提升基于语言模型的零样本语音合成

02:50

【ICASSP2024】帧级情感状态对齐方法在语音情感识别中的应用

01:21

【ICASSP2024】CONCSS：基于对比学习的对话语境理解以优化对话语音合成的韵律

03:10

【ICASSP2024】THU-HCSI多说话人多语言少样本音色克隆系统——LIMMITS'24挑战赛参赛方案

01:25

【ICASSP2024】一致且相关的特征网络 CaRE-SEP：重新思考通用音频分离中的查询嵌入

02:59

【ICASSP2024】SCNet：面向音乐源分离的稀疏压缩网络

02:00

【ICASSP2024】分层说话人表示在目标说话人提取中的应用

02:05

【ICASSP2024】3S-TSE：面向实时和低资源应用的高效三阶段目标说话人提取

01:10

【ICASSP2024】基于球谐变换注入的多通道语音增强高效方法

01:12

【ICASSP2024】SICRN：通过状态空间模型和Inplace卷积技术改进语音增强

01:02

【ICASSP2024】采用交叉注意力引导的WaveNet增强从时域EEG中重建梅尔频谱的效果

01:41

【ICASSP2024】kNN-CTC：通过检索CTC伪标签增强自动语音识别

01:31

【ICASSP2024】细粒度解耦表征学习在多模态情感识别中的应用

01:19

【ICASSP2024】基于注意力机制的端到端可微分粒子滤波器的音频说话人跟踪

01:15

【ICASSP2024】检索增强型方法应用于文本到音频生成

01:20

【ICASSP2024】Audiosr：大规模多用途音频超分辨率技术

01:23

【ICASSP2024】CM-PIE：一种新颖的用于音频-视觉的视频解析（AVVP）交互增强的跨模态感知方法

01:31

【技术沙龙】NaturalSpeech3 大数据时代的语音解藕和零样本TTS

02:41

【技术沙龙】NaturalSpeech3大数据时代的语音解藕和零样本TTS（试听2）

02:57

顶部