基于音频辨别的对比学习在连续语音中的可定制关键词检测
【清华】从0开始学Kaldi,丝滑入门语音识别,语音识别原来如此简单
【语音之家】AI技术沙龙-声纹识别
【ICASSP2024】基于时频域直接利用上下文信息的目标说话人提取方法
利用基于帧级跨模态注意力的音视频Confomer的鲁棒音视频唤醒词识别
【声纹识别】什么是声纹识别?声纹识别发展历程怎样?
少走99%的弯路!0基础快速入门语音识别
【ICASSP2024】在房间体积估计中注意力是你所需要的一切
如何工程化一个语音开源项目: 手把手带你实现开源声纹分割聚类项目 pyannote-audio 的工程化
Whisper终结者:Reverb ASR 语音识别和说话人分离方面新标杆 在前所未有的20万小时人工转录数据上进行训练 支持可定制的逐字转录
【ICASSP2024】基于对比标记-声学预训练的语音表征学习
圆桌:音频与大模型(欧智坚 何磊 钱彦旻 易江燕 栾剑 张超)
利用唤醒词参考语音的高效个人语音活动检测
TF-SepNet:一种用于低复杂度声学场景分类的卷积神经网络中的高效一维核设计
车圈最大AI「黑马」吉利 闯入语音合成大模型赛道 自研语音大模型登顶 性能超SOTA 10% 跨语种无缝切换 车车再也不是听不懂方言的人工智障了呢
DualVC 2:用于统一流式与非流式语音转换的动态掩码卷积
【ICASSP2024】SynthTab:利用合成数据提升吉他谱转录性能
Amphion-开源的音频 、音乐和语音生成工具包-武执政
ai山海经声音教程来了
自动音频字幕的图形注意事项