whisper-jax最详细的安装教程 | 一个号称比whisper快70倍的语音识别项目 | 免费开源的语音识别项目

8904
0
2023-06-03 17:01:24
125
90
303
41
whisper-jax最详细的安装教程 | 一个号称比whisper快70倍的语音识别项目 | 免费开源的语音识别项目 我使用的显卡 NVIDIA A100 8GB显存 GPU Cloud: https://www.vultr.com/?ref=8685401 更多问题欢迎私信。
一起学习编程吧!我创建了一个技术分享博客https://blog.lukeewin.top,欢迎大家来访问。
AI
(11/172)
自动连播
60.3万播放
简介
免费开源的语音转文本软件Whisper的本地搭建详细教程
24:10
免费开源语音转文字Whisper快速搭建,可生成字幕,媒体人的福音
13:34
OpenAI开源Whisper,我来教你如何从零开始搭建
18:46
基于清华大学开源的ChatGLM搭建属于自己的ChatGPT
24:52
【ChatGLM】搭建ChatGLM原来如此简单
14:22
【AI绘画】如何搭建Stable Diffusion
11:05
AI生成的手永远是个问题
03:53
可以白嫖的语音识别项目 | 小白都能懂的搭建OpenAI开源语音识别Whisper教程
32:28
Linux中搭建语音识别项目Whisper | 可免费使用的语音转文字项目
31:30
企业级CentOS系统安装开源免费的语音识别项目whisper | 可在RedHat系统中安装whisper | 免费制作字幕的开源软件
36:46
whisper-jax最详细的安装教程 | 一个号称比whisper快70倍的语音识别项目 | 免费开源的语音识别项目
29:36
VAD优化Whisper,faster-whisper-webui一个转录速度起飞的开源语音识别项目,转录效果很好
19:57
使用VAD优化过的whisper语音识别开源项目faster-whisper-webui,免费开源,福利多多
16:31
meta开源的这个AI厉害了,这个AI还真有点东西
08:10
基于faster whisper的实时语音识别项目
07:25
实时语音识别
17:42
离线部署Whisper | 如何在纯内网环境中安装Whisper
10:56
CentOS中部署语音识别Whisper
46:34
纯内网部署Whisper | 竟然可以这么简单在无外网环境下安装Whisper
38:17
内网环境部署Whisper
27:35
使用Whisper批量生成视频字幕 | 自媒体人的福利 | 自动批量生成视频字幕
08:39
实时语音识别部署教程 | 可离线部署的实时语音识别项目
36:31
faster whisper webui开源项目本地搭建教学分享 | 个人笔记本电脑可以搭建的语音识别项目
01:19:47
whisper最新开源语音识别模型 | 企业级开源语音识别项目
26:42
网易开源语音合成TTS项目演示 | 免费白嫖党的福音
21:07
开源EmotiVoice安装教程 | TTS | 免费开源TTS
56:37
部署OpenAI开源的Whisper语音识别项目
15:20
faster-whisper在windows中的搭建注意事项以及详细过程 | faster-whisper和openai-whisper对比
01:29:18
faster_whisper部署详细教程 | 可内网部署ASR | 开源ASR
07:33
faster_whisper封装成一个api接口
02:47
基于faster_whisper的实时语音识别
04:51
Java对接生成式大模型ChatGML
26:49
Java对接大模型ChatGML
26:28
语音合成 | TTS | 有声小说福利
03:57
可角色扮演的超拟人大模型 | 可做虚拟数字人的大脑
06:37
构建自己知识库的大模型
07:16
基于whisper实现的前端调用麦克风进行语音识别
06:06
Whisper | Faster Whisper | 语音识别 | 可内网部署的ASR
07:02
whisper-jax | 可在内网部署的语音识别开源项目
05:10
Linux搭建Whisper-JAX | 公司内网部署的开源语音识别项目
01:07:23
Linux中部署Whisper | whisper,whisper-jax,faster whisper三者速度对比 | 可以私有化部署的开源语音识别系统
01:07:07
whisper,whisper-jax和faster whisper速度对比
11:02
基于大模型的本地知识库问答系统 | 开源的大模型和本地知识库问题系统 | LangChain和LLM | 企业可免费商用的国内大模型
34:58
国内开源大模型演示 | ChatGLM3 | 大模型 | 可商用大模型
11:42
可在笔记本跑的大模型 | 超轻量级大模型 | 千问大模型笔记本可部署 | Qwen1.5笔记本部署 | 大模型毕设的福利
08:54
【大模型微调】ChatGLM3-6b大模型微调 | 基于开源的大模型的微调 | 使用自己的数据集来微调大模型 | 垂直领域大模型 | lora微调大模型
32:01
开源语音合成TTS | 有声小说的福音 | TTS
14:02
ChatTTS最详细搭建教程 | 开源ChatTTS | 开源语音合成 | 开源TTS | 开源TTS最详细部署教程
01:01:22
Linux中部署TTS API | ChatTTS API | 语音合成 | 最真实的语音合成 | 可内网部署的TTS
29:26
这是第一次尝试使用Python编写GUI程序 | ASR | 语音识别 | 批量语音识别
06:07
批量生成字幕 | 批量语音识别
08:06
asr | 基于faster whisper 开发的批量生成字幕软件 | 语音识别
07:39
faster_whisper转写泰语报错
06:28
libiomp5md.dll报错解决方案
10:33
开源人声分离解决方案spleeter | 从音乐中分离出人声
09:56
生成字幕还得是openai whisper
08:50
转换微调后的Whisper模型格式为OpenAI格式
12:30
噪音消除和人声增强 | 很好用的一个降噪和人声增强工具
11:27
AI降噪
06:28
基于faster_whisper的实时语音识别 | 可对接大模型的实时语音识别 | 实时语音识别 | 一句话识别
06:12
基于faster_whisper的实时语音识别改进版 | whisper中出现繁体中文的解决方法 | 语音识别中繁体转简体 | OpenCC
05:57
faster_whisper对接大模型进行语音对话 | 人机对话 | 语音识别 | 大模型
10:13
自动化转写 | 自动化语音识别 | 对直播录屏自动化生成字幕 | 大模型总结视频内容
05:56
媒体人的福音 | 对直播自动录屏的视频生成字幕
09:33
记录语音识别开发中遇到的一个坑
07:14
python编写的一个自动化监听指定路径下的音视频,并对其进行转写 | 用大模型对视频内容进行总结 | 自动化生成视频字幕
07:51
解决字幕显示不完全问题 | 视频字幕自动生成脚本
04:30
内网环境中部署funasr说明视频 | 无网络环境中的实时语音识别 | 内网实时语音识别 | 内网部署funasr
07:50
自动生成字幕程序优化 | 视频字幕生成 | 制作视频字幕 | 自动化制作视频字幕
11:19
语音识别
04:46
语音识别模型微调 | 训练一个自己的模型 | 训练模型 | 大模型训练 | ASR模型训练 | 模型微调 | ASR模型微调
11:32
可用于智能呼叫中心的内网可用的区分说话人的语音识别 | 通话区分说话人语音识别 | 通话区分说话人语音转写
09:02
区分说话人转写 | 说话人区分 | 区分说话人的语音识别项目
04:26
whisper | 语音识别 | Openai Whisper | Whisepr GUI
08:22
语音合成速度最快的开源TTS | 基于MIT协议可商用的开源TTS | 这是我用过合成速度最快的开源TTS
15:33
多语种语音合成 | TTS
06:28
本地可运行的说话人拆分 | 说话人分离
03:37
语音分离|声纹对比|离线可用的语音分离|多个说话人分离|单声道录音说话人分离
02:32
开发一款web端智能聊天网站 | ASR | LLM | TTS
06:20
实时语音合成 | 流式语音合成 | 语音合成 | RealTime TTS
11:57
基于开源的openai whisper和LLM以及TTS开发的一款智能聊天机器人 | 网页智能聊天机器人 | 智能语音聊天机器人
03:04
智能聊天机器人网页端开发进度演示 | faster whisper | openai whisper | 大模型 | MeloTTS
05:03
开发一款在网页端可聊天的智能机器人项目演示只语音识别 | B站编程分享录分享开发一款网页端智能聊天机器人
01:27
基于大模型的智能聊天网页开发演示 | B站编程分享录 | Whisper | faster whisper | 大模型 | TTS
03:21
基于大模型的网页智能问答IM系统 | 基于大模型的智能问答系统
05:40
基于大模型的智能问答系统 | B站编程分享录开发的基于网页端的人机语音智能问答系统
01:15
基于大模型的智能语音交互问答系统 | B站编程分享录
02:50
内网离线环境中可用的智能语音交互大模型问答系统
12:29
纯内网运行的基于大模型的智能问答系统 | 内网中运行Whisper | 内网中运行大模型 | 内网中运行TTS
18:01
基于大模型的智能语音问答系统 | ASR_LLM_TTS | 网页端智能语音问答系统
19:06
记录在Linux中部署语音合成MeloTTS中遇到的问题以及对应的解决方法 | 语音合成 | TTS | MeloTTS
14:12
Linux中部署MeloTTS | TTS部署详细教程
01:23:12
训练MeloTTS模型详细教程 | TTS模型训练实录 | train TTS
02:57:22
验证训练后的MeloTTS模型 | TTS | 语音合成
18:31
TTS模型训练后的测试 | 语音合成模型训练 | MeloTTS
01:26
使用MeloTTS训练中文TTS模型 | MeloTTS训练中文语音合成模型 | MeloTTS模型训练 | 中文语音合成模型训练
02:39:15
训练中文MeloTTS模型演示 | 中文模型训练 | MeloTTS训练中文模型 | MeloTTS模型训练效果演示
06:37
使用派蒙语音训练的一个TTS中文语音合成模型 | MeloTTS训练中文模型效果演示 | MeloTTS中文模型 | MeloTTS
06:03
CosyVoice | 阿里开源TTS模型CosyVoice | TTS | 声音克隆 | 流式TTS
01:00
MeloTTS训练原神中派蒙的中文语音合成模型 | MeloTTS中文模型
04:29
MeloTTS训练派蒙中文语音合成模型成果演示
06:28
实时语音降噪 | 语音降噪
05:14
尝试一下3D-Speaker的说话人区分 | 通话录音区分说话人 | 说话人区分 | funasr | 3d-speaker | pyannote-audio
14:05
单轨录音区分说话人语音识别接口开发进度 | 单轨录音区分说话人语音识别 | 说话人区分 | 语音识别 | 声纹识别
21:44
视频音频中人物角色声音分离 | 人物角色声音分类 | 自动音视频切分
17:38
基于AI的说话人分离 | 自媒体声音分离 | 声音分类 | 语音识别 | 声纹识别 | 录音根据人物声音分离
13:23
AI大模型前后端分离智能问答系统
11:05
区分说话人语音识别
03:44
基于大模型的智能语音交互系统 | LLM | ASR | TTS | Whisper | MeloTTS
18:50
说话人分离 | 录音分离 | 区分不同说话人声音 | 声纹识别 | 录音拆分 | 单轨录音拆分说话人 | 语音识别 | FunASR
10:56
语音识别和声纹识别 | 通话录音区分说话人并转写录音 | 通话录音转写 | 语音转写
04:39
AI分离混杂音神器ClearerVoice | 阿里开源的处理两人对话中混合音频的分离难题
12:53
ClearerVoice语音分离和人声增强注意事项
17:05
阿里开源的ClearerVoice本地部署详细教程 | 语音分离与人声增强
49:04
新增视频切片功能 | 可根据视频中的不同说话人进行视频切片
08:31
本地服务器部署国产大模型deepseek r1 | DeepSeek R1大模型部署
09:22
deepseek r1部署演示下
13:50
本地部署deepseek-r1模型的详细教程
09:44
Linux服务器中部署deepseek-r1大模型 | 本地服务器部署deepseek-r1大模型14b | DeepSeek-R1大模型本地部署详细教程
23:12
流式语音合成MeloTTS OpenAI API接口
05:25
语音分离 | 根据说话人拆分音频 | 单轨录音说话人拆分 | 语音识别 | 声纹识别
14:22
竟然可以在CPU中跑671b的deepseek-r1大模型?| 是否可以用纯CPU方案跑deepseek-r1大模型 | deepseek-r1 671b部署
51:17
纯CPU下推理deepseek-r1 671b大模型演示 | CPU部署deepseek-r1 671b大模型需要什么条件?
11:24
纯CPU下跑deepseek-r1 671b大模型 | 在纯CPU情况下跑deepseek-r1 671b参数的大模型需要什么条件?
06:32
跑deepseek-r1 70b大模型需要什么条件 | 大模型deepseek-r1 70b部署教程
08:56
说话人分离 | 语音分离 | 音频拆分 | 语音转文本
04:32
deepseek-r1 70b大模型部署 | 需要多少张显卡可以跑70b模型 | 一张4090显卡可以跑70b模型吗 | 跑70b模型需要多少张显卡
33:00
基于说话人的音频分离 | 区分说话人 | 声纹识别 | 语音识别
01:16
说话人分离 | 基于FunASR开发的说话人分离项目 | 语音分离
07:01
基于OpenAI Whisper编写的一个音视频转文字的GUI程序 | 视频字幕提取 | 视频字幕生成 | 音频转写文字 | 语音识别
08:58
CosyVoice和MeloTTS对比 | 声音克隆 | 音色克隆
04:05
3D-Speaker模型训练 | cam++模型训练 | 声纹识别模型训练
07:24
客家话语音合成 | hakka tts | 小语种语音合成模型 | 小语种语音合成模型训练 | 内网可用语音合成
02:53
流式TTS | 实时语音合成 | 流式语音合成 | 客家话方言流式语音合成 | 方言流式语音合成
14:21
区分讲话人会议录音处理接口 | 通话录音区分讲话人接口 | 基于FunASR开发的可区分说话人的会议录音处理接口
04:30
使用国产华为昇腾芯片运行MeloTTS合成音频 | 国产华为芯片上运行TTS | 国产显卡运行TTS
20:12
华为显卡和英伟达显卡运行MeloTTS合成10万字速度对比竟然差别这么大
22:03
FunASR在智能会议系统中的应用 | 区分讲话人的智能会议系统 | 说话人日志功能接口应用 | 会议中区分不同的讲话人
11:15
f5-tts中合成数字和时间不对的问题的解决方法 | 如何解决TTS无法正确合成阿拉伯数字的问题 | 方言实时语音合成 | 实时语音合成
29:48
spark-tts语音合成接口演示 | 语音克隆 | 音色克隆 | 语音合成
10:14
会议录音转写 | 区分说话人录音转写 | 声纹识别 | 语音识别 | 通话录音转写 | funasr
04:44
会议录音转写系统 | 基于声纹识别和语音识别开发的会议录音转写系统 | FunASR
06:19
视频分割音频片段 | 批量视频分割输出音频片段
12:45
会议录音记录系统演示 | 基于ASR和声纹识别做的会议录音转写系统 | FunASR | 内网可部署的区分说话人语音转写系统
05:18
音频说话人分离演示 | 录音文件根据说话人分离 | 多说话人录音文件分离 | FunASR | 说话人日志 | 纯内网可用录音文件说话人分离
07:00
区分说话人 | 说话人分离
17:56
语音分离项目添加支持热词功能 | AudioSeparationGUI项目更新支持自定义热词 | ASR自定义热词
08:38
热词功能演示 | ASR自定义热词
06:26
部署index-tts-vllm | 语音合成项目构建docker镜像 | B站开源的TTS | index-tts-vllm在windows中部署
13:22
基于AI大模型的本地知识库问答系统部署视频 | LLM | RAG | 本地知识库问题系统
38:53
音视频提取文字工具 | 基于FunASR开发的音频和视频提取文字工具 | 基于开源模型开发的音视频提取文字工具
14:27
基于开源模型SenseVoiceSmall开发的音视频文字提取小软件 | 无需联网批量音频视频提取文本文字小工具
04:11
数据标注工具 | 基于ASR进行自动打标 | 音频转文字 | ASR | 录音转写 | ASR数据集自动打标工具
05:02
AI大模型优化ASR文字
04:08
使用Python开发的一个音视频字幕提取工具 | 无需联网可区分说话人的音视频处理工具
15:31
无需联网本地AI大模型音视频转写与内容总结软件 | 本地大模型语音转写 | 内网可用音视频转写小工具
14:15
Speaker Diarization说话人日志 | 单声道说话人日志开源模型 | 通话录音区分客户客服声音 | 单声道区分说话人语音识别
07:27
DeepSeek-OCR2部署详细教程 | 视觉多模态大模型 | DeepSeek最新开源的视觉多模态大模型本地部署详细教程
10:24
DeepSeek-OCR-2本地化部署详细教程 | 大模型处理PDF文档 | 本地化部署OCR | DeepSeek最新开源的OCR本地化部署详细教程
28:53
声纹对比 | 从海量音频中寻找你的目标音频 | 通话录音声纹对比 | 本地化声纹对比 | 人工智能声纹比对 | 基于AI寻找出你的目标音频
10:09
ClearerVoice部署详细教程 | AI分离多说话人语音 | 语音分离 | 阿里开源的语音分离工具
20:34
Linux中部署支持区分说话人的开源项目Whisperx | 区分说话人语音转写 | 语音识别 | ASR | 本地化部署区分说话人语音识别项目
23:22
本地化部署阿里最新开源的Qwen3.5B大模型
01:39
Linux部署Qwen3.5大模型 | 本地化部署大模型 | 本地化部署多模态大模型
08:18
私有化部署OpenAI开源的大模型GPT-OSS-20B | Linux部署GPT-OSS-20B大模型 | 私有化部署GPT | 大模型本地化部署
11:40
Gemma4多模态大模型 | 谷歌最新开源的多模态大模型体验 | Google开源的多模态大模型 | Gemma-4-31B大模型体验 | 最强多模态大模型之一
12:25
基于AI的会议记录转写系统 | 纯本地模型推理无需联网 | FunASR语音转文字 | FunASR区分说话人 | 声纹识别
14:47
部署阿里最新开源的Qwen3.6-35B-A3B多模态大模型 | Qwen3.6多模态大模型体验
01:23
私有化部署谷歌开源的Gemma4大模型 | 使用Gemma4多模态大模型的视觉识别来测试央视采访张雪机车 | Gemma4多模态大模型部署
10:55
坚持不懈,终于成功了 | Windows本地化部署语音降噪与人声增强
00:37
语音降噪与人声增强 | resemble enhance本地部署 | 语音降噪与人声增强体验 | 开源的语音降噪项目
08:42
与大模型实时语音通话 | AI虚拟数字人实时通话体验
08:19
客服
顶部
赛事库 课堂 2021拜年纪