Whisper需要依赖:
Nvidia CUDA(NVIDIA开发的并行计算平台和编程模型)
Pytorch(开源深度学习框架)
FFmpeg(开源的多媒体处理工具库和开发套件)
1. 确定CUDA版本并安装 CUDA的版本取决于两方面:
Nvidia显卡驱动
所选择的PyTorch版本
打开Nvidia控制面板(一般桌面右键菜单中即包含),查看驱动版本,或在控制台输入nvidia-smi.exe


获得版本后打开CUDA发行文档查看当前驱动版本所支持的CUDA版本
https://docs.nvidia.com/cuda/cuda-toolkit-release-notes/index.html

打开PyTorch Get Started 界面对比刚才的页面选择合适的CUDA版本
https://pytorch.org/get-started/locally/

打开CUDA下载地址选择对应的CUDA版本并设置系统,根据需求选择本地安装或线上安装
https://developer.nvidia.com/cuda-toolkit-archive

安装成功后在控制台输入nvcc --version查看是否安装成功,安装成功后则有相应输出

2. 安装PyTorch 打开PyTorch Get Started 界面根据需求选择合适的安装方式,如图所示使用Pip方式安装CUDA 12.4计算平台的PyTorch,复制最下方的命令到控制台并运行
https://pytorch.org/get-started/locally/

安装完成后在Python环境下运行如下代码,若导入正常,则表示已安装成功 import torch print(torch.__version__)

3. 安装FFmpeg 打开FFmpeg下载页面,选择偏好的版本,如ffmpeg-git-essentials.7z
https://www.gyan.dev/ffmpeg/builds/

下载解压后在bin文件夹有三个.exe文件夹,将其拷贝到合适的文件夹内,并复制文件夹路径

打开系统环境变量,将复制的路径填写到Path变量中

安装成功后在控制台输入ffmpeg -version查看是否安装成功,安装成功后则有相应输出

4. 安装Whisper 打开控制台运行pip install -U openai-whisper 安装成功后在控制台输入whisper查看是否安装成功,安装成功后则有相应输出


首次使用会下载模型,耐心等待下载完成后会自动识别字幕 可使用whisper -h查看相关帮助

如可通过--model指定模型(默认为turbo),--device指定设备(默认为cuda) e.g. whisper video.mp4 --model medium --device cuda 官方Github:openai/whisper
https://github.com/openai/whisper