如何在Windows上安装Whisper模型并听写视频

和山无月

编辑于 2024年10月05日 18:11

人工智能AI大模型

参考github官网：https://github.com/openai/whisper

安装whisper首先需要安装的的软件有 Python(3.8以上版本)，PyTorch，ffmpeg，rust。

管理员身份运行 cmd 或者 powershell 或者 anaconda prompt

1. 我之前在电脑上安装了 anaconda，配置好镜像源和环境变量，anaconda他已经给你安装好 python，python --version可以检查更新一下

2. 使用 conda 安装 pytorch：conda install pytorch::pytorch

3. 使用 conda 安装 ffmpeg：conda install anaconda::ffmpeg

4. 使用 conda 安装 rust：pip install setuptools-rust

5. 然后 pip 安装 whisper：pip install -U openai-whisper

安装完后可以运行 whisper --help 查看帮助命令和参数，看看是否安装成功。

在运行的命令中，首先是模型参数 --model，需要先下载模型，并指定模型路径，如果不先下载他会在你第一次运行命令的时候自动给下载到 C:\Users\\.cache\whisper\ 路径下面，我下了半天还没动静，最好自己先下载。

模型都是以 .pt 结尾的文件，主要有下图这些。.en (English only) 模型只适用于英文视频，英语推荐用 tiny base small medium 的 en 版本，表现比非 en 的版本要好，并且 small.en与 medium.en 之间差异不大。

非英语推荐用 large 或者 turbo模型，有 large-v1，large-v2，large-v3。

不指定模型的话默认是 turbo，他也是 large 的模型不过比 large 速度快些。

非英语一般使用 large-v3。

支持 en 的模型与支持多语言的模型。

large 模型支持的语言有：

先下载模型，模型下载地址参考：https://github.com/openai/whisper/discussions/63，具体下载链接在文件包的 whisper 文件夹下的 __init__.py 文件里面。

下载好模型文件后，用 --model_dir 指定模型路径，或放到默认路径下 C:\Users\\.cache\whisper\ 。

--device 指定用 CPU 还是 GPU，默认 cpu，设置 --device cpu，或者 --device cuda，即 gpu。

然后是输出文件夹 --output_dir，以及输出文件格式 --output_format (或者-f)，包括txt vtt srt tsv json 全部 all，默认 all

--task 是执行转录 transcribe：X->X，还是执行翻译 X->English translation，一般默认执行 transcribe，可以不用设置。

--language 指定视频语言，不指定会自动检测。

audio 最后别忘了指定输入文件视频的名字，不要有空格

C盘至少要有10G

快去运行试试模型效果吧～

Windows运行

日语测试：

用日语生肉仿佛清新氣息第三集试了试，跑了30分钟终于出了字幕。

uhm 看起来不是特别准确，效果一般。

一些词会有同音，一些发音不是很清楚的可能有错误，需要检查修改一下，一个人说的话里面没有空格，不过至少省下了打轴和打字时间。

用自己电脑跑，large-v3 速度好慢啊，每次只出来10来行，一小时3 min……这个速度，还不如自己听(இωஇ )，24min 一天都不知道听得完不。下次试试服务器，安装也可用 conda。

英文测试：

用 small.en 试了一下一个短小的英文视频 birdsong，只就这个视频来说，效果超级棒，newell's shearwaters，kauai Oo 这些物种俗名都听出来了！这些地方 youtube 上面的 cc 字幕都是错的的，也有标点符号。下次给它听个讲座试试。

服务器运行

英文测试：13min. 33s. 的英文视频，命令为：

whisper --model small.en/medium.en/medium/large-v3/large-v3-turbo/ --model_dir /home/XX/whisper --output_dir /home/XX/whisper -f srt --language English name.mp4

从开始跑到srt生成所花的时间对比：

使用 small.en 模型花了4min

使用 medium.en 模型花了9min

使用 large-v3-turbo 模型花了2min

使用 large-v3 模型花了36min呃好久

分行数对比：

small.en：146

medium.en：146

large-v3-turbo：98

large-v3：134

用 notepad++ compare了一下，时轴有差别，一些词有差别，懒得一个个仔细检查。

听写效果对比：small.en 在一些略读连读的介词、同音词上表现得比其他三个模型要好，small.en 与 medium.en 相比，medium.en 的句子分割的地方不一样，加上了一些停顿的逗号，个人觉得 small.en 的分割更好些。large-v3 丢字了，有的地方还多了一些莫名其妙的词。large-v3 与 large-v3-turbo 相比拆开了一些句子，不太合理。turbo 速度快分行少。

总结，没有台式电脑或者服务器不要轻易尝试 large-v3，用 large-v3-turbo 就行。

本次测试英文视频听写的表现效果：small.en > medium.en > large-v3-turbo > large-v3

模型性能详见开发者文章：https://arxiv.org/pdf/2212.04356

讲座测试待补充

日语测试待补充

中文测试待补充

whisper 转录 AI大模型视频转录

cv39298266

分享至

投诉或建议