参考github官网:https://github.com/openai/whisper
安装whisper首先需要安装的的软件有 Python(3.8以上版本),PyTorch,ffmpeg,rust。
管理员身份运行 cmd 或者 powershell 或者 anaconda prompt
1. 我之前在电脑上安装了 anaconda,配置好镜像源和环境变量,anaconda他已经给你安装好 python,python --version可以检查更新一下
2. 使用 conda 安装 pytorch:conda install pytorch::pytorch
3. 使用 conda 安装 ffmpeg:conda install anaconda::ffmpeg
4. 使用 conda 安装 rust:pip install setuptools-rust
5. 然后 pip 安装 whisper:pip install -U openai-whisper
安装完后可以运行 whisper --help 查看帮助命令和参数,看看是否安装成功。

在运行的命令中,首先是模型参数 --model,需要先下载模型,并指定模型路径,如果不先下载他会在你第一次运行命令的时候自动给下载到 C:\Users\\.cache\whisper\ 路径下面,我下了半天还没动静,最好自己先下载。
模型都是以 .pt 结尾的文件,主要有下图这些。.en (English only) 模型只适用于英文视频,英语推荐用 tiny base small medium 的 en 版本,表现比非 en 的版本要好,并且 small.en与 medium.en 之间差异不大。
非英语推荐用 large 或者 turbo模型,有 large-v1,large-v2,large-v3。
不指定模型的话默认是 turbo,他也是 large 的模型不过比 large 速度快些。
非英语一般使用 large-v3。

支持 en 的模型与支持多语言的模型。

large 模型支持的语言有:

先下载模型,模型下载地址参考:https://github.com/openai/whisper/discussions/63,具体下载链接在文件包的 whisper 文件夹下的 __init__.py 文件里面。

下载好模型文件后,用 --model_dir 指定模型路径,或放到默认路径下 C:\Users\\.cache\whisper\ 。
--device 指定用 CPU 还是 GPU,默认 cpu,设置 --device cpu,或者 --device cuda,即 gpu。
然后是输出文件夹 --output_dir,以及输出文件格式 --output_format (或者-f),包括txt vtt srt tsv json 全部 all,默认 all
--task 是执行转录 transcribe:X->X,还是执行翻译 X->English translation,一般默认执行 transcribe,可以不用设置。
--language 指定视频语言,不指定会自动检测。
audio 最后别忘了指定输入文件视频的名字,不要有空格
C盘至少要有10G
快去运行试试模型效果吧~
Windows运行
日语测试:
用日语生肉仿佛清新氣息第三集试了试,跑了30分钟终于出了字幕。

uhm 看起来不是特别准确,效果一般。
一些词会有同音,一些发音不是很清楚的可能有错误,需要检查修改一下,一个人说的话里面没有空格,不过至少省下了打轴和打字时间。
用自己电脑跑,large-v3 速度好慢啊,每次只出来10来行,一小时3 min……这个速度,还不如自己听(இωஇ ),24min 一天都不知道听得完不。下次试试服务器,安装也可用 conda。
英文测试:
用 small.en 试了一下一个短小的英文视频 birdsong,只就这个视频来说,效果超级棒,newell's shearwaters,kauai Oo 这些物种俗名都听出来了!这些地方 youtube 上面的 cc 字幕都是错的的,也有标点符号。下次给它听个讲座试试。

服务器运行
英文测试:13min. 33s. 的英文视频,命令为:
whisper --model small.en/medium.en/medium/large-v3/large-v3-turbo/ --model_dir /home/XX/whisper --output_dir /home/XX/whisper -f srt --language English name.mp4
从开始跑到srt生成所花的时间对比:
使用 small.en 模型花了4min
使用 medium.en 模型花了9min
使用 large-v3-turbo 模型花了2min
使用 large-v3 模型花了36min呃好久
分行数对比:
small.en:146
medium.en:146
large-v3-turbo:98
large-v3:134
用 notepad++ compare了一下,时轴有差别,一些词有差别,懒得一个个仔细检查。
听写效果对比:small.en 在一些略读连读的介词、同音词上表现得比其他三个模型要好,small.en 与 medium.en 相比,medium.en 的句子分割的地方不一样,加上了一些停顿的逗号,个人觉得 small.en 的分割更好些。large-v3 丢字了,有的地方还多了一些莫名其妙的词。large-v3 与 large-v3-turbo 相比拆开了一些句子,不太合理。turbo 速度快分行少。
总结,没有台式电脑或者服务器不要轻易尝试 large-v3,用 large-v3-turbo 就行。
本次测试英文视频听写的表现效果:small.en > medium.en > large-v3-turbo > large-v3
模型性能详见开发者文章:https://arxiv.org/pdf/2212.04356
讲座测试待补充
日语测试待补充
中文测试待补充