对于potplay,以前我基本是安装后不考虑升级。今天在播放一个文件时,就想到现在会议软件都实时字幕生成功能,那potplay是不是也有这个功能呢?基于高版本原则,先更新了,还真找到相关功能。

生成字幕的配置
在没有更新前,以及更新后的第一次打开前,都没有这个红框菜单项(此时,已配置好下图中绿框选项);在第一次打开后,提示字幕生成功后,但没有出现字幕,就再去找,发现有了。

如果你机器性能够,将自动生成配置为“播放开始时无字幕则自动生成”,不然建议配置为“禁用自动生成”+快捷键手工点开始生成。

不过先别急着配置,先了解一下引擎与模型;也可以将电脑配置发给deepseek,看适合使用哪一个,但注意了,现在的AI有点胡说了。
- 文字链接:可以打开文件夹,不同引擎不同型号,目录不同。
- ?按钮:跳转到网站。
- 下载按钮:在potplayer中下载。
- 开始按钮:如果引擎与型号/模型没有下载,会自动下载,但模型下载需要有python环境。
先自定义快捷键:

生成字幕的引擎
在250909版本里,一共有6种。Whisper是OpenAI发布的一个开源语音识别模型,能够执行99种语言的语音识别和文字转写。而whisper.cpp是用 CPU 的 C/C++ 编写的,
- Whisper.cpp CPU、Whisper.cpp BLAS:使用CPU计算,区别在于BLAS需要数学库支持,比如:OpenBLAS或Intel MKL。
- BLAS由于有了数学库支持,可以提升计算效率。
- whisper-bin-x64.zip只有3.7M,而whisper-blas-bin-x64.zip只有15.6M,注意要先安装数学库支持。
- 但从上面下载,解压到
C:\Program Files\DAUM\PotPlayer\Module\Whisper对应目录里,也没有用。potplayer好像有专用版本,使用自带的就行了,或会自动下载,但支持格式有限supported audio formats: flac, mp3, ogg, wav
- Whisper.cpp Vulkan、Whisper.CUDA、Whisper.Const-me:借助GPU计算,但先使用GPU-Z之类工具,看显卡是否支持Vulkan、CUDA、Direct3D 11
- Whisper-Faster:是基于OpenAI的Whisper模型,利用了CTranslate2,一个专为Transformer模型设计的快速推理引擎。Faster Whisper在保持原有模型准确度的同时,大幅提升了处理速度,并优化了内存使用效率。
- Faster-Whisper r192.3已弃用,转向Whisper-Faster-XXL
- Whisper-Faster-XXL:简单理解Whisper-Faster的加大号,参数量更多,GPU与显存的性能要求更高,计算速度慢,但精度是最高的
- Faster-Whisper-XXL_r245.4_windows.7z下载前提前想好,1.33G,网上所有免费github代理全部下载失败或龟速(个别的在1G前,速度好,1G之后直接没了),且要Windows 10+ x86_64;
- 查看最新版本,另外,还有pro的捐赠版本。
- 如果能直接访问github,就直接点下载按钮,或者点?按钮,会自动打开github网站
生成字幕的模型
不同引擎的模型,是不同的。potplay可以自动下载,但得要有python环境。共有五种模型尺寸:
- tiny、base、small、medium、large:参数量依次由小到大。
- tiny.en、base.en、small.en、medium.en:仅支持英文版本,在速度和准确性之间取得了权衡。
- large-v1、large-v2、large-v3、large-v3-turbo:模型变体,例如标准版与Turbo版。
选择哪个模型,本质上是在速度、精度和资源消耗之间做权衡。 可以参考以下思路:
- 追求极致速度与低资源消耗:如果你的场景对实时性要求很高,或者硬件资源有限(例如在树莓派或手机上),Tiny或Base模型是理想起点。
- 平衡速度与精度:对于大多数日常应用,如语音助手或一般的音频转文字,Small或Medium模型在速度和准确度之间取得了很好的平衡。
- 追求最高准确率:如果任务对转录准确性要求极高,且你拥有强大的GPU(例如显存10GB以上),那么Large模型(即可能被称作”XXL”的版本)是最佳选择
- 关于Large-V2与Large-V3,有一个重要细节需要注意:有用户报告指出,large-v3 模型在某些情况下可能会出现”幻觉”现象,例如虚构一些音频中不存在的内容或重复单词。相比之下,large-v2 版本在相同条件下表现更为稳定。
具体下载位置:
- Whisper.cpp的Moldes:只需要下载没有后缀的是16位版本:
ggml-{tiny/base/small}.bin的文件,ggml-XXXX-q8/5_0.bin是8/5位的量化版本,而ggml-tiny-encoder.mlmodelc.zip是给苹果系统使用的。 - Whisper-Faster的Moldes:选型参考页面。
| Size | Parameters | English-only model | Multilingual model | Required VRAM | Relative speed |
|---|---|---|---|---|---|
| tiny | 39 M | tiny.en | tiny | ~1 GB | ~10x |
| base | 74 M | base.en | base | ~1 GB | ~7x |
| small | 244 M | small.en | small | ~2 GB | ~4x |
| medium | 769 M | medium.en | medium | ~5 GB | ~2x |
| large | 1550 M | N/A | large | ~10 GB | 1x |
| turbo | 809 M | N/A | turbo | ~6 GB | ~8x |
开始生成字幕
出现了时间戳和文字,就表明开始语音转文字了。

Win11+J4125+8G 实践(我就不信,你的机器配置比这个还低。):
- 使用xxl+samll,对一个55分钟的日文MP4生成字幕,耗时50分钟。
- 还是这个文件,使用xxl+medium,耗时108分钟,比samll长了一倍;但质量明显比samll好些。
实时字幕翻译
- 下载用于字幕翻译的百度翻译两个文件,放到对应的文件夹里。
- 在配置页面,点打开文件夹按钮;如果已经放到目录里,不是没有,点再次搜索按钮。
- 需要在百度开发者中心开通“通用文本翻译”服务,高级版本一个月免费100万字符,再在“开发者信息”中查看自己的APP ID与密钥,到PotPlayer中配置“账户设置”
- 就可以开始使用了,但由于是AI语音生成字幕+百度不靠谱翻译(但免费),只能是说比没有更好些。

发表回复