PotPlay的生成有声字幕与实时字幕翻译

对于potplay，以前我基本是安装后不考虑升级。今天在播放一个文件时，就想到现在会议软件都实时字幕生成功能，那potplay是不是也有这个功能呢？基于高版本原则，先更新了，还真找到相关功能。

本文目录 隐藏

生成字幕的配置

在没有更新前，以及更新后的第一次打开前，都没有这个红框菜单项（此时，已配置好下图中绿框选项）；在第一次打开后，提示字幕生成功后，但没有出现字幕，就再去找，发现有了。

如果你机器性能够，将自动生成配置为“播放开始时无字幕则自动生成”，不然建议配置为“禁用自动生成”+快捷键手工点开始生成。

不过先别急着配置，先了解一下引擎与模型；也可以将电脑配置发给deepseek，看适合使用哪一个，但注意了，现在的AI有点胡说了。

文字链接：可以打开文件夹，不同引擎不同型号，目录不同。
？按钮：跳转到网站。
下载按钮：在potplayer中下载。
开始按钮：如果引擎与型号/模型没有下载，会自动下载，但模型下载需要有python环境。

先自定义快捷键：

生成字幕的引擎

在250909版本里，一共有6种。Whisper是OpenAI发布的一个开源语音识别模型，能够执行99种语言的语音识别和文字转写。而whisper.cpp是用 CPU 的 C/C++ 编写的，

Whisper.cpp CPU、Whisper.cpp BLAS：使用CPU计算，区别在于BLAS需要数学库支持，比如：OpenBLAS或Intel MKL。
- BLAS由于有了数学库支持，可以提升计算效率。
- whisper-bin-x64.zip只有3.7M，而whisper-blas-bin-x64.zip只有15.6M，注意要先安装数学库支持。
- 但从上面下载，解压到C:\Program Files\DAUM\PotPlayer\Module\Whisper对应目录里，也没有用。potplayer好像有专用版本，使用自带的就行了，或会自动下载，但支持格式有限supported audio formats: flac, mp3, ogg, wav
Whisper.cpp Vulkan、Whisper.CUDA、Whisper.Const-me：借助GPU计算，但先使用GPU-Z之类工具，看显卡是否支持Vulkan、CUDA、Direct3D 11
Whisper-Faster：是基于OpenAI的Whisper模型，利用了CTranslate2，一个专为Transformer模型设计的快速推理引擎。Faster Whisper在保持原有模型准确度的同时，大幅提升了处理速度，并优化了内存使用效率。
- Faster-Whisper r192.3已弃用，转向Whisper-Faster-XXL
Whisper-Faster-XXL：简单理解Whisper-Faster的加大号，参数量更多，GPU与显存的性能要求更高，计算速度慢，但精度是最高的
- Faster-Whisper-XXL_r245.4_windows.7z下载前提前想好，1.33G，网上所有免费github代理全部下载失败或龟速（个别的在1G前，速度好，1G之后直接没了），且要Windows 10+ x86_64；
- 查看最新版本，另外，还有pro的捐赠版本。
- 如果能直接访问github，就直接点下载按钮，或者点？按钮，会自动打开github网站

生成字幕的模型

不同引擎的模型，是不同的。potplay可以自动下载，但得要有python环境。共有五种模型尺寸：

tiny、base、small、medium、large：参数量依次由小到大。
tiny.en、base.en、small.en、medium.en：仅支持英文版本，在速度和准确性之间取得了权衡。
large-v1、large-v2、large-v3、large-v3-turbo：模型变体，例如标准版与Turbo版。

选择哪个模型，本质上是在速度、精度和资源消耗之间做权衡。 可以参考以下思路：

追求极致速度与低资源消耗：如果你的场景对实时性要求很高，或者硬件资源有限（例如在树莓派或手机上），Tiny或Base模型是理想起点。
平衡速度与精度：对于大多数日常应用，如语音助手或一般的音频转文字，Small或Medium模型在速度和准确度之间取得了很好的平衡。
追求最高准确率：如果任务对转录准确性要求极高，且你拥有强大的GPU（例如显存10GB以上），那么Large模型（即可能被称作”XXL”的版本）是最佳选择
- 关于Large-V2与Large-V3，有一个重要细节需要注意：有用户报告指出，large-v3 模型在某些情况下可能会出现”幻觉”现象，例如虚构一些音频中不存在的内容或重复单词。相比之下，large-v2 版本在相同条件下表现更为稳定。

具体下载位置：

Whisper.cpp的Moldes：只需要下载没有后缀的是16位版本：ggml-{tiny/base/small}.bin的文件，ggml-XXXX-q8/5_0.bin是8/5位的量化版本，而ggml-tiny-encoder.mlmodelc.zip是给苹果系统使用的。
Whisper-Faster的Moldes：选型参考页面。
- Systran/faster-whisper-samll：486M 网站下载、网盘下载
- Systran/faster-whisper-medium：1.5G 网站下载、网盘下载
- Systran/faster-whisper-large-v2：3.1G 网站下载、网盘下载
- Systran/faster-whisper-large-v3：3.1G 网站下载、网盘下载

Size	Parameters	English-only model	Multilingual model	Required VRAM	Relative speed
tiny	39 M	tiny.en	tiny	~1 GB	~10x
base	74 M	base.en	base	~1 GB	~7x
small	244 M	small.en	small	~2 GB	~4x
medium	769 M	medium.en	medium	~5 GB	~2x
large	1550 M	N/A	large	~10 GB	1x
turbo	809 M	N/A	turbo	~6 GB	~8x

开始生成字幕

出现了时间戳和文字，就表明开始语音转文字了。

Win11+J4125+8G 实践（我就不信，你的机器配置比这个还低。）：

使用xxl+samll，对一个55分钟的日文MP4生成字幕，耗时50分钟。
还是这个文件，使用xxl+medium，耗时108分钟，比samll长了一倍；但质量明显比samll好些。

实时字幕翻译

下载用于字幕翻译的百度翻译两个文件，放到对应的文件夹里。
- 在配置页面，点打开文件夹按钮；如果已经放到目录里，不是没有，点再次搜索按钮。
需要在百度开发者中心开通“通用文本翻译”服务，高级版本一个月免费100万字符，再在“开发者信息”中查看自己的APP ID与密钥，到PotPlayer中配置“账户设置”
就可以开始使用了，但由于是AI语音生成字幕+百度不靠谱翻译(但免费)，只能是说比没有更好些。

PotPlay的生成有声字幕与实时字幕翻译

生成字幕的配置

生成字幕的引擎

生成字幕的模型

开始生成字幕

实时字幕翻译

发表回复取消回复

更多文章与分类

Ubuntu Server 24.04中的unattended-upgrades与fwupd

Obsidian 工作笔记中插件

Obsidian 的操作与配置

logrotate 切割日志的两种策略 copytruncate 和 sendsignal

PotPlay的生成有声字幕与实时字幕翻译

生成字幕的配置

生成字幕的引擎

生成字幕的模型

开始生成字幕

实时字幕翻译

发表回复 取消回复

更多文章与分类

Ubuntu Server 24.04中的unattended-upgrades与fwupd

Obsidian 工作笔记中插件

Obsidian 的操作与配置

logrotate 切割日志的两种策略 copytruncate 和 sendsignal

发表回复取消回复