PotPlay的生成有声字幕与实时字幕翻译

AI为生活带来便利

对于potplay,以前我基本是安装后不考虑升级。今天在播放一个文件时,就想到现在会议软件都实时字幕生成功能,那potplay是不是也有这个功能呢?基于高版本原则,先更新了,还真找到相关功能。

生成字幕的配置

在没有更新前,以及更新后的第一次打开前,都没有这个红框菜单项(此时,已配置好下图中绿框选项);在第一次打开后,提示字幕生成功后,但没有出现字幕,就再去找,发现有了。

如果你机器性能够,将自动生成配置为“播放开始时无字幕则自动生成”,不然建议配置为“禁用自动生成”+快捷键手工点开始生成。

不过先别急着配置,先了解一下引擎与模型;也可以将电脑配置发给deepseek,看适合使用哪一个,但注意了,现在的AI有点胡说了。

  • 文字链接:可以打开文件夹,不同引擎不同型号,目录不同。
  • ?按钮:跳转到网站。
  • 下载按钮:在potplayer中下载。
  • 开始按钮:如果引擎与型号/模型没有下载,会自动下载,但模型下载需要有python环境。

先自定义快捷键:

生成字幕的引擎

在250909版本里,一共有6种。Whisper是OpenAI发布的一个开源语音识别模型,能够执行99种语言的语音识别和文字转写。而whisper.cpp是用 CPU 的 C/C++ 编写的,

  • Whisper.cpp CPU、Whisper.cpp BLAS:使用CPU计算,区别在于BLAS需要数学库支持,比如:OpenBLAS或Intel MKL。
    • BLAS由于有了数学库支持,可以提升计算效率。
    • whisper-bin-x64.zip只有3.7M,而whisper-blas-bin-x64.zip只有15.6M,注意要先安装数学库支持。
    • 但从上面下载,解压到C:\Program Files\DAUM\PotPlayer\Module\Whisper对应目录里,也没有用。potplayer好像有专用版本,使用自带的就行了,或会自动下载,但支持格式有限supported audio formats: flac, mp3, ogg, wav
  • Whisper.cpp Vulkan、Whisper.CUDA、Whisper.Const-me:借助GPU计算,但先使用GPU-Z之类工具,看显卡是否支持Vulkan、CUDA、Direct3D 11
  • Whisper-Faster:是基于OpenAI的Whisper模型,利用了CTranslate2,一个专为Transformer模型设计的快速推理引擎。Faster Whisper在保持原有模型准确度的同时,大幅提升了处理速度,并优化了内存使用效率。
  • Whisper-Faster-XXL:简单理解Whisper-Faster的加大号,参数量更多,GPU与显存的性能要求更高,计算速度慢,但精度是最高的
    • Faster-Whisper-XXL_r245.4_windows.7z下载前提前想好,1.33G,网上所有免费github代理全部下载失败或龟速(个别的在1G前,速度好,1G之后直接没了),且要Windows 10+ x86_64;
    • 查看最新版本,另外,还有pro的捐赠版本。
    • 如果能直接访问github,就直接点下载按钮,或者点?按钮,会自动打开github网站

生成字幕的模型

不同引擎的模型,是不同的。potplay可以自动下载,但得要有python环境。共有五种模型尺寸:

  • tiny、base、small、medium、large:参数量依次由小到大。
  • tiny.en、base.en、small.en、medium.en:仅支持英文版本,在速度和准确性之间取得了权衡。
  • large-v1、large-v2、large-v3、large-v3-turbo:模型变体,例如标准版与Turbo版。

选择哪个模型,本质上是在速度、精度和资源消耗之间做权衡。 可以参考以下思路:

  • 追求极致速度与低资源消耗:如果你的场景对实时性要求很高,或者硬件资源有限(例如在树莓派或手机上),Tiny或Base模型是理想起点。
  • 平衡速度与精度:对于大多数日常应用,如语音助手或一般的音频转文字,Small或Medium模型在速度和准确度之间取得了很好的平衡。
  • 追求最高准确率:如果任务对转录准确性要求极高,且你拥有强大的GPU(例如显存10GB以上),那么Large模型(即可能被称作”XXL”的版本)是最佳选择
    • 关于Large-V2与Large-V3,有一个重要细节需要注意:有用户报告指出,large-v3 模型在某些情况下可能会出现”幻觉”现象,例如虚构一些音频中不存在的内容或重复单词。相比之下,large-v2 版本在相同条件下表现更为稳定。

具体下载位置:

  • Whisper.cpp的Moldes:只需要下载没有后缀的是16位版本:ggml-{tiny/base/small}.bin的文件,ggml-XXXX-q8/5_0.bin是8/5位的量化版本,而ggml-tiny-encoder.mlmodelc.zip是给苹果系统使用的。
  • Whisper-Faster的Moldes:选型参考页面
    • Systran/faster-whisper-samll:486M 网站下载、网盘下载
    • Systran/faster-whisper-medium:1.5G 网站下载、网盘下载
    • Systran/faster-whisper-large-v2:3.1G 网站下载、网盘下载
    • Systran/faster-whisper-large-v3:3.1G 网站下载、网盘下载
SizeParametersEnglish-only modelMultilingual modelRequired VRAMRelative speed
tiny39 Mtiny.entiny~1 GB~10x
base74 Mbase.enbase~1 GB~7x
small244 Msmall.ensmall~2 GB~4x
medium769 Mmedium.enmedium~5 GB~2x
large1550 MN/Alarge~10 GB1x
turbo809 MN/Aturbo~6 GB~8x

开始生成字幕

出现了时间戳和文字,就表明开始语音转文字了。

Win11+J4125+8G 实践(我就不信,你的机器配置比这个还低。):

  • 使用xxl+samll,对一个55分钟的日文MP4生成字幕,耗时50分钟。
  • 还是这个文件,使用xxl+medium,耗时108分钟,比samll长了一倍;但质量明显比samll好些。

实时字幕翻译

  1. 下载用于字幕翻译的百度翻译两个文件,放到对应的文件夹里。
    • 在配置页面,点打开文件夹按钮;如果已经放到目录里,不是没有,点再次搜索按钮。
  2. 需要在百度开发者中心开通“通用文本翻译”服务,高级版本一个月免费100万字符,再在“开发者信息”中查看自己的APP ID与密钥,到PotPlayer中配置“账户设置”
  3. 就可以开始使用了,但由于是AI语音生成字幕+百度不靠谱翻译(但免费),只能是说比没有更好些。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注