【IT之家评测室】OpenAI Whisper 使用体验:改变游戏规则的优雅语音转写工具
速记员这一职业众所周知,他们能够迅速高效地将演讲内容转录为会议记录。如果将速记员变身为软件,核心功能将是语音识别加转录。这类需求涵盖范围广泛,涵盖在线视频AI字幕、在线会议/网课速记、生肉番剧/电影/歌曲字幕制作和转译、通话录音等。
速记的核心优势在于速度,快速至关重要。然而,在许多情境下,无论是人力还是软件,都难以达到超高速度和准确度。专业用户需要高效转录工具,通常需要付费获取。因此,某些品牌的语音转录服务包以月租费用79元或年费599元的价格提供。另一款服务需要企业用户注册,并联系客服咨询费用。据悉,标准版每用户年费199元,高级版则为每用户年费299元。
对于企业或专业用户来说,付费订阅软件通常是最佳选择。这些软件速度快、无需高性能硬件成本(GPU)、准确度高、支持人工校对,用户可得到专属客服支持。然而,对于偶尔使用的用户来说,性价比可能不太高。
此外,这些订阅软件的AI服务通常要求用户上传原始视频或音频文件,并持续联网。文件将在厂商专业设备上云端运行。但如果文件中包含个人隐私或商业内容,则不太适合。
关于 Whisper
是否存在一款完全免费开源、不需联网、依赖本地硬件运行且准确率不低的语音转录软件呢?或许喜欢关注AI领域的用户早已有了答案。这款软件就是OpenAI团队开发的Whisper。从官网资料可知,Whisper早在2022年9月推出,但至今仍然是最优秀的免费语音转录工具。
Whisper之所以被认为最佳使用原因有三点:语种支持广泛(99种)、转录速度快、识别准确性高且只需一张高性能显卡即可进行,这些特点将在后续体验中详细展开。
首先进行简单介绍Whisper,它是一种多模态语音识别模型,基于Transformer引擎打造,训练时间长达68万小时,支持99种语言(包括中文)。除了拥有语音识别能力外,还支持语音活性检测、声纹识别、说话人分辨等多项能力,其英文识别准确率非常突出。
此外,值得一提的是,NVIDIA在RTX 40系列显卡上推出了一项针对AI计算的新硬件特性。具体来说,RTX 40系显卡新增对FP8低精度浮点数的支持。FP8相较于AI训练常用的FP16半精度浮点数,动态范围相近,但在相同加速平台上的性能要显著超越FP16,FP8位数更少有利于节省空间占用,提升网络利用效率,允许模型参数更大,从而提高运行速度。
OpenAI团队推出的大型模型,如GPT、Sora.、Dell以及Whisper等都是基于Transformer模型打造。这些模型参数庞大,利用了Transformer模型的可扩展特性,能够无限叠加参数和神经网络层数,提供更强大的AI能力。
除此之外,OpenAI团队还意识到Transformer模型的自我关注机制,使其能够理解序列中任意两个词汇之间的联系,并忽略距离,提高输出质量和连贯性。自我关注还可扩展为多头关注,允许模型将数据信息分割成矩阵进行自我关注计算,最终合并输出。
在这两种机制下,Transformer模型捕获的信息更加全面,学习和表达能力更强。OpenAI将Transformer模型作为产品发展平台的战略之一,加上RTX 40系显卡对FP8 Transformer引擎的支持,使RTX 40系显卡成为最适合体验Whisper的硬件。
现阶段体验中使用到的两个关键硬件是i9-14900K处理器,作为最新一代消费级市场旗舰级定位的CPU,拥有24核心32线程的核心规格,最高睿频频率可达6GHz,不仅性能强劲,也不会影响显卡性能。
另一个主角是影驰GeForce RTX 4070 Ti SUPER星曜OC显卡,采用AD103核心打造,包含8448个CUDA核心,显存位宽提升至256bit,拥有16GB GDDR6X显存。
显卡搭载的第四代Tensor Cores核心专为AI而设计,新增的FP8引擎支持,提供高达1.32PetaFlops的Tensor处理性能,可实现混合精度计算,动态调整计算能力,为万亿级参数的生成式AI模型训练速度提升4倍,性能可达FP16的6倍,推理性能提升30倍,非常适合测试Whisper性能。
此外,影驰GeForce RTX 4070 Ti SUPER星曜OC显卡的外观设计优美,采用纯白卡身装甲,附带亚克力外壳,三风扇支持RGB光效,还有专属定制支架,外观非常吸引眼球,特别是用来打造白色海景房时非常搭配。
若要运行AI,显卡驱动最好选择Studio驱动,否则可能无法达到预期速度。目前NVIDIA官网提供的最新Studio驱动版本为555.99。
部署 Whisper
Whisper是一个模型而不是软件,基于Python编程语言开发。直接下载GitHub上的原版需要通过命令行工具运行。但目前已有不少支持Whisper的GUI软件,其中简单易用的有Buzz和Whisper Desktop。
选择这两款GUI软件的理由很简单,首先它们都是免费的,体积很小。Buzz最新v0.8.4版本安装包大小仅197MB,安装后空间占用约1.21GB,而Whisper Desktop只需324kb大小的单文件和一个配置文件即可运行。
两款软件界面非常简单易用,主要先说Buzz,通过CPU运行Whisper,兼容性更广,支持Windows、Linux和macOS系统。用户可从GitHub下载,Mac App Store的版本售价9.99美元,非专业用户不推荐购买。
安装Buzz后,需下载Whisper模型文件。建议通过Huggingface下载Whisper模型的合集专题页,保持更新。
Whisper提供了Tiny、Base、Small、Medium和Large五大不同模型,体积逐级增大,模型越大需要处理的音频时间越长,准确性越高。建议用户一次性下载所有大小模型进行评测。
需要注意的是,原版模型文件名后缀为.pt。如文件名后缀不同很可能是别人转换或微调后的模型。下载完成后,需统一将所有模型文件存放在“C:\Users\ 电脑用户名 \.cache\whisper”文件路径下,部署流程完毕,操作简单。
运行Buzz后,界面简洁明了,点击麦克风按钮采集系统声音来分析音视频中的语音。然而,此方式识别准确度较低,推荐手动选择本地音视频文件进行操作。
点击“+”选择文件后,会弹出菜单窗口,需要依次选择模型类型、大小、处理方式和识别语言,最后在导出选项中选择字幕文件类型。
中文注释指导如何选择模型类型,理论上,转录英语音频选择Small模型即可,而中文音频可能需要Medium或Large模型。选择处理类型为转录,注意转译是将识别结果翻译成英文,只支持英文翻译,有一定局限性。
勾选文字时间戳选项可确保识别结果的正确排版。此前Buzz时间戳选项存在bug,勾选会使识别速度减慢,每行识别结果几乎只有一个词。而不勾选可实现每句话分段,最终根据需求选择导出文档类型。
完成前的所有操作后,点击右下角的“Run”按钮即可启动识别。Buzz显示当前识别进度百分比,直至转写完成。
识别进度显示为Completed(已完成)后,选择文件并点击“+”旁的双箭头图标,将显示识别结果预览窗口,包括每句话的时间信息和转录结果。再次点击右下角的下载按钮并选择导出文档类型即可下载到电脑。
针对Whisper Desktop,打开后需先选择模型。Whisper Desktop无需指定模型存放目录,只需手动选择模型地址即可。
Whisper Desktop模型文件不使用.pt后缀,而是.bin后缀,文件名中会包含ggml-model字样,这是经过转换后的模型文件。
它实际上是Whisper的ggml版本,ggml是机器学习用的张量库,其模型文件为.bin格式的二进制文件,转录效果与Whisper相同。
选择GPU模式后,在高级参数设置中,若有独显选择独显,无独显选择核显。使用影驰GeForce RTX 4070 Ti SUPER星曜OC显卡即可。
设置完成后点击OK进入二级页面,操作步骤与Buzz类似,中文注释标明如何操作,方便用户了解。设置完成后点击右下方的Transcribe(转录)按钮。
对比测试
测试环节包括四组不同语种、语速、类型的音源文件比较,对比项包括转录速度和识别准确率,对比对象是使用Buzz软件+i9-14900K的CPU和使用Whisper Desktop+影驰GeForce RTX 4070 Ti SUPER星曜OC显卡的GPU。
首先对比中文转录效果,选择了一段锤子科技在鸟巢举办新品发布会上老罗对TNT功能进行演示的视频,转为去除观众声音的5分30秒MP3音频文件。此中文语音中含有中文、英文和数字,考验Whisper的综合能力。
在使用Large模型的情况下,Buzz使用i9-14900K处理器转录耗时约3分08秒,而Whisper Desktop使用影驰GeForce RTX 4070