【IT之家评测室】OpenAI Whisper 使用体验:改变游戏规则的优雅语音转写工具
大家对速记员这个职业应该不陌生,他们在各种场合能够快速高效地记录演讲内容转化为会议记录。如果将速记员变成软件,核心功能就是语音识别加转录。在线视频 AI 字幕、线上会议 / 网课速记、生肉番剧 / 电影 / 歌曲字幕制作和转译、通话录音等需求场景都能得到满足。
速记的要点在于速度,快速度最为重要,但在许多情景中,不论是人力还是软件,无法达到超快的转录速度和准确率。专业用户高效转录需求通常需要使用付费工具。例如某品牌的语音转录畅想包订阅费用是 79 元连续包月,599 元 / 年;另一款则需要注册企业用户并咨询客服费用标准,据说标准版年费每用户 199 元,高级版年费每用户 299 元。
对于企业 / 专业用户来说,付费订阅软件无疑是最佳选择,因为它们速度快、无需高性能硬件成本(GPU)、准确率高、支持人工校对且用户甚至可以获得一对一的专属客服支持,但若只是偶尔使用,性价比可能就不高了。
此外,这些订阅软件的 AI 服务通常需要用户将原始视频或音频文件上传至服务器并全程联网,通过厂商的专业设备在云端运行。若视频或音频文件中包含个人隐私 / 商业等内容,则显然不太适宜。
Whisper简介
是否存在一款完全免费开源的、不需联网的、全依赖本地硬件算力进行语音识别和转录的准确率不低的语音转录软件?或许对于关注 AI 领域的朋友们,这个问题早已有了答案。这就是由 OpenAI 团队开发的 Whisper。根据官方介绍,Whisper早在2022年9月推出,但至今仍然是最优秀的免费语音转录工具。
为什么说它最好用呢?一是广泛支持语种(99种),二是转录速度极快,三是高准确性,而且只需一个高性能显卡即可实现,这些特点我将在后续体验中详细介绍。
首先科普一下Whisper,它是一种多模态语音识别模型,基于Transformer引擎打造,通过对68万小时语音数据的训练,支持99种语言(包括中文),不仅支持语音识别,还支持语音活性检测(VAD)、声纹识别、说话人日志(Speaker Diarization,即在多人对话场景下检测不同人物的说话时间段)、语音翻译(仅转换为英文)、语音对齐等功能。其英文识别准确率非常出色。
此外,提到的Transformer引擎,恰好NVIDIA在RTX 40系列显卡上引入了一个针对AI计算的新硬件特性。具体而言,RTX 40系列显卡新增了对FP8低精度浮点数的支持。在Transformer引擎的基础上,动态范围相当,FP8的位数更少有利于减小空间占用和提高网络利用效率,允许模型具有更多参数量,从而实现更快的计算。
有趣的是,OpenAI至今发布的主要大型模型,包括GPT、Sora、Dell以及今天提到的Whisper,都是基于Transformer模型开发,这类模型拥有巨大的参数量,并利用了Transformer模型的可扩展性特性。
此外,OpenAI团队还注意到Transformer模型的自我关注机制,使其能够理解序列中任意两个词元之间的关系并无视距离,提高输出的质量和连贯性。自我关注还可以扩展为多头关注,使模型将数据信息精细切割为矩阵,然后分别对每个矩阵进行自我关注计算,最终合并输出。
通过这两种机制,Transformer模型捕获的信息更加全面,学习和表达能力也更加突出。正是由于OpenAI将Transformer模型作为产品发展平台的策略,以及RTX 40系显卡对FP8 Transformer引擎的支持,才使RTX 40系显卡适合成为普通消费者体验Whisper最佳的硬件选择。
这就不得不提及本次体验中使用的两个重要硬件,第一个是i9-14900K处理器,作为最新一代消费级市场旗舰级定位的CPU,拥有24核心32线程的核心规格,最高睿频频率可达6GHz,不仅性能强劲,也不会影响显卡性能发挥。
而主角是影驰GeForce RTX 4070 Ti SUPER星曜OC显卡,基于AD103核心,包含8448个CUDA核心,显存位宽提升至256bit,具备16GB GDDR6X大显存。
第四代Tensor Cores核心专为AI而生,新增的FP8引擎支持,让其拥有高达1.32 petaflops的Tensor处理性能,可实现混合精度计算,动态调整算力,使其对于万亿级参数生成式AI模型的训练速度提升4倍,性能达到FP16的6倍,推理性能提升30倍,非常适合体验Whisper的性能。
外观上,影驰GeForce RTX 4070 Ti SUPER星曜OC显卡设计感超强,采用纯白卡身装甲,自带亚克力“水晶”外壳,搭载有RGB光环特效的三风扇,附送专属定制显卡支架,极具美感,搭配白色海景房简直是完美搭配。
若要运行AI,需选择Studio驱动以获得最佳性能,否则速度可能不太理想。目前NVIDIA官网提供的最新Studio驱动版本为555.99。
部署Whisper
Whisper是一个模型而非软件,基于Python编程语言开发,使用原版部署需要通过命令行来运行。现在已有许多支持Whisper的GUI软件,其中简单易用的代表有Buzz和Whisper Desktop。
这两款GUI软件的优势在于它们免费、体积小。Buzz最新v0.8.4版本安装包仅197MB,完整安装后占用约1.21GB,而Whisper Desktop却只需324kb大小的单文件和一个配置文件即可运行。
这两款软件界面非常简单,易于上手。例如,Buzz主要通过CPU进行Whisper的运行,兼容性较高,支持Windows、Linux和MacOS系统平台。Windows和MacOS用户可以通过GitHub下载,而Mac App Store版本售价为9.99美元,不推荐非专业用户。
安装Buzz后,需下载Whisper的模型文件,建议通过Huggingface镜像站下载,该站点包含Whisper模型合集,并会定期更新。
Whisper提供Tiny、Base、Small、Medium和Large五种不同规模的模型,体积随规模递增,模型越大处理音频时间越长,但准确率也更高。建议用户下载所有模型进行尝试。
需要注意的是,原版模型文件后缀为.pt,如果下载的文件名后缀不同,可能是经过他人转换或微调后的模型。下载完成后,将所有模型文件统一存放在“C:\Users\电脑用户名\.cache\whisper”目录下,部署流程即可完成。
打开Buzz后,界面非常简单,点击麦克风按钮系统声音采集以分析音视频中的语音,但此方式的识别精度较低,建议手动选择本地音视频文件进行运算更加可靠。
选择文件后,将弹出菜单窗口,需要依次选择模型类型、模型大小、处理方式以及识别语言,然后选择字幕文件类型。
这里加入了一些中文注释,模型类型选择第一个Whisper即可,理论上,对于英语音频选择Small模型即可获得良好效果,而中文音频可能需要选择Medium或Large模型,处理类型选择转写。请注意,转译仅将结果翻译成英文,且只能翻译成英文。
如有对排版要求,请确保勾选文字时间戳选项,否则结果会显得拥挤,现有版本的Buzz文字时间戳选项存在BUG,勾选后速度较慢,每行几乎只有一个单词或单字,但在不勾选情况下每句话会被分段,最后按需选择导出文档类型。
选择完成后,点击右下角的“Run”按钮即可开始运行,Buzz将显示当前识别进度,直至转写完成。
当识别进度显示为Completed(已完成)状态时,选中列表中的文件,点击双箭头图标,会显示识别结果的预览窗口,其中记录了每句话的时间起始和转写结果,再次点击下载按钮选择导出文档类型即可下载至电脑。
另外,Whisper Desktop的部署较为简单。打开Whisper Desktop,选择模型即可,然后选择GPU,最后点击转写按钮进行转写。
对比测试
在测试中,我们将进行四组不同语种、语速、类型的音源文件比较,对比内容涵盖识别 + 转录速度和识别准确率,以Buzz软件 + i9-14900K处理器和Whisper Desktop + GeForce RTX 4070 Ti SUPER显卡进行比照。
首先观察中文识别效果。我们下载了一段锤子科技在鸟巢举办的新品发布会上老罗演示TNT功能的视频片段,并制作为去除观众声音的5分30秒MP3音频文件。这段中文语音包含中文、英文和数字,对Whisper综合实力提出挑战。
在相同选择Large模型的情况下,以i9-14900K处理器运行Buzz,转录耗时约3分08秒,Whisper Desktop选择GeForce RTX 4070 Ti SUPER显卡运行,转录仅需26秒,速度是Buzz的1/6,这显示了配备Transformer引擎的显卡对Whisper效率提升的显著影响。
Buzz和Whisper Desktop在无时间戳文本类型的TXT文件格式下转录排版效果相近,基本都能按照句子分行。
在转录字数方面,Buzz转录字数为910字,Whisper Desktop为933字。在