Whisper 是一个由 OpenAI 训练并开源的神经网络,在英语语音识别方面的稳健性和准确性接近人类水平。whisper.cpp 项目是将 Whisper 移植到 C/C++ 中,而今天介绍的 Const-me/Whisper
项目则是 whisper.cpp 在 Windows 上的实现,并增加了显卡的支持,使得速度大幅提升。@appinn
来自发现频道,@JoeCubber 同学推荐:https://meta.appinn.net/t/topic/41478
语音转录工具,类似青小蛙之前推的buzz,但是使用GPU速度更快
Buzz 是青小蛙在去年 11 月推荐的一个工具:Buzz – 开源、可离线的实时语音转文字工具,支持 Windows、macOS、Linux,它可以将麦克风的语音实时转换为文字,也支持将视频、音频文件转换为文字、字幕。
下载 Whisper 模型
而 Const-me 的这个名为 Whisper 的项目,目前仅提供 Windows 版本,使用简单,需要先下载模型:
开发者推荐 ggml-medium.bin
,因为一直在使用这个模型进行测试,1.53 GB 大小。
使用 Whisper
在 Model Path 里面选择你下载的模型,然后选择 GPU 就能进入软件了。
之后,就可以选择通过麦克风实时转换,或者使用音频文件比如 MP3 来转换为文字了:
青小蛙随便测试了一个极客湾的视频(仅下载了音频),效果如下:
准确度很高,基本上比较满意。
由于是在虚拟机中测试,显卡性能有限,所以时间不具有参考性。
不过,开发者的测试是在装有 GeForce 1080Ti GPU 的台式电脑上,中型模型,3 分 24 秒语音使用 PyTorch 和 CUDA 转录需要 45 秒,但使用这个和 DirectCompute 只需要 19 秒。而 @JoeCubber 同学测试的是 11:31 分钟的音频,耗时1分26秒完成。
当然,你需要有显卡。
实在是没想到,挖矿之后,显卡又有了用武之地。
获取
- Github(点击右侧 Releases 部分直接下载 WhisperDesktop.zip 即可)
ggml-medium.bin
模型搬运:夸克网盘
原文:https://www.appinn.com/const-me-whisper/
22′04″的音频,转录耗时2′34″,基本准确
感谢分享
这个真的好用,4060ti 5分钟搞定2h的日本电影,GPU性能拉满了。buzz那个是cpu硬跑,32G内存吃满,慢的不行。
language那边能设置目标语言吗?比如识别英文翻译成中文,或者识别英文翻译到中文,自定义方向和语言种类。