Buzz 是一款基于 OpenAI Whisper 的开源、可离线的实时语音转文字工具,支持 Windows、macOS、Linux,它可以将麦克风的语音实时转换为文字,也支持将视频、音频文件转换为文字、字幕。@Appinn
来自发现频道,@suliveevil 同学推荐:https://meta.appinn.net/t/topic/38263
Buzz:离线语音转文字(字幕),实时语音识别,基于 OpenAI Whisper
功能
- 实时语音转文字、实时翻译(需麦克风权限)
- 导入音频、视频文件(mp3、wav、m4a、ogg、mp4、webm、ogm),导出逐句字幕或逐词字幕(导出格式:TXT、SRT、VTT)
碎碎念
相较于 Autocut 功能更单一,专注于语音转文字、字幕生成。
相较于命令行 Python 版 Whisper 速度更快,有 GUI 对普通用户更友好。
由于支持离线,所以…尺寸是一个很大的问题,目前的安装包吃吃:
- Buzz-0.5.8-mac.dmg 330 MB
- Buzz-0.5.8-unix.tar.gz 1.5 GB
- Buzz-0.5.8-windows.tar.gz 261 MB
- Buzz.exe 161 MB
还是很可观的。
Whisper 是什么?
Whisper 是一种通用语音识别模型。它利用各种大型数据集上的音频进行训练,也是一个多任务模型,可以执行多语言语音识别以及语音翻译和语言识别。
在第一次使用 Buzz 的时候,会下载 Whisper 的模型,根据不同的质量要求,模型尺寸也非常可观:
质量 | 尺寸 | English-only model | Multilingual model | 必需的显存 | 行对速度 |
---|---|---|---|---|---|
tiny | 39 M | tiny.en | tiny | ~1 GB | ~32x |
base | 74 M | base.en | base | ~1 GB | ~16x |
small | 244 M | small.en | small | ~2 GB | ~6x |
medium | 769 M | medium.en | medium | ~5 GB | ~2x |
large | 1550 M | N/A | large | ~10 GB | 1x |
Whisper 模型存储在电脑中:
~/.cache/whisper~/Library/Caches/Buzz
(macOS)~/.cache/Buzz
(Linux)C:\Users/<username>\AppData\Local\Buzz\Buzz\Cache
(Windows)
当卸载的时候,别忘记把模型也删掉。
Buzz 也相当于是一个 Whisper 的可视化界面版本。
Buzz 界面
Buzz 提供了两个任务:
- Translate 翻译
- Transcribe 转录
如果想要从文件转录,需要单击“文件”菜单上的“导入”(或在 Mac 上单击 command + O,在 Windows 上单击按 Ctrl + O)
支持的格式:“mp3”,“wav”,“m4a”,“ogg”,“mp4”,“webm”,“ogm”
导出的格式:“TXT”、“SRT”、“VTT”
转换过程根据电脑性能有快有慢,最终会直接给出文件,效果还是非常不错的。对中文的识别也很好。
获取
原文:https://www.appinn.com/buzz-openai-whisper/
不支持 CUDA,没有直接用 whisper 好用
我是小白,请教一下大佬,我的电脑是核显,为什么也可以用Large model呀,buzz对显存其实没有要求?
可以用,就是慢呗。如果内存爆了就闪退了吧