Buzz - 开源、可离线的实时语音转文字工具

Buzz 是一款基于 OpenAI Whisper 的开源、可离线的实时语音转文字工具，支持 Windows、macOS、Linux，它可以将麦克风的语音实时转换为文字，也支持将视频、音频文件转换为文字、字幕。@Appinn

Buzz：离线语音转文字（字幕），实时语音识别，基于 OpenAI Whisper

相较于 Autocut 功能更单一，专注于语音转文字、字幕生成。

相较于命令行 Python 版 Whisper 速度更快，有 GUI 对普通用户更友好。

由于支持离线，所以…尺寸是一个很大的问题，目前的安装包吃吃：

还是很可观的。

Whisper 是一种通用语音识别模型。它利用各种大型数据集上的音频进行训练，也是一个多任务模型，可以执行多语言语音识别以及语音翻译和语言识别。

在第一次使用 Buzz 的时候，会下载 Whisper 的模型，根据不同的质量要求，模型尺寸也非常可观：

质量	尺寸	English-only model	Multilingual model	必需的显存	行对速度
tiny	39 M	`tiny.en`	`tiny`	~1 GB	~32x
base	74 M	`base.en`	`base`	~1 GB	~16x
small	244 M	`small.en`	`small`	~2 GB	~6x
medium	769 M	`medium.en`	`medium`	~5 GB	~2x
large	1550 M	N/A	`large`	~10 GB	1x

Whisper 模型存储在电脑中：

当卸载的时候，别忘记把模型也删掉。

Buzz 也相当于是一个 Whisper 的可视化界面版本。

Buzz 提供了两个任务：

如果想要从文件转录，需要单击“文件”菜单上的“导入”（或在 Mac 上单击 command + O，在 Windows 上单击按 Ctrl + O）

支持的格式：“mp3”，“wav”，“m4a”，“ogg”，“mp4”，“webm”，“ogm”

导出的格式：“TXT”、“SRT”、“VTT”

转换过程根据电脑性能有快有慢，最终会直接给出文件，效果还是非常不错的。对中文的识别也很好。

原文：https://www.appinn.com/buzz-openai-whisper/