OpenAI的离线音频转文本模型 Whisper 的.NET封装项目

openai,离线,音频,文本,模型,whisper,net,封装,项目 · 浏览次数 : 847

小编点评

**Whisper 语言模型简介** Whisper 是一个开源的、本地运行的自动语音辨识模型，它可以识别 98 种语言的语音并将其转换为文本。Whisper 使用 Hugging Face 的模型，这些模型经过大量的训练，能够与人类对话相当地自然地理解语音。 **主要功能：** * 语音识别 * 语音翻译 **核心功能：** * 语音识别：将各种语言的语音转换为文本 * 语音翻译：将文本翻译成英文 **优势：** * 本地运行，无需联网 * 保护个人隐私，安全可靠 * 高准确率 **使用方法：** 1. 下载模型： * 或从 Hugging Face 下拉模型：`huggingface.co/ggerganov/whisper.cpp` * 或从 GitHub 下拉模型：`github.com/ggerganov/whisper.cppggml-*.bin` 2. 选择模型： * `small`、`medium`、`large` 三种模型可以选择 * 大模型可能需要更多时间才能运行 3. 设置音频路径： * `audio_path` 指向音频文件路径 4. 设置文本类型： * `text_type` 指向文本类型，例如 `plain` 或 `html` 5. 设置文本保存位置： * `save_path` 指向保存文本文件的路径 6. 开始运行： * 启动 Whisper 后，会打开一个网页，提示输入文本或选择文件进行语音识别。 * 完成识别后，文本将自动保存到指定路径。 **结论：** Whisper 是一个功能强大的语言模型，可以帮助您更便捷地整理会议、讲座和其他相关材料。它完全是本地运行的，提供保护个人隐私的优势，并且拥有高准确率的模型。

正文

whisper介绍

Open AI在2022年9月21日开源了号称其英文语音辨识能力已达到人类水准的Whisper神经网络，且它亦支持其它98种语言的自动语音辨识。 Whisper系统所提供的自动语音辨识（Automatic Speech Recognition，ASR）模型是被训练来运行语音辨识与翻译任务的，它们能将各种语言的语音变成文本，也能将这些文本翻译成英文。

whisper的核心功能语音识别，对于大部分人来说，可以帮助我们更快捷的将会议、讲座、课堂录音整理成文字稿；对于影视爱好者，可以将无字幕的资源自动生成字幕，不用再苦苦等待各大字幕组的字幕资源；对于外语口语学习者，使用whisper翻译你的发音练习录音，可以很好的检验你的口语发音水平。当然，各大云平台都提供语音识别服务，但是基本都是联网运行，个人隐私安全总是有隐患，而whisper完全不同，whisper完全在本地运行，无需联网，充分保障了个人隐私，且whisper识别准确率相当高。

语言模型文件：https://huggingface.co/ggerganov/whisper.cpp 或者 https://github.com/ggerganov/whisper.cpp

ggml-*.bin则中英文都可以翻译，根据自己对文字的精确要求选择模型，small、medium基本够用。高要求可以使用large，但耗时会多一点。

这么好的一个模型在.NET 社区有很多封装的项目:

跨平台 Whisper.net: https://github.com/sandrohanea/whisper.net
Windows 平台的Whisper：https://github.com/Const-me/Whisper

下面我们体验一下这个开箱即用的工具Whisper，从https://github.com/Const-me/Whisper 下周最新的版本：

运行起来，从Hugging Face 下载模型，

选择转化的语言、音频路径、文本类型、文本保存位置，运行一段时间后，打开后就可以看到文本内容了

实测medium模型：20min音频，大致耗时20~30min，这个效果是很不错了。还可以很容易将这个模型集成到自己开发的系统里。