OpenAI的离线音频转文本模型 Whisper 的.NET封装项目

openai,离线,音频,文本,模型,whisper,net,封装,项目 · 浏览次数 : 847

小编点评

**Whisper 语言模型简介** Whisper 是一个开源的、本地运行的自动语音辨识模型,它可以识别 98 种语言的语音并将其转换为文本。Whisper 使用 Hugging Face 的模型,这些模型经过大量的训练,能够与人类对话相当地自然地理解语音。 **主要功能:** * 语音识别 * 语音翻译 **核心功能:** * 语音识别:将各种语言的语音转换为文本 * 语音翻译:将文本翻译成英文 **优势:** * 本地运行,无需联网 * 保护个人隐私,安全可靠 * 高准确率 **使用方法:** 1. 下载模型: * 或从 Hugging Face 下拉模型:`huggingface.co/ggerganov/whisper.cpp` * 或从 GitHub 下拉模型:`github.com/ggerganov/whisper.cppggml-*.bin` 2. 选择模型: * `small`、`medium`、`large` 三种模型可以选择 * 大模型可能需要更多时间才能运行 3. 设置音频路径: * `audio_path` 指向音频文件路径 4. 设置文本类型: * `text_type` 指向文本类型,例如 `plain` 或 `html` 5. 设置文本保存位置: * `save_path` 指向保存文本文件的路径 6. 开始运行: * 启动 Whisper 后,会打开一个网页,提示输入文本或选择文件进行语音识别。 * 完成识别后,文本将自动保存到指定路径。 **结论:** Whisper 是一个功能强大的语言模型,可以帮助您更便捷地整理会议、讲座和其他相关材料。它完全是本地运行的,提供保护个人隐私的优势,并且拥有高准确率的模型。

正文

whisper介绍

Open AI在2022年9月21日开源了号称其英文语音辨识能力已达到人类水准的Whisper神经网络,且它亦支持其它98种语言的自动语音辨识。 Whisper系统所提供的自动语音辨识(Automatic Speech Recognition,ASR)模型是被训练来运行语音辨识与翻译任务的,它们能将各种语言的语音变成文本,也能将这些文本翻译成英文。

whisper的核心功能语音识别,对于大部分人来说,可以帮助我们更快捷的将会议、讲座、课堂录音整理成文字稿;对于影视爱好者,可以将无字幕的资源自动生成字幕,不用再苦苦等待各大字幕组的字幕资源;对于外语口语学习者,使用whisper翻译你的发音练习录音,可以很好的检验你的口语发音水平。 当然,各大云平台都提供语音识别服务,但是基本都是联网运行,个人隐私安全总是有隐患,而whisper完全不同,whisper完全在本地运行,无需联网,充分保障了个人隐私,且whisper识别准确率相当高。

 

语言模型文件:https://huggingface.co/ggerganov/whisper.cpp 或者 https://github.com/ggerganov/whisper.cpp

image

ggml-*.bin则中英文都可以翻译,根据自己对文字的精确要求选择模型,small、medium基本够用。高要求可以使用large,但耗时会多一点。

这么好的一个模型在.NET 社区有很多封装的项目:

 

下面我们体验一下这个开箱即用的工具Whisper,从https://github.com/Const-me/Whisper 下周最新的版本:

1682301496791

运行起来,从Hugging Face 下载模型,

image

选择转化的语言、音频路径、文本类型、文本保存位置,运行一段时间后,打开后就可以看到文本内容了

 

 image

实测medium模型:20min音频,大致耗时20~30min,这个效果是很不错了。 还可以很容易将这个模型集成到自己开发的系统里。

与OpenAI的离线音频转文本模型 Whisper 的.NET封装项目相似的内容:

OpenAI的离线音频转文本模型 Whisper 的.NET封装项目

whisper介绍 Open AI在2022年9月21日开源了号称其英文语音辨识能力已达到人类水准的Whisper神经网络,且它亦支持其它98种语言的自动语音辨识。 Whisper系统所提供的自动语音辨识(Automatic Speech Recognition,ASR)模型是被训练来运行语音辨识与

OpenAI的子词标记化神器--tiktoken 以及 .NET 支持库SharpToken

经过 Tokenize 之后,一串文本就变成了一串整数组成的向量。OpenAI 的 Tiktoken 是 更高级的 Tokenizer , 编码效率更高、支持更大的词汇表、计算性能也更高。 OpenAI在其官方GitHub上公开了一个开源Python库:tiktoken,这个库主要是用力做字节编码对

使用SemanticKernel 进行智能应用开发(2023-10更新)

以OpenAI 的ChatGPT 所掀起的GenAI 快速创新浪潮,其中连接LLM 和 应用之间的桥梁的两大开源项目:LangChain[1]和Semantic Kernel[2] ,在半年前写过一篇文章 LangChain vs Semantic Kernel [3],这半年以来Semantic

基于OpenAI的代码编辑器,有点酷有点强!

最近随着OpenAI的一系列大动作,把软件领域搅的天翻地覆。各行各业各领域,都出现了大量新产品。 开发工具领域首当其冲,各种新工具层出不穷,今天TJ就给大家推荐一个全新的开发工具:Cursor 从官网介绍可以看到,Cursor基于OpenAI实现,继承了最新的GPT-4模型,支持Mac、Window

把盏言欢,款款而谈,ChatGPT结合钉钉机器人(outgoing回调)打造人工智能群聊/单聊场景,基于Python3.10

就像黑火药时代里突然诞生的核弹一样,OpenAI的ChatGPT语言模型的横空出世,是人工智能技术发展史上的一个重要里程碑。这是一款无与伦比、超凡绝伦的模型,能够进行自然语言推理和对话,并且具有出色的语言生成能力。

深入探讨Function Calling:在Semantic Kernel中的应用实践

引言 上一章我们熟悉了 OpenAI 的 function calling 的执行原理,这一章节我们讲解一下 function calling 在 Semantic Kernel 的应用。 在OpenAIPromptExecutionSettings跟 LLM 交互过程中,ToolCallBehav

使用ChatGPT自动构建知识图谱

1.概述 本文将探讨利用OpenAI的gpt-3.5-turbo从原始文本构建知识图谱,通过LLM和RAG技术实现文本生成、问答和特定领域知识的高效提取,以获得有价值的洞察。在开始前,我们需要明确一些关键概念。 2.内容 2.1 什么是知识图谱? 知识图谱是一种语义网络,它表示和连接现实世界中的实体

[转帖]聊聊Chat GPT-1到GPT-4的发展历程

http://blog.itpub.net/69925873/viewspace-2935360/ OpenAI的Generative Pre-trained Transformer(GPT)模型通过引入非常强大的语言模型,在自然语言处理(NLP)领域引起了巨大震动。这些模型可以执行各种NLP任务,

技术速览|Meta Llama 2 下一代开源大型语言模型

Meta Llama 2 旨在与 OpenAI 的 ChatGPT 和 Google Bard 等其他著名语言模型对标,但又具有独特优势。在本文中,我们将聊聊 Llama 2 是什么、它的优势是什么、是如何开发的、以及如何开始上手使用。

Yarp项目代理ChatGPT,解决网络无法访问openAI的问题

# 1.创建Yarp项目 目的:通过代理解决网络无法访问openAI的问题 项目源码地址:[https://github.com/raokun/YarpProject](https://github.com/raokun/YarpProject) ## 1.创建.net7 webapi项目 创建一个