基于助听器开发的一种高效的语音增强神经网络

· 浏览次数 : 0

小编点评

现代语音增强算法通过利用递归神经网络(RNNs)实现了显著的噪声抑制。然而,大型RNN的限制使得助听器硬件的实际部署受到阻碍,因为它们通常是电池供电的,运行在资源受限的微控制器单元(MCU)上,具有有限的内存和计算能力。为了解决这一问题,本研究采用模型压缩技术来补偿这一差距。 本研究在硬件平台上对RNN施加了约束,并描述了一种方法来满足这些约束。尽管模型压缩技术是一个活跃的研究领域,但本研究的创新之处在于首次证明了剪裁和权重/激活的整型量化在RNN语音增强中的有效性。此外,本研究还展示了状态更新跳跃,可以降低计算负载。 为了评估压缩模型的性能,本研究对压缩模型进行了感知评估,让人类评分员对语音进行打分。实验结果表明,与基线方法相比,压缩模型的模型大小和操作次数分别减少了11.9和2.9,而在听力偏好上没有统计差异,仅损失了0.55dB SDR。此外,压缩模型实现了2.39ms的计算延迟,在10ms的目标范围内,比之前的工作提高了351倍。 总之,本研究成功地通过模型压缩技术实现了RNN语音增强的高效硬件部署,同时保持了高质量的听觉效果。这对于助听器硬件的发展具有重要意义,有助于提高助听器的实用性和用户体验。

正文

现代语音增强算法利用大量递归神经网络(RNNs)实现了显著的噪声抑制。然而,大型RNN限制了助听器硬件(hearing aid hardware,HW)的实际部署,这些硬件是电池供电的,运行在资源受限的微控制器单元(microcontroller units,MCU)上,内存和计算能力有限。在这项工作中,我们使用模型压缩技术来弥补这一差距。我们在HW上对RNN施加约束,并描述了一种方法来满足它们。虽然模型压缩技术是一个活跃的研究领域,但我们是第一个证明其有效性的RNN语音增强,使用剪裁和权重/激活的整型量化。我们还演示了状态更新跳跃,它可以减少计算负载。最后,我们对压缩模型进行感知评估,人类评分员对语音进行打分。结果显示,与基线相比,压缩模型的模型size和operation(操作)分别减少了11.9和2.9,在听力偏好上没有统计差异,只损失了0.55dB SDR。我们的模型实现了2.39ms的计算延迟,在10 ms的目标范围内,比之前的工作好351倍。

健康的耳朵是一个复杂的非线性系统,能够在大的动态范围内工作。当耳朵受损时,听觉系统可以用助听器(HA)增强,它可以执行一些耳朵不再能做的放大和过滤功能。语音增强(SE)可以缓解嘈杂环境中的听力困难,这是HA用户最关注的问题之一。最近的SE方法通常由循环神经网络(RNN)体现。SE模型必须实现低音频延迟,以确保测听者舒适。音频延迟被定义为噪声到达HA和助听器产生的纯净语音之间的延迟。可以容忍的延迟量取决于HA类型和如何处理用户自己的语音。使用之前的工作作为指导方针,我们的目标是最大音频延迟为30 ms。对于我们使用的基于帧的方法,由于帧和因果模型之间有50%的重叠,处理每帧的计算延迟约束为10ms。

HA形式因素强加了另一组约束,特别是在结合帧处理需求时。由于其体积小,采用了单片机(MCU)硬件平台。MCU实现了廉价、低功耗的计算,但代价是严重的内存和计算约束[10]。MCU Flash内存限制了最大允许模型尺寸(maximum allowed model size,MS),而SRAM内存限制了模型工作内存(upper bounds model working memory,WM),即用于存储中间结果的内存。为了实现高效的计算,SE模型必须量化为整型数据类型,我们必须最小化每秒所需的操作(ops)数量(ops/s),其中op表示单个加法或乘法。本文以STM32F746VE MCU[4]作为典型的HW平台,该MCU包含一个216MHz Arm Cortex-M7 [11],512KB Flash内存,320KB SRAM。我们使用Mbed OS[12]和CMSIS内核[13,14]。表1总结了SE模型约束。

在本工作中,我们提出了一种方法来生成满足表1要求的优化RNN SE模型。首先,我们演示了对SE LSTM进行剪枝,以减少MS、WM和ops,而不会导致SE性能下降。通过扩展[15],我们直接学习优化范围内的剪裁阈值,避免了超参数搜索的开销,与之前的工作[6]相比,减少了255个GPU小时(GPUH)。其次,我们首次证明了标准加权和激活量化技术可以很好地应用于SE RNNs。此外,我们还证明了剪枝和量化可以联合应用于SE RNNs,这也是我们工作的独特之处。最后,我们提出了一个跳过RNN状态更新的方案,以减少平均操作次数。


在我们的模型中执行的所有操作都是矩阵向量乘法,每个参数需要2个操作(乘和加)。尽管操作计数与模型量化无关,但在实际硬件上实现的吞吐量在精度较低的整型数据类型下要高得多。因此,为了减少总体延迟,我们采用了两种优化方法:1)剪枝以减少操作,2)权值/激活量化(weight/activation quantification),从而减少MS,并支持使用低精度整型算法[25]进行部署。



在所有的实验中,我们使用Tensorflow中的随机梯度下降(Stochastic Gradient Descent,SGD)来优化目标。我们使用32ms帧,16ms帧移和16kHz采样率进行基线、剪枝和量化实验。对于skip RNN实验,我们使用的帧长和帧移分别为25ms和6.25ms。所有方法都使用CHiME2 WSJ0数据集[31]进行训练和评估,该数据集分别包含7138个训练词、2560个开发词和1980个测试词。这三个子集都包括信噪比(SNRs)在-6到9dB范围内的话语。噪音数据由记录在客厅环境中的高度不稳定的干扰源组成,包括真空吸尘器、电视和儿童。虽然数据集是在双耳立体声中提供的,但我们通过对通道维数求和来进行预处理,以获得单耳输入和目标,而[6]使用完整的双耳输入来预测双耳掩模。对于最终的客观评估,我们使用信号失真比(SDR)[32]。然而,在训练过程中,我们使用更简单的比例不变信号失真比(SI-SDR),因为它的计算成本更低,并且与SDR[33]很好地相关。

与基于助听器开发的一种高效的语音增强神经网络相似的内容:

基于助听器开发的一种高效的语音增强神经网络

现代语音增强算法利用大量递归神经网络(RNNs)实现了显著的噪声抑制。然而,大型RNN限制了助听器硬件(hearing aid hardware,HW)的实际部署,这些硬件是电池供电的,运行在资源受限的微控制器单元(microcontroller units,MCU)上,内存和计算能力有限。在这项工

一图看懂CodeArts Deploy 5大特性,带你玩转部署服务

摘要:华为云自动化部署服务,助力企业安全、高效生产! 华为云持续部署服务CodeArts Deploy,通过模块化自由编排部署流程,实现软件的自动化部署,基于其易入门、功能全、集成度高、自动化、可靠的部署能力,能够帮您快速实现业务上云,全面提升软件的交付效率,显著提升交付质量! 戳此了解更多 点击关

HiAI Foundation助力端侧音视频AI能力,高性能低功耗释放云侧成本

过去三年是端侧AI高速发展的几年,华为在2020年预言了端侧AI的发展潮流,2021年通过提供端云协同的方式使我们的HiAI Foundation应用性更进一个台阶,2022年提供视频超分端到端的解决方案,在2023HDC大会上,HiAI Foundation基于硬件能力的开放,提供更多场景高效能的

[转帖]第二章 MySQL的体系结构与基础管理

第二章 MySQL的体系结构与基础管理 https://www.jianshu.com/p/6d017ac5e685 本课程,适合具备一定Linux运维或者开发基础的朋友,课程定级中、高级DBA。只要掌握80%,轻松助力薪资15k-25K。课程内容均来自与MySQL官网+MySQL源码。配套精品视频

管理有方!华为云数据库为医药行业管理加速

摘要:为了持续打造核心竞争力,英克康健联合华为云,基于云数据库RDS for PostgreSQL全新打造了一个高性能、大容量、高可用的SaaS医药管理系统,助力万千药企业务迈上新台阶。 乘借数字化东风,医药行业呈现出一片欣欣向荣之景。作为一家高新技术企业,北京英克康健科技有限公司(简称“英克康健”

云时代下,医药行业管理居然这么简单

摘要:为了持续打造核心竞争力,英克康健联合华为云,基于云数据库RDS for PostgreSQL全新打造了一个高性能、大容量、高可用的SaaS医药管理系统,助力万千药企业务迈上新台阶。 本文分享自华为云社区《云时代下,医药行业管理居然这么简单》,作者:GaussDB 数据库 。 乘借数字化东风,医

[转帖]第三章 SQL 基础及元数据获取

第三章 SQL 基础及元数据获取 https://www.jianshu.com/p/f07416c419da 本课程,适合具备一定Linux运维或者开发基础的朋友,课程定级中、高级DBA。只要掌握80%,轻松助力薪资15k-25K。课程内容均来自与MySQL官网+MySQL源码。配套精品视频(20

[转帖]第五章 MySQL 存储引擎

第五章 MySQL 存储引擎 https://www.jianshu.com/p/d12191803f17 本课程,适合具备一定Linux运维或者开发基础的朋友,课程定级中、高级DBA。只要掌握80%,轻松助力薪资15k-25K。课程内容均来自与MySQL官网+MySQL源码。配套精品视频(2021

[转帖]第六章 日志管理

第六章 日志管理 https://www.jianshu.com/p/e0d95da89fee 本课程,适合具备一定Linux运维或者开发基础的朋友,课程定级中、高级DBA。只要掌握80%,轻松助力薪资15k-25K。课程内容均来自与MySQL官网+MySQL源码。配套精品视频(2021 5月全新录

[转帖]第七章 备份恢复

第七章 备份恢复 https://www.jianshu.com/p/e62d83516e75 本课程,适合具备一定Linux运维或者开发基础的朋友,课程定级中、高级DBA。只要掌握80%,轻松助力薪资15k-25K。课程内容均来自与MySQL官网+MySQL源码。配套精品视频(2021 5月全新录