机器学习策略篇:快速搭建你的第一个系统,并进行迭代(Build your first system quickly, then iterate)

build,your,first,system,quickly,then,iterate · 浏览次数 : 38

小编点评

在构建第一个语音识别系统时,可以考虑以下方向: 1. 提高对嘈杂背景的鲁棒性:研究如何让系统在咖啡店、人群或车辆等嘈杂环境中更好地识别语音。 2. 处理带口音的问题:研究如何让系统在处理不同口音的人时更准确。 3. 针对远场语音识别:研究如何让系统在说话人与麦克风距离较远时仍能准确识别。 4. 应对儿童语音识别挑战:研究如何让系统更好地识别儿童的发音和常用词汇。 5. 处理说话人口吃和无意义短语的问题:研究如何让系统在面对这些问题时仍能准确地识别文本。 在选择发展方向时,可以先设立一个目标,然后根据目标快速搭建一个机器学习系统原型,并进行训练和评估。在开发集和测试集上的评估指标上,观察算法的表现,以便确定下一步优先处理的方向。 对于有经验的团队,可以尝试构建更复杂的系统;而对于没有太多经验的团队,建议从快速搭建一个粗糙的系统开始,以找到改善系统要优先处理的方向。总之,关键是在实际应用中不断迭代和改进,以提高系统的性能。

正文

快速搭建的第一个系统,并进行迭代

如果正在考虑建立一个新的语音识别系统,其实可以走很多方向,可以优先考虑很多事情。

比如,有一些特定的技术,可以让语音识别系统对嘈杂的背景更加健壮,嘈杂的背景可能是说咖啡店的噪音,背景里有很多人在聊天,或者车辆的噪音,高速上汽车的噪音或者其他类型的噪音。有一些方法可以让语音识别系统在处理带口音时更健壮,还有特定的问题和麦克风与说话人距离很远有关,就是所谓的远场语音识别。儿童的语音识别带来特殊的挑战,挑战来自单词发音方面,还有他们选择的词汇,他们倾向于使用的词汇。还有比如说,说话人口吃,或者说了很多无意义的短语,比如“哦”,“啊”之类的。可以选择很多不同的技术,让听写下来的文本可读性更强,所以可以做很多事情来改进语音识别系统。

一般来说,对于几乎所有的机器学习程序可能会有50个不同的方向可以前进,并且每个方向都是相对合理的可以改善的系统。但挑战在于,如何选择一个方向集中精力处理。即使已经在语音识别领域工作多年了,如果要为一个新应用程序域构建新系统,还是觉得很难不花时间去思考这个问题就直接选择方向。所以建议,如果想搭建全新的机器学习程序,就是快速搭好的第一个系统,然后开始迭代。的意思是建议快速设立开发集和测试集还有指标,这样就决定了的目标所在,如果的目标定错了,之后改也是可以的。但一定要设立某个目标,然后建议马上搭好一个机器学习系统原型,然后找到训练集,训练一下,看看效果,开始理解的算法表现如何,在开发集测试集,的评估指标上表现如何。当建立第一个系统后,就可以马上用到之前说的偏差方差分析,来确定下一步优先做什么。特别是如果错误分析让了解到大部分的错误的来源是说话人远离麦克风,这对语音识别构成特殊挑战,那么就有很好的理由去集中精力研究这些技术,所谓远场语音识别的技术,这基本上就是处理说话人离麦克风很远的情况。

建立这个初始系统的所有意义在于,它可以是一个快速和粗糙的实现(quick and dirty implementation),知道的,别想太多。初始系统的全部意义在于,有一个学习过的系统,有一个训练过的系统,让确定偏差方差的范围,就可以知道下一步应该优先做什么,让能够进行错误分析,可以观察一些错误,然后想出所有能走的方向,哪些是实际上最有希望的方向。

所以回顾一下,建议快速建立的第一个系统,然后迭代。不过如果在这个应用程序领域有很多经验,这个建议适用程度要低一些。还有一种情况适应程度更低,当这个领域有很多可以借鉴的学术文献,处理的问题和要解决的几乎完全相同,所以,比如说,人脸识别就有很多学术文献,如果尝试搭建一个人脸识别设备,那么可以从现有大量学术文献为基础出发,一开始就搭建比较复杂的系统。但如果第一次处理某个新问题,那真的不鼓励想太多,或者把第一个系统弄得太复杂。建议构建一些快速而粗糙的实现,然后用来帮找到改善系统要优先处理的方向。见过很多机器学习项目,觉得有些团队的解决方案想太多了,他们造出了过于复杂的系统。也见过有限团队想的不够,然后造出过于简单的系统。平均来说,见到更多的团队想太多,构建太复杂的系统。

希望这些策略有帮助,如果将机器学习算法应用到新的应用程序里,的主要目标是弄出能用的系统,的主要目标并不是发明全新的机器学习算法,这是完全不同的目标,那时的目标应该是想出某种效果非常好的算法。所以鼓励搭建快速而粗糙的实现,然后用它做偏差/方差分析,用它做错误分析,然后用分析结果确定下一步优先要做的方向。

与机器学习策略篇:快速搭建你的第一个系统,并进行迭代(Build your first system quickly, then iterate)相似的内容:

机器学习策略篇:快速搭建你的第一个系统,并进行迭代(Build your first system quickly, then iterate)

快速搭建的第一个系统,并进行迭代 如果正在考虑建立一个新的语音识别系统,其实可以走很多方向,可以优先考虑很多事情。 比如,有一些特定的技术,可以让语音识别系统对嘈杂的背景更加健壮,嘈杂的背景可能是说咖啡店的噪音,背景里有很多人在聊天,或者车辆的噪音,高速上汽车的噪音或者其他类型的噪音。有一些方法可以

机器学习策略篇:详解清除标注错误的数据(Cleaning up Incorrectly labeled data)

清除标注错误的数据 监督学习问题的数据由输入\(x\)和输出标签 \(y\) 构成,如果观察一下的数据,并发现有些输出标签 \(y\) 是错的。的数据有些标签是错的,是否值得花时间去修正这些标签呢? 看看在猫分类问题中,图片是猫,\(y=1\);不是猫,\(y=0\)。所以假设看了一些数据样本,发现

机器学习策略篇:详解进行误差分析(Carrying out error analysis)

从一个例子开始讲吧。 假设正在调试猫分类器,然后取得了90%准确率,相当于10%错误,,开发集上做到这样,这离希望的目标还有很远。也许的队员看了一下算法分类出错的例子,注意到算法将一些狗分类为猫,看看这两只狗,它们看起来是有点像猫,至少乍一看是。所以也许的队友给一个建议,如何针对狗的图片优化算法。试

机器学习策略篇:详解如何改善你的模型的表现(Improving your model performance)

如何改善模型的表现 学过正交化,如何设立开发集和测试集,用人类水平错误率来估计贝叶斯错误率以及如何估计可避免偏差和方差。现在把它们全部组合起来写成一套指导方针,如何提高学习算法性能的指导方针。 所以想要让一个监督学习算法达到实用,基本上希望或者假设可以完成两件事情。首先,的算法对训练集的拟合很好,这

机器学习策略篇:详解理解人的表现(Understanding human-level performance)

理解人的表现 人类水平表现这个词在论文里经常随意使用,但现在告诉这个词更准确的定义,特别是使用人类水平表现这个词的定义,可以帮助推动机器学习项目的进展。还记得上个博客中,用过这个词“人类水平错误率”用来估计贝叶斯误差,那就是理论最低的错误率,任何函数不管是现在还是将来,能够到达的最低值。先记住这点,

机器学习策略篇:详解为什么是人的表现?(Why human-level performance?)

为什么是人的表现? 在过去的几年里,更多的机器学习团队一直在讨论如何比较机器学习系统和人类的表现,为什么呢? 认为有两个主要原因,首先是因为深度学习系统的进步,机器学习算法突然变得更好了。在许多机器学习的应用领域已经开始见到算法已经可以威胁到人类的表现了。其次,事实证明,当试图让机器做人类能做的事情

机器学习策略篇:详解开发集和测试集的大小(Size of dev and test sets)

在深度学习时代,设立开发集和测试集的方针也在变化。 可能听说过一条经验法则,在机器学习中,把取得的全部数据用70/30比例分成训练集和测试集。或者如果必须设立训练集、开发集和测试集,会这么分60%训练集,20%开发集,20%测试集。在机器学习的早期,这样分是相当合理的,特别是以前的数据集大小要小得多

机器学习即代码的时代已经到来

译者注: 到底是 AI 会吃掉软件还是软件会吃掉 AI?为了 job security 工程师应该把宝押在哪儿?这篇 2021 年的文章提供的一些视角似乎印证了它现在的流行,有点“运筹于帷幄之中,决胜于数年之后”的意思,颇值得软件架构师和产品经理们内省一番。 2021 版的 《人工智能现状报告》 于

机器学习策略:详解什么时候该改变开发/测试集和指标?(When to change dev/test sets and metrics)

什么时候该改变开发/测试集和指标? 有时候在项目进行途中,可能意识到,目标的位置放错了。这种情况下,应该移动的目标。 来看一个例子,假设在构建一个猫分类器,试图找到很多猫的照片,向的爱猫人士用户展示,决定使用的指标是分类错误率。所以算法\(A\)和\(B\)分别有3%错误率和5%错误率,所以算法\(

第124篇: 期约Promise基本方法

好家伙,本篇为《JS高级程序设计》第十章“期约与异步函数”学习笔记 1.异步编程 同步行为和异步行为的对立统一是计算机科学的一个基本概念。 特别是在 JavaScript 这种单线程事 件循环模型中,同步操作与异步操作更是代码所要依赖的核心机制。 异步行为是为了优化因计算量大而 时间长的操作。如果在