机器学习策略:详解什么时候该改变开发/测试集和指标?(When to change dev/test sets and metrics)

when,to,change,dev,test,sets,and,metrics · 浏览次数 : 3

小编点评

1. 评估指标用于衡量分类器效果,但如果开发集和测试集数据质量差距较大,则需要定义一个新的指标才能更准确地反映算法的性能。 2. 指标的定义应独立于具体的训练方法,因为指标的定义会影响到训练算法的选择。 3. 指标的设置是一个迭代的过程,需要根据实际情况进行调整。 4. 指标的设置应与算法的实际应用场景相关,以便于进行有效的选择。 5. 建议在定义指标之前,进行数据的清洗和预处理,以确保指标的准确性。 6. 指标的定义应与团队迭代的效率和效果相关,以便于选择能够加速迭代速度的指标。

正文

什么时候该改变开发/测试集和指标?

有时候在项目进行途中,可能意识到,目标的位置放错了。这种情况下,应该移动的目标。

来看一个例子,假设在构建一个猫分类器,试图找到很多猫的照片,向的爱猫人士用户展示,决定使用的指标是分类错误率。所以算法\(A\)\(B\)分别有3%错误率和5%错误率,所以算法\(A\)似乎做得更好。

但实际试一下这些算法,观察一下这些算法,算法\(A\)由于某些原因,把很多色情图像分类成猫了。如果部署算法\(A\),那么用户就会看到更多猫图,因为它识别猫的错误率只有3%,但它同时也会给用户推送一些色情图像,这是的公司完全不能接受的,用户也完全不能接受。相比之下,算法\(B\)有5%的错误率,这样分类器就得到较少的图像,但它不会推送色情图像。所以从公司的角度来看,以及从用户接受的角度来看,算法\(B\)实际上是一个更好的算法,因为它不让任何色情图像通过。

那么在这个例子中,发生的事情就是,算法A在评估指标上做得更好,它的错误率达到3%,但实际上是个更糟糕的算法。在这种情况下,评估指标加上开发集它们都倾向于选择算法\(A\),因为它们会说,看算法A的错误率较低,这是自己定下来的指标评估出来的。但和的用户更倾向于使用算法\(B\),因为它不会将色情图像分类为猫。所以当这种情况发生时,当评估指标无法正确衡量算法之间的优劣排序时,在这种情况下,原来的指标错误地预测算法A是更好的算法这就发出了信号,应该改变评估指标了,或者要改变开发集或测试集。在这种情况下,用的分类错误率指标可以写成这样:

\(Error = \frac{1}{m_{{dev}}}\sum_{i = 1}^{m_{{dev}}}{I\{ y_{{pred}}^{(i)} \neq y^{(i)}\}}\)

\(m_{{dev}}\)是的开发集例子数,用\(y_{{pred}}^{(i)}\)表示预测值,其值为0或1,\(I\)这符号表示一个函数,统计出里面这个表达式为真的样本数,所以这个公式就统计了分类错误的样本。这个评估指标的问题在于,它对色情图片和非色情图片一视同仁,但其实真的希望的分类器不会错误标记色情图像。比如说把一张色情图片分类为猫,然后推送给不知情的用户,他们看到色情图片会非常不满。

其中一个修改评估指标的方法是,这里(\(\frac{1}{m_{{dev}}}\)\(\sum_{i =1}^{m_{{dev}}}{I\{ y_{{pred}}^{(i)} \neq y^{(i)}\}}\)之间)加个权重项,即:

\(Error = \frac{1}{m_{{dev}}}\sum_{i = 1}^{m_{{dev}}}{w^{(i)}I\{ y_{{pred}}^{(i)} \neq y^{(i)}\}}\)

将这个称为\(w^{\left( i \right)}\),其中如果图片\(x^{(i)}\)不是色情图片,则\(w^{\left( i \right)} = 1\)。如果\(x^{(i)}\)是色情图片,\(w^{(i)}\)可能就是10甚至100,这样赋予了色情图片更大的权重,让算法将色情图分类为猫图时,错误率这个项快速变大。这个例子里,把色情图片分类成猫这一错误的惩罚权重加大10倍。

如果希望得到归一化常数,在技术上,就是\(w^{(i)}\)对所有\(i\)求和,这样错误率仍然在0和1之间,即:

\(Error = \frac{1}{\sum_{}^{}w^{(i)}}\sum_{i = 1}^{m_{{dev}}}{w^{(i)}I\{ y_{{pred}}^{(i)} \neq y^{(i)}\}}\)

加权的细节并不重要,实际上要使用这种加权,必须自己过一遍开发集和测试集,在开发集和测试集里,自己把色情图片标记出来,这样才能使用这个加权函数。

但粗略的结论是,如果的评估指标无法正确评估好算法的排名,那么就需要花时间定义一个新的评估指标。这是定义评估指标的其中一种可能方式(上述加权法)。评估指标的意义在于,准确告诉已知两个分类器,哪一个更适合的应用。就这个随笔的内容而言,不需要太注重新错误率指标是怎么定义的,关键在于,如果对旧的错误率指标不满意,那就不要一直沿用不满意的错误率指标,而应该尝试定义一个新的指标,能够更加符合的偏好,定义出实际更适合的算法。

可能注意到了,到目前为止只讨论了如何定义一个指标去评估分类器,也就是说,定义了一个评估指标帮助更好的把分类器排序,能够区分出它们在识别色情图片的不同水平,这实际上是一个正交化的例子。

想处理机器学习问题时,应该把它切分成独立的步骤。一步是弄清楚如何定义一个指标来衡量想做的事情的表现,然后可以分开考虑如何改善系统在这个指标上的表现。要把机器学习任务看成两个独立的步骤,用目标这个比喻,第一步就是设定目标。所以要定义要瞄准的目标,这是完全独立的一步,这是可以调节的一个旋钮。如何设立目标是一个完全独立的问题,把它看成是一个单独的旋钮,可以调试算法表现的旋钮,如何精确瞄准,如何命中目标,定义指标是第一步。

然后第二步要做别的事情,在逼近目标的时候,也许的学习算法针对某个长这样的成本函数优化,\(J=\frac{1}{m}\sum\limits_{i=1}^{m}{L({{\hat y}^{(i)}},{{y}^{(i)}})}\),要最小化训练集上的损失。可以做的其中一件事是,修改这个,为了引入这些权重,也许最后需要修改这个归一化常数,即:

\(J=\frac{1}{\sum{{{w}^{(i)}}}}\sum\limits_{i=1}^{m}{{{w}^{(i)}}L({{\hat y}^{(i)}},{{y}^{(i)}})}\)

再次,如何定义\(J\)并不重要,关键在于正交化的思路,把设立目标定为第一步,然后瞄准和射击目标是独立的第二步。换种说法,鼓励将定义指标看成一步,然后在定义了指标之后,才能想如何优化系统来提高这个指标评分。比如改变神经网络要优化的成本函数\(J\)

在继续之前,再讲一个例子。假设的两个猫分类器\(A\)\(B\),分别有用开发集评估得到3%的错误率和5%的错误率。或者甚至用在网上下载的图片构成的测试集上,这些是高质量,取景框很专业的图像。但也许在部署算法产品时,发现算法\(B\)看起来表现更好,即使它在开发集上表现不错,发现一直在用从网上下载的高质量图片训练,但当部署到手机应用时,算法作用到用户上传的图片时,那些图片取景不专业,没有把猫完整拍下来,或者猫的表情很古怪,也许图像很模糊,当实际测试算法时,发现算法\(B\)表现其实更好。

这是另一个指标和开发集测试集出问题的例子,问题在于,做评估用的是很漂亮的高分辨率的开发集和测试集,图片取景很专业。但的用户真正关心的是,他们上传的图片能不能被正确识别。那些图片可能是没那么专业的照片,有点模糊,取景很业余。

所以方针是,如果在指标上表现很好,在当前开发集或者开发集和测试集分布中表现很好,但的实际应用程序,真正关注的地方表现不好,那么就需要修改指标或者的开发测试集。换句话说,如果发现的开发测试集都是这些高质量图像,但在开发测试集上做的评估无法预测的应用实际的表现。因为的应用处理的是低质量图像,那么就应该改变的开发测试集,让的数据更能反映实际需要处理好的数据。

但总体方针就是,如果当前的指标和当前用来评估的数据和真正关心必须做好的事情关系不大,那就应该更改的指标或者的开发测试集,让它们能更够好地反映的算法需要处理好的数据。

有一个评估指标和开发集让可以更快做出决策,判断算法\(A\)还是算法\(B\)更优,这真的可以加速和的团队迭代的速度。所以建议是,即使无法定义出一个很完美的评估指标和开发集,直接快速设立出来,然后使用它们来驱动团队的迭代速度。如果在这之后,发现选的不好,有更好的想法,那么完全可以马上改。对于大多数团队,建议最好不要在没有评估指标和开发集时跑太久,因为那样可能会减慢的团队迭代和改善算法的速度。本随笔讲的是什么时候需要改变的评估指标和开发测试集,希望这些方针能让的整个团队设立一个明确的目标,一个可以高效迭代,改善性能的目标。

与机器学习策略:详解什么时候该改变开发/测试集和指标?(When to change dev/test sets and metrics)相似的内容:

机器学习策略:详解什么时候该改变开发/测试集和指标?(When to change dev/test sets and metrics)

什么时候该改变开发/测试集和指标? 有时候在项目进行途中,可能意识到,目标的位置放错了。这种情况下,应该移动的目标。 来看一个例子,假设在构建一个猫分类器,试图找到很多猫的照片,向的爱猫人士用户展示,决定使用的指标是分类错误率。所以算法\(A\)和\(B\)分别有3%错误率和5%错误率,所以算法\(

机器学习策略篇:详解清除标注错误的数据(Cleaning up Incorrectly labeled data)

清除标注错误的数据 监督学习问题的数据由输入\(x\)和输出标签 \(y\) 构成,如果观察一下的数据,并发现有些输出标签 \(y\) 是错的。的数据有些标签是错的,是否值得花时间去修正这些标签呢? 看看在猫分类问题中,图片是猫,\(y=1\);不是猫,\(y=0\)。所以假设看了一些数据样本,发现

机器学习策略篇:详解进行误差分析(Carrying out error analysis)

从一个例子开始讲吧。 假设正在调试猫分类器,然后取得了90%准确率,相当于10%错误,,开发集上做到这样,这离希望的目标还有很远。也许的队员看了一下算法分类出错的例子,注意到算法将一些狗分类为猫,看看这两只狗,它们看起来是有点像猫,至少乍一看是。所以也许的队友给一个建议,如何针对狗的图片优化算法。试

机器学习策略篇:详解如何改善你的模型的表现(Improving your model performance)

如何改善模型的表现 学过正交化,如何设立开发集和测试集,用人类水平错误率来估计贝叶斯错误率以及如何估计可避免偏差和方差。现在把它们全部组合起来写成一套指导方针,如何提高学习算法性能的指导方针。 所以想要让一个监督学习算法达到实用,基本上希望或者假设可以完成两件事情。首先,的算法对训练集的拟合很好,这

机器学习策略篇:详解理解人的表现(Understanding human-level performance)

理解人的表现 人类水平表现这个词在论文里经常随意使用,但现在告诉这个词更准确的定义,特别是使用人类水平表现这个词的定义,可以帮助推动机器学习项目的进展。还记得上个博客中,用过这个词“人类水平错误率”用来估计贝叶斯误差,那就是理论最低的错误率,任何函数不管是现在还是将来,能够到达的最低值。先记住这点,

机器学习策略篇:详解为什么是人的表现?(Why human-level performance?)

为什么是人的表现? 在过去的几年里,更多的机器学习团队一直在讨论如何比较机器学习系统和人类的表现,为什么呢? 认为有两个主要原因,首先是因为深度学习系统的进步,机器学习算法突然变得更好了。在许多机器学习的应用领域已经开始见到算法已经可以威胁到人类的表现了。其次,事实证明,当试图让机器做人类能做的事情

机器学习策略篇:详解开发集和测试集的大小(Size of dev and test sets)

在深度学习时代,设立开发集和测试集的方针也在变化。 可能听说过一条经验法则,在机器学习中,把取得的全部数据用70/30比例分成训练集和测试集。或者如果必须设立训练集、开发集和测试集,会这么分60%训练集,20%开发集,20%测试集。在机器学习的早期,这样分是相当合理的,特别是以前的数据集大小要小得多

算法金 | 详解过拟合和欠拟合!性感妩媚 VS 大杀四方

大侠幸会,在下全网同名「算法金」 0 基础转 AI 上岸,多个算法赛 Top 「日更万日,让更多人享受智能乐趣」 今天我们来战 过拟合和欠拟合,特别是令江湖侠客闻风丧胆的 过拟合,简称过儿, Emmm 过儿听起来有点怪怪的 1. 楔子 机器学习模型是一种能够从数据中学习规律并进行预测的算法。我们希望

理论+实践,带你了解分布式训练

详细介绍分布式机器学习系统的基础概念、分布式训练集群架构、分布式训练并行策略,并以DeepSpeed 为例介绍如何在集群上训练大语言模型。

深入Scikit-learn:掌握Python最强大的机器学习库

> 本篇博客详细介绍了Python机器学习库Scikit-learn的使用方法和主要特性。内容涵盖了如何安装和配置Scikit-learn,Scikit-learn的主要特性,如何进行数据预处理,如何使用监督学习和无监督学习算法,以及如何评估模型和进行参数调优。本文旨在帮助读者深入理解Scikit-