机器学习策略篇：详解开发集和测试集的大小（Size of dev and test sets）

size,of,dev,and,test,sets · 浏览次数 : 11

小编点评

**深度学习时代开发和测试集设置方针** 在深度学习时代，通常使用以下数据划分方法： * 70/30比例：将全部数据分为训练集、开发集和测试集。 * 60%训练集、20%开发集和20%测试集。 * 98%训练集、1%开发集和1%测试集。 * 10,000个训练样本：1%开发集和99%测试集。 * 1百万个训练样本：98%训练集、1%开发集和1%测试集。

正文

在深度学习时代，设立开发集和测试集的方针也在变化。

可能听说过一条经验法则，在机器学习中，把取得的全部数据用70/30比例分成训练集和测试集。或者如果必须设立训练集、开发集和测试集，会这么分60%训练集，20%开发集，20%测试集。在机器学习的早期，这样分是相当合理的，特别是以前的数据集大小要小得多。所以如果总共有100个样本，这样70/30或者60/20/20分的经验法则是相当合理的。如果有几千个样本或者有一万个样本，这些做法也还是合理的。

但在现代机器学习中，更习惯操作规模大得多的数据集，比如说有1百万个训练样本，这样分可能更合理，98%作为训练集，1%开发集，1%测试集，用\(D\)和\(T\)缩写来表示开发集和测试集。因为如果有1百万个样本，那么1%就是10,000个样本，这对于开发集和测试集来说可能已经够了。所以在现代深度学习时代，有时拥有大得多的数据集，所以使用小于20%的比例或者小于30%比例的数据作为开发集和测试集也是合理的。而且因为深度学习算法对数据的胃口很大，可以看到那些有海量数据集的问题，有更高比例的数据划分到训练集里，那么测试集呢？

要记住，测试集的目的是完成系统开发之后，测试集可以帮评估投产系统的性能。方针就是，令的测试集足够大，能够以高置信度评估系统整体性能。所以除非需要对最终投产系统有一个很精确的指标，一般来说测试集不需要上百万个例子。对于的应用程序，也许想，有10,000个例子就能给足够的置信度来给出性能指标了，也许100,000个之类的可能就够了，这数目可能远远小于比如说整体数据集的30%，取决于有多少数据。

对于某些应用，也许不需要对系统性能有置信度很高的评估，也许只需要训练集和开发集。认为，不单独分出一个测试集也是可以的。事实上，有时在实践中有些人会只分成训练集和测试集，他们实际上在测试集上迭代，所以这里没有测试集，他们有的是训练集和开发集，但没有测试集。如果真的在调试这个集，这个开发集或这个测试集，这最好称为开发集。

不过在机器学习的历史里，不是每个人都把术语定义分得很清的，有时人们说的开发集，其实应该看作测试集。但如果只要有数据去训练，有数据去调试就够了。打算不管测试集，直接部署最终系统，所以不用太担心它的实际表现，觉得这也是很好的，就将它们称为训练集、开发集就好。然后说清楚没有测试集，这是不是有点不正常？绝对不建议在搭建系统时省略测试集，因为有个单独的测试集比较令安心。因为可以使用这组不带偏差的数据来测量系统的性能。但如果的开发集非常大，这样就不会对开发集过拟合得太厉害，这种情况，只有训练集和测试集也不是完全不合理的。不过一般不建议这么做。

总结一下，在大数据时代旧的经验规则，这个70/30不再适用了。现在流行的是把大量数据分到训练集，然后少量数据分到开发集和测试集，特别是当有一个非常大的数据集时。以前的经验法则其实是为了确保开发集足够大，能够达到它的目的，就是帮评估不同的想法，然后选出\(A\)还是\(B\)更好。测试集的目的是评估最终的成本偏差，只需要设立足够大的测试集，可以用来这么评估就行了，可能只需要远远小于总体数据量的30%。

所以希望本随笔能给们一点指导和建议，知道如何在深度学习时代设立开发和测试集。