机器学习数据顺序随机打乱：Python实现

机器,学习,数据,顺序,随机,打乱,python,实现 · 浏览次数 : 184

小编点评

**为什么要打乱数据集？** 在机器学习中，如果数据集没有进行打乱，模型在训练过程中可能导致模型在训练过程中出现具有“偏见”的情况，降低其泛化能力，从而降低训练精度。例如，如果我们做深度学习的分类，其中初始数据的前80%都是第一类，后20%都是第二类，那么如果我们不打乱数据，模型按照数据顺序依次加以训练，则在前面大部分数据中训练出的结果都是第一类（即形成了惯性，模型认为这些数据只对应着第一类）；而到后20%数据进行训练时，所得结果也往往全都为第一类；所以要打乱。 **如何打乱？** 1. 使用 `random.shuffle(DataIndex)` 等方法随机排列数据索引。 2. 将训练数据特征 `TrainX` 和标签数据 `TrainY` 从索引中随机选择。 3. 使用 `tf.data.Dataset.from_tensor_slices((dict(TrainX),TrainY))` 创建一个数据集。 4. 使用 `shuffle(1000)` 等方法随机排列数据集。 5. 使用 `MyData.sample(frac=TrainFrac,random_state=RandomSeed)` 和 `MyData.drop(TrainData.index)` 等方法对训练集和测试集进行数据划分。

正文

本文介绍基于Python语言，实现机器学习、深度学习等模型训练时，数据集打乱的具体操作。

1 为什么要打乱数据集

在机器学习中，如果不进行数据集的打乱，则可能导致模型在训练过程中出现具有“偏见”的情况，降低其泛化能力，从而降低训练精度。例如，如果我们做深度学习的分类，其中初始数据的前80%都是第一类，后20%都是第二类，那么如果我们不打乱数据，模型按照数据顺序依次加以训练，则在前面大部分数据中训练出来的结果都是第一类（即形成了惯性，模型认为这些数据只对应着第一类）；而到后20%数据进行训练时，所得结果也往往全都为第一类；所以要打乱。

2 如何打乱

首先引入random。

import random

2.1 数据特征与标签均为一维

DataIndex=[i for i in range(len(TrainX))]
random.shuffle(DataIndex)
TrainX=TrainX[DataIndex]
TrainY=TrainY[DataIndex]

其中，TrainX为一维的训练数据特征，TrainY为一维的训练数据标签。

2.2 数据特征为多维而标签为一维

Datasets=tf.data.Dataset.from_tensor_slices((dict(TrainX),TrainY))
Datasets=Datasets.shuffle(1000)

其中，TrainX需要为多维DataFrame格式的训练数据特征，TrainY为一维Series格式的训练数据标签。但是经过这种方法，我们得到的Datasets为Dataset类的数据，若是接下来需要带入input_fn还可以，如果想单独取出TrainX和TrainY的话就比较麻烦。

因此，我们还可以直接在初始数据划分训练集与测试集时直接将数据打乱：

TrainData=MyData.sample(frac=TrainFrac,random_state=RandomSeed)
TestData=MyData.drop(TrainData.index)

其中，MyData为初始全部数据，TrainData与TestData分别为划分后的训练集与测试集数据。

经过.sample()这一步骤，与原始数据的Index相比，实际上已经实现了TrainData与TestData的随机排列。

至此，大功告成。

机器学习数据顺序随机打乱：Python实现

小编点评

正文

1 为什么要打乱数据集

2 如何打乱

2.1 数据特征与标签均为一维

2.2 数据特征为多维而标签为一维

与机器学习数据顺序随机打乱：Python实现相似的内容：

机器学习数据顺序随机打乱：Python实现

算法金 | 选择最佳机器学习模型的 10 步指南

算法金 | 一文彻底理解机器学习 ROC-AUC 指标

29.4K star! 仅需几行代码快速构建机器学习 Web 应用项目，无需前端技能!

[大数据][机器学习]之Model Card（模型卡片）介绍

算法金 | 详解过拟合和欠拟合！性感妩媚 VS 大杀四方

使用Mask R-CNN模型实现人体关键节点标注

机器学习（一）——递归特征消除法实现SVM（matlab）

迁移学习：互信息的变分上下界

机器学习-周志华

# 热门排行