过度拟合通常发生在特征过多的时候,模型总能很好的拟合训练数据但泛化能力(模型能够应用到新样本的能力)差,无法应用到新的数据样本中
为了防止数据的过拟合(Overfitting),一般将数据集分为两部分:
- 测试集(Test set):用于测试模型
有时在模型的训练过程,为调整参数辅助模型构建(如神经网络中选择隐藏单元数)又会另将训练数据划分为训练集與验证集(Validation Set)。
验证集可以在模型训练中重复使用而测试集只用于模型检测中,评估模型的准确率不允许用于模型训练。
实际应用中一般只将数据集划分为训练集与测试集。
保持方法是划分训练集与测试集的常用方法将给定数据随机划分成两个独立的集合,通常以75/25戓80/20的比例分配到训练集与测试集
k-折交叉验证(k-fold cross-validation)中,初始数据随机地划分成k个互不相交的子集(折)S2?,...,Sk?作为训练集,得到第1个模型并在