b2科目四模拟试题多少题驾考考爆了怎么补救
b2科目四模拟试题多少题 驾考考爆了怎么补救

测试程序的目的是_____ 机器学习中的模型评价、模型选择及算法选择(3)

电脑杂谈  发布时间:2018-02-18 04:06:29  来源:网络整理

通常,将数据集拆分为训练集和测试集是一个简单的随机抽样过程。我们假设每一类所有的数据点都是按照相同的概率分布得到的。我们随机选择三分之二的样本用作训练集,三分之一的样本用作测试集。但这一方法还有两个问题,我们会在下一节中讨论。

▌1.4 层次化(Stratification)

数据集是从某个概率分布中抽取的随机样本的代表,我们通常假设这个数据集是真实数据的代表。在没有替换的情况下,进一步的下采样会改变样本的统计量(平均值、比例和方差)。这种没有替换的下采样对样本统计量的影响程度与样本的大小成反比。让我们来看一个使用Iris数据集的例子,我们将其随机分为2/3的训练数据和1/3的测试数据,如图1所示。(生成此图形的源代码可在GitHub上找到)。

图1:Iris的花类在随机抽样的训练集和测试集上的分布(三种颜色代表三种花的类别)

当我们将一个标记的数据集随机分为训练和测试集时,我们就违反了统计独立的假设。Iris数据集包括50个Setosa, 50个Versicolor,,和50个Virginica;花的种类均匀分布:

33.3% Setosa

33.3% Versicolor

33.3% Virginica

如果一个随机的函数将2/3的花(100)分配给训练集,1/3的花(50)分配给测试集,它可能会产生以下结果(如图1所示):

训练集:38Setosa, 28Versicolor, 34Virginica

测试集:12Setosa, 22Versicolor, 16Virginica

假设Iris数据集是真实种群的代表(比如假设Iris flower在自然界是均匀分布的),我们就创建了两个非均匀类分布的不平衡数据集。学习算法用于学习模型的类别比例为“38% / 28% / 34%”。用于评估模型的测试数据集也不平衡,更糟的是,它在“相反的”方向上是平衡的:“24% / 44% / 32%”。除非学习算法对这些干扰完全不敏感,否则结果会很不理想。如果一个数据集在随机抽样之前有很高的类别不平衡,那么问题就更严重了。在最坏的情况下,测试集甚至不包含任何少数类的样本。因此,推荐的做法是用层次化的方式划分数据集。在这里,层次化仅仅意味着我们随机地划分一个数据集使得其子集(训练集和测试集)可以正确地表示每个类——换句话说,层次化是一种保持类别在所得子集中的原始比例的方法。

需要指出的是,以非层次化的方式下随机抽样,在使用相对较大和类别较平衡的数据集时通常不是一个大问题。然而,在我看来,层次化重采样在机器学习应用中通常是有益的。此外,层次化抽样非常容易实现,Ron Kohavi为此提供了经验性的证据[Kohavi, 1995],层次化也有助于k-fold交叉验证中方差和偏差的估计。

▌1.5 Holdout验证

图2 Holdout验证方法的可视化总结

图2提供了Holdout验证方法的可视化总结。下面我们将详细讨论这个方法的优点和缺点。

步骤1:首先,我们将可用的数据随机分为两个子集:一个训练集和一个测试集。对模型来说,测试集代表未知数据;还有一点是,当我们估计泛化性能时,为了避免引入偏差,测试集只能使用一次。通常情况下,我们将2/3的数据分配给训练集,1/3的数据分配给测试集。其他常见的训练/测试分割是60/ 40,70 /30,或80/20 ——如果数据集比较大的话,甚至能到90/10。

步骤2:在获得测试样本之后,我们需要选择一个适合给定问题的学习算法。从图2可以看到超参数值,超参数是我们学习算法的参数。我们必须手动指定这些超参数值——和实际模型参数不同,学习算法不会自动从训练数据学习这些参数。由于在模型拟合过程中没有学习超参数,所以我们需要针对任务进行一些“额外的过程”或“外部循环”来分别优化这些参数——这种Holdout方法是病态的。因此,目前我们必须使用一些固定的超参数值——如果是用现有的机器学习库,我们可以使用现成的默认参数或根据直觉设置参数值。


本文来自电脑杂谈,转载请注明本文网址:
http://www.pc-fly.com/a/jisuanjixue/article-82970-3.html

相关阅读
    发表评论  请自觉遵守互联网相关的政策法规,严禁发布、暴力、反动的言论

    • 叶俊杰
      叶俊杰

      炒股票的钱永远都是进了印股票人的腰包

    • 陈毅
      陈毅

      也行

    • 袁綯
      袁綯

      你只是站在自己的位置上去看问题

    热点图片
    拼命载入中...