首页 > 操作系统 >

测试程序的目的是_____ 机器学习中的模型评价、模型选择及算法选择

电脑杂谈　发布时间：2018-02-18 04:06:29　来源：网络整理

测试程序_软件测试的目的_测试程序的目的是_____

正确使用模型评估、模型选择和算法选择技术无论是对机器学习学术研究还是工业场景应用都至关重要。本文将对这三个任务的相关技术进行回顾，并就每种技术的理论和实证研究的主要优缺点进行讨论。文章还将就机器学习算法中的超参数调优给出尽可能的建议，用以实现最佳的算法效果。文中内容涉及很多常用方法，比如模型评估和选择中的Holdout方法等；介绍了bootstrap技术的不同变体，通过正态逼近得到置信区间来衡量性能估计（performance estimates）的不确定性；在讨论偏差-方差（bias-variance）折中方案时，对比了留一交叉验证法（leave-one-out cross validation）和k-fold交叉验证法，并提供了在k-fold交叉验证中最优k值的选择技巧。

1. 引言：基本模型评价术语和技术

机器学习已经逐渐深入到了我们生活的中心。无论是学术研究还是商业应用，共同的出发点都是希望做出“好”的预测。把模型拟合到训练数据上是一方面，但怎么才能知道模型在未知数据上的泛化性能呢？如何针对手头的问题在不同算法间选择出最好的模型呢？模型评估当然不会是机器学习通向的终点。在处理任何数据之前，我们都希望可以提前计划并针对任务选择合适的技术。在这篇文章中，我们就将讨论这些技术的优劣，并通过一个典型的机器学习工作流程，展示其应用的方法。

▌1.1 性能估计：泛化性能与模型选择

机器学习模型的性能估计流程可以分为以下三步：

将训练数据输入到学习算法中，以学习模型；

用模型预测测试集标签；

计算模型在测试集上的错误率，推导出模型预测精度。

然而，当要实现不同的目标时，模型性能估计就不像我们总结的那样简单了。也许我们应该从另一个角度来回答前面的问题：“我们为什么要关心性能估计?” 理想情况下，模型的估计性能说明了它在未知数据上的表现如何——在机器学习的应用或新算法的开发中，对未来数据进行预测通常是我们想要解决的主要问题。

通常，机器学习需要大量的实验才能实现最好的算法效果，例如，学习算法的内部参数（所谓的超参数）的调优。由于我们要从这个模型集合中选择最好的模型，所以就需要找到一种方法来评估不同模型的性能，以便对它们进行排序。除了算法调优之外，通常我们还需要尝试多种可以在特定条件下实现最优的单一算法。在比较不同的算法时，我们主要关注预测和计算性能。

总结来说，我们进行模型预测性能评估的主要原因有以下三点：

我们想要估计模型的泛化性能，即模型对未知数据的预测性能。

我们希望通过调整学习算法和从给定的假设空间中选择最佳的执行模型来提高预测性能。

我们想要确定最适合于手头问题的机器学习算法；因此，我们需要比较不同的算法，从算法的假设空间中选择最佳性能的算法和最佳的执行模型。

尽管上面列出的这三个子任务都需要评估模型的性能，但是却需要不同的方法。我们将在本文中讨论处理这些子任务的不同方法。

模型的绝对性能估计或许是机器学习中最具挑战性的任务之一。为了方便比较不同模型的性能，我们可以在选择估计它们的有偏性能（biased performance），当然前提是偏差对所有的模型造成的影响相同。对模型性能的估计偏差并不会影响其相对排名顺序。比如有三种模型，其准确率如下：

M2: 75% > M1: 70% > M3: 65%，

即使增加10%的悲观偏差，仍然不影响排序。

M2: 65% > M1: 60% > M3: 55%。

▌1.2 假设和术语

模型评估是一个复杂的课题。为了确保不过多地偏离核心信息，我们会先做一些假设，并列举一些稍后会用到的技术术语。

本文来自电脑杂谈，转载请注明本文网址：
http://www.pc-fly.com/a/jisuanjixue/article-82970-1.html