机器学习路线图

机器学习主要包括预处理、学习、评估和预测等阶段，本文进行概览说明。

预处理 (Preprocessing)

原始数据很少呈现为学习算法的最佳性能所需的形式和形状。因此，数据的预处理是任何机器学习应用程序中最关键的步骤之一。以鸢尾花数据集为例，我们可以将原始数据看作一系列花图，从中我们可以提取有意义的特征，如花的颜色，花萼和花瓣的长度和宽度。

许多机器学习算法还要求能够将所有特征在同一数量级，这通常通过归一化或者正态分布等特征变换方法来实现。

部分特征可能是高度相关的，具有特征冗余。在这种情况下，降维可以减少所需的存储空间，并且算法可以学习得更快。

为了确定机器学习算法是否不仅在训练集上表现良好的同时，能很好地预测到新的数据，我们将数据集随机分为相互独立的训练集和测试集。训练集用于训练和优化我们的机器学习模型，测试集用于最终评估最终模型。

目前已有许多不同的机器学习算法，用于解决不同的问题任务。每个分类算法都有其固有的偏差，在实践中，比较几个不同的算法然后从中选出最优算法，对于训练和选择最佳性能模型至关重要。一个常用的算法度量指标是分类准确率，即正确分类数据的比重。

另外，我们可以使用不同的交叉验证技术，其中将训练数据集进一步分为训练和验证子集，以估计模型的泛化性能。

最后，算法的默认参数对于实际问题往往不会具有最佳表现。因此，我们可以使用超参数优化技术，通过调节算法参数，我们可以提高算法的性能。

在选择了模型并使用训练集进行训练之后，我们可以使用测试集来来估计泛化误差。

如果我们对其性能感到满意，可以使用这个模型来预测新的未来数据。

需要注意的是，训练的参数（如特征缩放和降维）仅从训练数据集中获得，在测试数据上测量的性能可能是过拟合的。