Azure ML Studio 中的模型验证
介绍
为了构建稳健且高性能的机器学习模型,测试和评估算法的性能非常重要。这是在模型验证的帮助下完成的。在本指南中,您将学习如何使用 1) 保留方法和 2) 交叉验证技术来验证机器学习模型。
数据
在本指南中,您将使用 Azure ML Studio 中提供的汽车价格数据。该数据集包含 205 行和 26 列,其中包含品牌、型号、技术规格和单个汽车的价格等特征。数据来自 UCI机器学习存储库。
第一步是加载数据。登录 Azure 机器学习工作室帐户后,单击左侧栏上列出的EXPERIMENTS选项,然后单击NEW按钮。接下来,单击空白实验并将工作区命名为模型验证。将显示以下屏幕。
单击工作区中的“已保存数据集”选项。这将打开 ML Studio 中可用的数据集列表。接下来,将“汽车价格数据(原始)”从“已保存数据集”列表拖到工作区中。
探索数据
数据探索阶段有助于了解数据分布并准备数据清理和特征工程策略。要探索数据,请右键单击并选择“可视化”选项,如下所示。
选择不同的变量来检查它们的基本统计数据。例如,下图显示了变量normalized-losses的详细信息。
右侧的“统计”部分显示变量的汇总统计值。您可以看到此变量有 41 条缺失记录。您将在数据准备阶段处理缺失值。
数据准备
要处理数据中的缺失值,请使用清理缺失数据模块。搜索并将此模块拖到工作区中。
在工作区的右侧,有不同的选项可用于执行“清理缺失数据”操作。有几种处理缺失值的方法。其中一种高级技术是MICE技术。MICE 代表通过链式方程进行多元插补,它通过为多元缺失数据创建多个插补(替换值)来工作。在“清理模式”选项卡下,选择“使用 MICE 替换”选项,如下所示。将所有其他选项保留为默认值。
接下来,运行实验并可视化以检查是否执行了缺失数据操作。
下一步是将数据中的变量转换为正确的数据类型。这很重要,因为当特征是正确的数据类型时,机器学习算法的性能最佳。
首先在搜索栏中输入编辑元数据以找到编辑元数据模块,然后将其拖到工作区中。
下一步是单击工作区右侧的启动列选择器选项,然后从可用列中选择字符串变量。这将生成下面的输出。
做出选择后,所选列将显示在工作区中。接下来,从“分类”下的下拉选项中选择“制作分类”选项。接下来,单击“运行”选项卡,然后选择“运行所选”选项。
模型验证方法
构建机器学习模型是预测建模的重要组成部分。然而,如果没有适当的模型验证,训练后的模型在未知数据上表现良好的信心就永远不会高。模型验证有助于确保模型在新数据上表现良好,并有助于选择最佳模型、参数和准确度指标。
下面提到了两种最广泛使用和最流行的模型验证技术:
保留验证
K 折交叉验证
本指南的以下部分将在 Azure 机器学习工作室中解释和实现这些内容。
保留验证方法
保留验证方法是指创建训练集和保留集(也称为测试集或验证集)。训练数据用于训练模型,而未见的测试数据用于验证模型性能。常见的分割比例是 70:30,这意味着 70% 的数据用于构建模型,而剩余的 30% 用于测试模型性能。对于小数据集,分割比例可以是 90% 用于训练,10% 用于测试数据集。
在 Azure 机器学习工作室中,使用拆分数据模块将数据分为训练数据集和测试数据集。搜索并将模块拖到工作区中。在工作区右侧显示的拆分数据选项中,将第一行分数选项卡下的值更改为 0.7。接下来,单击运行选项卡以运行实验。
一旦数据分割完成,下一步就是训练算法。
回归算法
模型训练的第一步是选择机器学习算法。使用增强决策树回归算法。搜索并将模块拖入工作区并指定模型参数。算法和参数规范如下所述。
增强决策树回归
该算法用于构建增强回归树。术语“增强”表示每棵树都独立于前一棵树。该算法基于集成学习模型,其中每棵树都通过纠正前一棵树的错误来构建。对于本指南中使用的数据,每棵树都会对因变量的目标类price进行预测。最终预测基于所有树一起做出的整个集成或价格预测的平均值。
要配置模块,首先将“创建训练器模式”设置为“单一参数”。当您知道如何配置模型时,请选择此选项。第二个参数“每棵树的最大叶子数”设置为 20。这表示可以在树中创建的最大终端节点数。第三个参数**每个叶节点的最小样本数**设置为 10。这表示在此树中创建任何终端节点所需的最小案例数。构建 100 棵树,由参数“构建的树总数”指定。这些是主要参数,您可以将其余参数保留为默认值。
训练模型
选择算法并指定参数后,您就可以训练模型了。首先将训练模型模块拖到工作区中,如下所示。该模块有两个输入端口。训练模型模块的左输入端口连接到算法模块,而右输入端口连接到拆分数据模块的左输出端口。如下所示。
在上面的输出中,您可以看到Train Model模块内有一个红色圆圈,表示设置尚未完成。这是因为尚未指定目标变量。为此,请单击启动列选择器并将目标变量价格放入选定列框中,如下所示。
评分测试数据
模型已配置完毕,下一步是对测试数据进行评分。此步骤很重要,因为模型性能将根据测试数据中的评分预测进行评估。为此,请执行以下步骤。
将分数模型模块拖入工作区。
将Train Model的输出端口与Score Model模块的左输入端口连接起来。
将拆分数据模块的右侧输出端口连接到评分模型模块的右侧输入端口。请注意,这会将拆分数据模块中的测试数据与评分函数连接起来。
评估模型
您已经构建了预测模型并在测试数据上生成了预测。下一步是评估预测模型的性能。此步骤决定了算法的好坏。将评估模型模块拖入工作区并将其与评分模型模块连接起来。接下来,单击运行选项卡并选择运行所选。如下所示。
免责声明:本内容来源于第三方作者授权、网友推荐或互联网整理,旨在为广大用户提供学习与参考之用。所有文本和图片版权归原创网站或作者本人所有,其观点并不代表本站立场。如有任何版权侵犯或转载不当之情况,请与我们取得联系,我们将尽快进行相关处理与修改。感谢您的理解与支持!
请先 登录后发表评论 ~