使用 Azure ML Studio 进行分类建模
介绍
分类建模是两种最广泛使用的机器学习算法之一,另一种是回归。当目标变量是分类变量时,使用分类算法。有几种使用分类算法的用例,例如信用卡欺诈预测、电子邮件分类为垃圾邮件和正常邮件、员工流失预测等。在本指南中,您将研究贷款申请批准的用例,您将在其中构建分类模型来预测贷款批准。您将使用 Azure 机器学习工作室构建和评估模型。
数据
在本指南中,您将处理一个虚构的贷款申请人数据集,其中包含 600 个观测值和 9 个变量,如下所述:
Is_graduate申请人是否是毕业生(“是”)或不是(“否”)。
收入申请人的年收入(以美元计)。
Loan_amount提交申请的贷款金额(以美元计)。
Credit_score申请人的信用评分是否令人满意。
年龄申请人的年龄。
性别申请人是女性(F)还是男性(M)。
批准状态贷款申请是否被批准(“是”)或不被批准(“否”)。这是因变量。
投资申请人申报的投资额(以美元计)。
目的申请贷款的目的。
您将从加载数据开始。
加载数据
登录 Azure 机器学习工作室帐户后,单击左侧栏列出的EXPERIMENTS选项,然后单击NEW按钮。接下来,单击空白实验,将显示以下屏幕。
将工作区命名为“分类建模”。接下来,您将数据加载到工作区中。单击NEW,然后选择DATASET选项。这将打开如下所示的窗口,可用于从本地系统上传数据集。上传名为data_classification.csv的数据。
文件加载完成后,您可以在“已保存的数据集”选项中看到它。下一步是将其从“已保存的数据集”列表拖到工作区中。
探索数据
探索数据有助于理解变量及其结构。这有助于数据清理、数据预处理以及特征工程。要探索数据,请右键单击并选择“可视化”选项,如下所示。
选择不同的变量来检查基本统计数据。例如,下图显示了变量Credit_score的详细信息。
右侧的“统计”部分显示变量的汇总统计值。它显示为具有两个唯一值的字符串特征。此类特征需要转换为分类变量。
转换数据类型
在本部分中,您将转换数据类型。首先在搜索栏中输入“编辑元数据”以找到编辑元数据模块,然后将其拖到工作区中。
下一步是单击位于工作区右侧的启动列选择器选项,然后从可用列中选择字符串变量。
做出选择后,所选列将显示在工作区中。接下来,从“分类”下的下拉选项中选择“制作分类”选项。
接下来点击工作区底部的运行按钮执行操作。
分类算法
有几种分类算法,您将使用三种不同类型的算法。
双类逻辑回归:此模块用于使用逻辑回归预测二元结果。该算法通过将数据拟合到逻辑函数来预测两个目标类别。逻辑函数估计事件发生的可能性(在本例中为贷款批准与否),并将其转换为因变量approval_status的目标类别。
双类增强决策树:此模块使用增强决策树算法创建二元分类器。此算法基于集成学习模型,其中每棵树都通过纠正前一棵树的错误来构建。对于本指南中使用的数据,每棵树都会对因变量approved_status的目标类进行预测。最终预测基于整个树集合。
双类神经网络:此模块使用神经网络算法进行二元分类。神经网络是一组互连的层,用于解决许多具有挑战性的人工智能问题。它们通常优于传统的机器学习模型,因为它们具有非线性、变量交互和自定义的优势。对于所使用的数据,此算法创建一个由输入、输出和隐藏层组成的网络,以对目标类approved_status进行预测。
搜索并将这些模块拖到工作区中,如下所示。
交叉验证
模型验证在构建强大而稳健的机器学习模型中起着不可或缺的作用。模型验证有助于确保模型在新数据上表现良好,并有助于选择最佳模型、参数和准确度指标。一种流行的交叉验证技术是 k 倍交叉验证。
在 k 折交叉验证中,数据被分成 k 份。模型在k-1份上进行训练,其中一份留作测试。例如,如果 k 设置为 10,则数据将被分成 10 个相等的部分。之后,模型将基于前九份构建,而评估将基于第十份或第十份进行。此过程会重复进行,以确保数据集的每一份都有机会成为留作测试的数据集。完成此过程后,您可以使用平均值或/和标准差来总结评估指标。
交叉验证模型模块在 Azure 机器学习工作室中执行此任务。搜索并将三个交叉验证模型模块拖到工作区中,如下所示。
配置交叉验证模块
在此步骤中,您将配置模块。第一步是连接工作区中的各个模块,如下所示。
您可以在Cross Validate Model中看到红旗,需要进行更正。单击Launch 列选择器选项,然后选择目标变量approved_status,如下所示。
对所有交叉验证模型模块重复此过程。
训练模型
下一步是指定三种算法的参数,从Two-Class Boosted Decision Tree开始。为此,单击模块,您将看到几个训练参数。对于创建训练器模式,选择单参数选项,当您知道如何配置算法时使用该选项。第二个参数是每棵树的最大叶子数,它表示在任何树中要创建的最大终端节点数。将此值设置为 20。填写其他选项,如下所示。
下一步是配置二分类神经网络模块,如下所示。算法的参数在此步骤中配置。
最后,指定二分类逻辑回归模块的参数。
要完成操作,请运行实验。每个模块上的绿色勾号表示该模块已成功运行。
模型评估
您已经构建了预测模型,下一步是评估预测模型的性能。交叉验证模型的左侧输出端口包含评分结果。
免责声明:本内容来源于第三方作者授权、网友推荐或互联网整理,旨在为广大用户提供学习与参考之用。所有文本和图片版权归原创网站或作者本人所有,其观点并不代表本站立场。如有任何版权侵犯或转载不当之情况,请与我们取得联系,我们将尽快进行相关处理与修改。感谢您的理解与支持!
请先 登录后发表评论 ~