在 Azure 机器学习工作室中使用 T 检验进行假设检验
介绍
数据科学和机器学习通常需要制定假设并使用统计测试对其进行测试。一种常见的假设检验过程是执行 t 检验以比较两组是否具有不同的平均值。在本指南中,您将了解如何使用 Azure 机器学习工作室计算和分析 t 检验统计数据。
数据
在本指南中,您将使用包含 600 个观测值和 9 个变量的虚构贷款申请人数据集,如下所述。
Is_graduate:申请人是否是毕业生。
收入:申请人的年收入(以美元计)。
Loan_amount:提交申请的贷款金额(以美元计)。
Credit_score:申请人的信用评分是良好(“满意”)还是不佳(“不满意”)。
年龄:申请人的年龄。
审批状态:贷款申请是否获得批准(“是”)或未获得批准(“否”)。这是因变量。
性别:申请人的性别。
投资额:申请人申报的股票和共同基金投资金额(以美元计)。
目的:申请贷款的目的。
首先加载数据。
加载数据
登录 Azure 机器学习工作室帐户后,单击左侧栏上列出的EXPERIMENTS选项,然后单击NEW按钮。接下来,单击空白实验并将工作区命名为T-test。将显示以下屏幕。
接下来,将数据加载到工作区中。单击NEW,然后选择如下所示的DATASET选项。
上面的选择将打开一个窗口,如下所示,可用于从本地系统上传数据集。
数据加载完成后,您可以在“已保存的数据集”选项中看到它。文件名为ttestdata.csv。下一步是将其从“已保存的数据集”列表拖到工作区中。要浏览此数据,请右键单击并选择“可视化”选项,如下所示。
数据包含 600 行和 9 列。选择任何变量都会显示其统计数据,如下所示。
数据已加载到工作区并准备进行统计测试。
关键术语
在进行统计测试之前,您应该了解一些重要的术语。
平均值:平均值表示数据的算术平均值。计算方法是将数值相加,然后除以观测值的数量。
零假设和备择假设:统计检验依赖于检验零假设,零假设是针对每种情况的。零假设假设两个或多个变量之间不存在关系。例如,对于两组,零假设假设两个变量之间没有相关性或关联。备择假设与零假设完全相反。
t 检验:一般来说,t 检验可帮助您比较两组均值是否相同或不同。它还用于测试单个组均值是否与假设均值相当。
P 值:对于任何统计检验,p 值都是用于决定是否拒绝或无法拒绝原假设的统计数据。决策规则是,如果检验的 p 值小于 0.05,则我们拒绝原假设。如果 p 值大于或等于 0.05,则我们无法拒绝原假设。
以下部分概述了 Azure 机器学习工作室中 t 检验的实现。
单样本 T 检验
单样本 t 检验的原理是将向量的平均值与理论平均值进行比较。在我们的数据中,您将考虑收入变量并检验原假设,即申请人的平均收入为 72,500 美元。根据您的研究,这可以是任何数字。
将使用 t 检验模块的检验假设拖放到工作区中。
单击启动列选择器选项并选择收入变量。
接下来,完成其他参数以配置模块。对于t 检验类型,选择单样本集,因为您正在考虑一个变量。对于选项零假设 µ,键入值 72500。这指定了预期平均收入值,将根据该值对变量平均值进行检验。接下来,在假设类型下,选择默认选项双尾。这是最常见的检验类型,假设分布围绕零对称。Alpha 值(用α表示)指定置信度因子。将此值设置为 0.95。
运行实验。模块运行完成后,使用 t 检验模块的测试假设左侧输出端口将给出概率分数。
右键单击并选择**可视化**。
输出显示 p 值低于 0.05,这意味着拒绝原假设。
您可以使用 t-Test 模块的“检验假设”的正确输出端口来确认这一点。右键单击并选择“可视化”。
下面的输出表明原假设被拒绝。
根据 t 检验的结果,您拒绝了申请人平均收入为 72,500 美元的原假设。
配对样本 T 检验
配对样本 t 检验的原理是比较来自同一总体的两组样本的平均值。在此数据中,您将考虑变量Income和Loan_amount。要检验的零假设是两个变量的预期平均值之间的差异为零。
将使用 t 检验的测试假设模块拖放到工作区中。要配置模块,请单击启动列选择器选项并选择收入和贷款金额变量。
接下来,完成其他参数。对于t 检验类型,选择PairedSamples ,因为您正在考虑两个变量。对于选项Null hypothesized µ,键入零值。这指定两个变量的均值的预期差异为零。设置另一个选项,如下所示。
运行实验,右键单击左侧输入端口以选择“可视化”。
输出显示 p 值低于 0.05,这意味着拒绝原假设。
接下来,右键单击使用 t 检验进行假设检验模块的右侧输入端口,并选择“可视化”。输出显示要拒绝零假设。
根据 t 检验的结果,您可以拒绝原假设,即变量Income和Loan_amount的预期均值之间的差异为零。
结论
假设检验在市场研究、质量测试和推断统计领域有多种应用。它在制药行业用于新药研发。它也用于制造业,以比较两个流程或机器。使用 t 检验的假设检验也用于诊断分析,这是机器学习的一个重要领域。
<a href="https://www-pluralsight-com.translate.goog/resourc
免责声明:本内容来源于第三方作者授权、网友推荐或互联网整理,旨在为广大用户提供学习与参考之用。所有文本和图片版权归原创网站或作者本人所有,其观点并不代表本站立场。如有任何版权侵犯或转载不当之情况,请与我们取得联系,我们将尽快进行相关处理与修改。感谢您的理解与支持!
请先 登录后发表评论 ~