使用 Tableau 进行探索性数据分析
介绍
数据科学通常涉及用于描述和诊断分析的探索性数据分析(EDA)。此过程对数据进行观察、总结并探索变量之间的隐藏关系。
在本指南中,您将学习如何在 Tableau 中执行探索性数据分析。
数据
探索性数据分析可以针对所有类型的数据进行,例如分类数据、连续数据、字符串数据等。它可以涉及单变量、双变量或多变量分析。本指南将使用本网站的 Global Sample Superstore 数据源检查每种分析。
初步分析
在开始 EDA 之前,检查和探索数据中的空值、空白等非常重要。
将 Tableau 桌面连接到包含 Global Sample Superstore 数据的数据源。
接下来,连接订单表和退货表。在本例中,对字段订单 ID执行内连接。
数据连接后,您可以检查它以识别是否存在空值。如果需要,可以过滤掉缺失值。
上图显示邮政编码中有空值。但是,您可以忽略它,因为这不是感兴趣的变量。
单变量分析
单变量 EDA 每次处理一个变量的探索和分析。从统计上讲,您可以使用平均值、中位数或众数来表示变量的分布。从视觉上讲,您可以使用直方图、箱线图、条形图等来表示它。首先,将销售额度量拖到行架子上。
转到“显示我”选项,您会注意到直方图已突出显示。
选择直方图将生成下面的输出。
上面的输出显示分布是倾斜的。这意味着中位数应该用作销售额集中趋势的度量。
双变量分析
在双变量探索性数据分析中,您将同时分析两个变量。在这种情况下,您将使用箱线图来了解两个变量,即利润和市场。
首先,将“利润”字段拖到“行”架上。
转到“分析”选项卡并取消选中“聚合度量”选项。
接下来,将字段“市场”拖到“列”架中。
转到“显示我”并选择突出显示的箱线图。
完成上述步骤将生成以下输出。
上面的输出显示,美国市场的异常值比其他任何市场都多。这表明美国市场的利润变化更大。
多元分析
多元 EDA 的目标是一次检查和探索两个以上的变量。在本例中,您将分析四个变量,即销售额、利润、地区和类别。
第一步是了解销售额和利润之间的相关性。首先,将变量“利润”和“销售额”分别拖到“行”和“列”架子上。
下一步是显示相关图。一种技术是将变量订单 ID拖到标记卡的详细信息选项中。
这两个变量之间似乎存在相关性。此外,也存在异常值,但大多数数据都比较集中。到目前为止,这是一个双变量图。要使其成为多变量图,请添加更多变量。
首先,将类别变量放在颜色选项卡中。接下来,将销售额和利润变量放入过滤器窗格,以便可以根据需要更改它们的值。在过滤器选项中将聚合设置为总和,然后右键单击每个过滤器以选择显示过滤器。
将第四个字段“Region”拖到“标记形状”卡上,添加该字段。这将生成以下输出。
上图是多元 EDA 检查四个变量之间关系的示例。通过更改这些变量中的选项,您可以更好地探索和了解销售额和利润之间的相关性。
结论
在本指南中,您学习了如何执行描述性和诊断性分析的探索性数据分析 (EDA)。您学习了单变量、双变量和多变量探索性数据分析的基础知识,以及如何在 Tableau 中执行相关可视化。这些技能将有助于增强您的描述性和诊断性分析能力。
要了解有关使用 Tableau 进行可视化和数据分析的更多信息,请参阅以下指南:
免责声明:本内容来源于第三方作者授权、网友推荐或互联网整理,旨在为广大用户提供学习与参考之用。所有文本和图片版权归原创网站或作者本人所有,其观点并不代表本站立场。如有任何版权侵犯或转载不当之情况,请与我们取得联系,我们将尽快进行相关处理与修改。感谢您的理解与支持!
请先 登录后发表评论 ~