在 Tableau 中构建箱线图
介绍
数据清理的最大挑战之一是异常值的识别和处理。简单来说,异常值是与其他数据点有显著差异的观测值。如果不从数据中清除异常值,即使是最好的算法也会表现不佳,因为它们会对机器学习算法的训练过程产生不利影响,导致准确性下降。因此,检测异常值变得极为重要。检测异常值最突出的可视化工具是箱线图。
在本指南中,您将学习如何在 Tableau 中构建箱线图。
箱线图组成部分
下图描绘了一个箱线图:
输出:
此图表类型包含以下组件:
图表的方框部分。方框表示数据的中间百分之五十。从统计学角度来说,它表示位于第一四分位数和第三四分位数之间的数据部分。第三四分位数和第一四分位数之间的差异也称为四分位距 (IQR)。
数据中的最低值。
第一个四分位数,即 25% 的数据小于该数字的数字。
中位数,即数据的中间值。换句话说,中位数是将数据分成两半的值。
第三四分位数,即 75% 的数据小于该数字的数字。
数据中的最高值。
异常值,即数据中的极值。识别异常值的公式有很多种,其中最突出的公式是:
下限异常值 < 第一四分位数 (Q1) 值 – 四分位数 (IQR) 值的 1.5 倍,并且
上异常值 < 第三四分位数 (Q3) 值 + 1.5 倍四分位数 (IQR) 值,
数据
我们将使用Tableau 存储库中提供的Sample – Superstore数据来创建箱线图。目标是根据维度Category可视化连续度量Sales。
步骤
- 第一步是创建一个条形图,其中包含维度(类别)和感兴趣的度量(销售额)。为此,我们将类别维度拖到列架子中,将销售额拖到行部分中。同时将维度区域拖到详细信息标记卡中。输出如下图所示:
输出:
- 下一步是转到Tableau 右上角的“ Show Me”选项,然后从选项中选择箱线图。
输出:
绘制箱线图的另一种方法是右键单击度量轴,然后单击添加参考线。将弹出一个新窗口,其中将显示绘制箱线图的选项。这将创建箱线图,我们可以看到工具提示为我们提供了有关数据分布的信息,例如中位数、上和下须以及上和下铰链。
输出:
如果数据点无法正常显示,我们可以增加圆圈大小并降低“标记”选项卡中颜色填充的不透明度。
输出:
- 可以使用各种格式选项来改变箱线图的外观。一种方法是右键单击图表,这将带我们进入编辑选项。单击该选项将打开一个新窗口。
输出:
在这个窗口中,我们可以将晶须延伸更改为数据的最大范围,或 IQR 值 1.5 倍以内的数据,后者是默认选项。也可以进行其他格式更改。最终的箱线图如下所示。
输出:
箱线图和对称性
如果数据服从正态分布,中位数将显示在箱线图的中间。但是,如果数据偏斜,箱线图也会相应地偏斜。
结论
在本指南中,您学习了如何在 Tableau 中构建箱线图。您还学习了箱线图的组成部分,这将帮助您了解变量的数据分布并从中获得有意义的见解。
免责声明:本内容来源于第三方作者授权、网友推荐或互联网整理,旨在为广大用户提供学习与参考之用。所有文本和图片版权归原创网站或作者本人所有,其观点并不代表本站立场。如有任何版权侵犯或转载不当之情况,请与我们取得联系,我们将尽快进行相关处理与修改。感谢您的理解与支持!
请先 登录后发表评论 ~