Tableau Playbook - 散点图
介绍
Tableau 是当今最流行的交互式数据可视化工具。它提供了各种各样的图表,可让您轻松有效地探索数据。本系列指南《Tableau Playbook》将介绍 Tableau 中各种常见的图表。本指南将重点介绍散点图。
在本指南中,我们将按照以下步骤了解散点图:
- 我们将从一个示例图表开始介绍散点图的概念和特征。
- 通过分析真实数据集,我们将逐步学习如何绘制散点图。然后,我们将使用高级功能优化和完善图表。
入门
例子
以下是Stack Overflow 2018 年开发者调查结果的散点图示例。它按编程语言显示了薪资和经验之间的关系。
我们可以从这个散点图中挖掘出很多信息:
- 整体上我们用趋势线来拟合经验和薪资之间的线性关系。
- 从横向来看,我们可以比较各语言开发人员的年龄分布;从纵向来看,我们可以比较各语言开发人员的薪资中位数分布。
- 大小和颜色等附加视觉元素使散点图能够传达更多信息。在此示例中,圆圈的大小直观地表达了语言的流行程度。
- 借助散点图,我们可以挖掘出有用的信息。例如,使用 Go、Clojure 和 F# 的开发人员即使拥有多年的经验,薪水也更高。然而,使用 PHP 和 Visual Basic 6 等低于平均水平的语言的开发人员,即使拥有多年的经验,薪水也较低。
概念与特征
根据维基百科关于散点图的条目:
散点图是一种使用笛卡尔坐标来显示一组数据中通常两个变量值的图。如果对点进行编码(颜色/形状/大小),则可以显示一个附加变量。
散点图通常用于统计分析。它们是比较具有许多不同值的维度的多个度量的极其有效的方法。基本情况是比较具有 x 轴和 y 轴的两个度量。可以通过 Tableau 的视觉元素(例如大小和颜色)添加更多度量。
如果要使用散点图,了解其优点和缺点非常重要。
散点图具有以下优点:
- 可扩展性——可以容纳大量的点:散点图使我们可以选择在较小的区域中显示大量数据,并且混淆率相对较低。
- 分析相关性:散点图的典型用途是确定两个度量是否相关。Tableau 提供了统计变量,例如 P 值和 R 平方。但需要注意的是,我们需要客观地对待相关性。当两个变量相关时,并不意味着一个变量导致了另一个变量。
- 直观观察数据:在散点图中,可以直观的观察到异常值、数据范围或者指定区域,并且借助 Tableau 提供的交互式操作,我们可以进一步详细分析这些点。
散点图的最大缺点是可能出现过度绘制。虽然它能够容纳大量数据,但当散点图密集时,过度绘制可能会成为一个问题。我们可以通过调整不透明度或突出显示来减少这种视觉不适。
数据集
在本指南中,我们将使用 Kaggle 数据集中的Boston Housing数据集。感谢美国人口普查局和 Kaggle 提供此数据集。该数据收集于 1978 年,506 个条目中的每一个都代表了马萨诸塞州波士顿各个郊区房屋的 14 个特征的汇总数据。
在本指南中,我们将分析以下因素如何影响房价:
- MEDV:自住房屋的中位价值(以 1000 美元计算)
- RM:每套住房的平均房间数
- CRIM:城镇人均犯罪率
- LSTAT: 人口地位较低百分比
基本流程
让我们开始一步一步地创建一个基本的散点图。
在绘图之前,我们需要借助 Excel 等外部工具对数据进行一些预处理。为了将每一行显示为一个点,我们需要添加ID来标识。最简单的方法是在 Excel 中添加ID列。目前,在 Tableau 中创建唯一标识符比较困难。如果你坚持这样做,请参考这篇文章。
我们可以使用Show Me自动生成基本图表。这是构建散点图最简单的方法。单击Show Me,您将看到以下说明:
对于散点图,尝试 0 个或更多维度,2 到 4 个度量。
在这个例子中,我们需要两个指标,RM和MEDV。按住Control键(在 Mac 上为Command键)并单击以多次选择RM和MEDV ,然后在Show Me中选择散点图。
现在我们注意到图表中只有一个点。这是因为所有记录都聚合在一起。在这里,我们可以按之前创建的ID拆分数据。
- 将ID转换为Dimension。
- 将ID拖入标记-详细信息。
- 切换到整个视图可获得更佳的可视化效果。
在散点图的顶部,有 16 个数据点的 1MEDV1 值为 50.0。它们是被上限限制的异常值。为了更准确的分析,我们应该删除这些异常值。多选它们并在弹出的对话框中单击“排除” 。Tableau 会在“筛选器”中排除它们。
为了使图表更具吸引力,请编辑形状和颜色等视觉元素:
- 展开标记中的“形状”卡,并用实心圆圈或任何其他对读者有意义的形状替换空圆圈。
- 为了减少叠加的影响,请展开标记中的颜色卡,并将不透明度滑动到半透明。
添加趋势线来识别RM和MEDV之间的相关性。
- 右键单击图表并选择趋势线->显示趋势线。
- 右键单击趋势线,然后单击编辑趋势线...
- 选择线性作为模型类型。
- 勾选显示置信区间。
最后一步,让我们完善一下这个图表:
- 编辑标题为“房间数与房价的关系”。
- 将 x 轴重命名为“房间号”,将 y 轴重命名为“房价”。
分析:
在这个基础散点图中,我们分析了房间数和房价之间的相关性。我们用线性模型来模拟这种关系。从 Tableau 提供的统计变量中,我们可以看到 P-value 小于 0.001,R-Squared 为 0.471。这表明它们的线性相关性较高。
当我们聚焦这些点时,我们还可以挖掘出一些其他信息。我们发现平均房间数在 5.5 到 6.8 之间,房价在 15,000 到 25,000 之间。我们还可以清楚地区分出异常值,并进一步分析它们的详细信息。
高级功能
在本节中,我们将添加更多高级功能来增强散点图。
首先,让我们像之前一样建立一个散点图。
- 这次我们将手动构建它。将LSTAT拖到Columns Shelf中,将MEDV拖到Rows Shelf中。
- 将ID拖入标记-详细信息。
- 右键单击并选择隐藏空值指示器。
- 选择多个顶部异常值,然后单击弹出对话框中的“排除” 。
- 切换到整个视图以获得更好的视图。
添加更多视觉元素来传达信息。这里我们按尺寸显示测量CRIM 。
- 将CRIM拖入标记-大小。
- 通过展开右侧的尺寸卡或尺寸图例来调整尺寸。
聚类技术对于分析散点图的特征非常有用。Tableau 具有内置的聚类算法,例如 k-mean。让我们尝试使用 Tableau 的聚类功能来寻找点的共同属性。
- 切换到“分析”窗格。将“群集”拖到视图中,并将其放在出现的“创建群集”框上。
- 我们可以看到它是通过我们之前创建的三个度量来计算的。我们删除CRIM,然后看看只有两个轴变量的情况。
请注意,Tableau 发现了四个集群。每个集群都反映了不同价格和LSTAT范围的潜在房屋类别。我们可以从这些集群中挖掘更多信息,但我们将在这里停下来并专注于散点图。
让我们添加另一个度量RM作为颜色。
- 将RM拖入标记-颜色。
- 默认的颜色配置不够好。让我们改进它。单击颜色图例中的倒三角形,然后选择编辑颜色...
- 为了更清晰的区分颜色,我们将单一颜色改为发散色。在调色板中选择红-绿-金发散。
- 为了根据房间数量对点进行分组,我们检查阶梯式颜色并将阶梯数设置为 5。
在散点图中添加更多量化指标:
免责声明:本内容来源于第三方作者授权、网友推荐或互联网整理,旨在为广大用户提供学习与参考之用。所有文本和图片版权归原创网站或作者本人所有,其观点并不代表本站立场。如有任何版权侵犯或转载不当之情况,请与我们取得联系,我们将尽快进行相关处理与修改。感谢您的理解与支持!
请先 登录后发表评论 ~