使用数据透视图可视化数据:第 2 部分
介绍
在本系列的第 1 部分中,我们学习了如何使用数据透视表数据创建基本图表。在本指南中,我们将继续上一步,并学习构建以下图表:
- 直方图
- 箱线图
- 树形图和旭日图
- 连击
1. 直方图
直方图将数据点组织成范围,看起来类似于条形图。它很容易从视觉上解释,因为它将许多数据点分组到逻辑范围或箱体中。
您可以控制直方图中表示的箱数。当您将数据直接传递给任何统计软件(Excel、R、MATLAB 等)时,它们会根据数据的分布方式创建一定数量的箱。但是,我们始终可以控制最终输出。让我们通过一个例子来学习。
在“行”部分下创建一个包含“程序”的数据透视表,在“值”部分下创建一个包含“杂项费用”的数据透视表。这将生成以下数据透视表:
行标签 | 杂费总额 |
---|---|
硕士(商务) | 43000 |
硕士(工程) | 19000 |
博士学位 | 6000 |
博士学位 | 12000 |
累计 | 80000 |
如果您尝试在数字列上建立直方图,Excel 将显示以下消息:
您无法使用数据透视表内的数据创建此图表类型。请选择其他图表类型,或将数据复制到数据透视表之外。
因此,我们将值 43000、19000、6000 和 12000 复制到单独的列中并选择它们。然后单击“图表”部分下的“插入统计图表”图标并选择直方图图标,如下所示:
单击直方图图标后,您将获得以下图表(图表标题已重命名为“杂项费用”):
您可能会发现 Excel 自动创建了两个范围分别为[6000, 42000]和[42000, 78000] 的容器。第一个容器的条形值为 3,表示此范围内有 3 个项目。下一个容器的值为 1,表示其范围内只有一个值。
要修改箱的范围,请单击图表元素 > 轴 > 更多轴选项...,如下所示:
这将打开“设置轴格式”侧栏。要更改箱体大小,可以使用箱体数量或箱体宽度。在这里,我们选择 6000 作为箱体宽度的参数。
输入值后,按Enter,更改将反映在图表中,如下所示:
您可以观察到,这次只有两个值位于[6000, 12000]范围内。继续前进,在当前情况下,我们只有四个值和三个条形图,这使得分析数据中的偏度(将在下一节中详细讨论)变得容易。但是,当直方图中有数百个条形图时,建议在条形图上绘制一条帕累托线*,这可以大致了解数据的分布情况。要绘制带有帕累托线的直方图,请选择以下图标:
2. 箱线图
箱线图(或箱须图)可帮助您直观地呈现数值数据的分布。箱线图由一个箱(描述不同的四分位数)、须(延伸以显示分布的其余部分)和几个点(表示数据中的异常值)组成。
让我们快速创建杂项费用值的箱线图,这些值被复制到与数据透视表不同的列中。
上述图表的关键要点如下:
- 数据偏向更高的正数。
- 中位数约为15000。
- 数据中没有异常值。
使用多个箱线图
到目前为止,在本指南中,您已构建了只有一个数字列(杂项费用)的图表。现在,我们将考虑数据透视表中有两个数字列(杂项费用和学费)的情况,如下所示:
行标签 | 杂费总额 | 学费总额 |
---|---|---|
硕士(商务) | 43000 | 1223000 |
硕士(工程) | 19000 | 291555 |
博士学位 | 6000 | 68000 |
博士学位 | 12000 | 86000 |
累计 | 80000 | 1668555 |
当您将这两列(杂费总额和学费总额)的值复制到单独的列中并在其上创建箱线图时,您可能会收到如下图所示的图:
你能看出上面图表的问题吗?
由于杂费的范围比学费的范围小得多,我们无法观察到实际的杂费箱线图。为了解决这个问题,我们可以采用最小-最大标准化。
最小-最大正则化总是将结果带入定义的范围 [0, 1]。因此,如果您将这两列都正则化,然后创建它们的箱线图,则这两个箱线图的范围都会在 [0, 1] 内。
从数学上来说,
X_i = (X_i - X_min)/(X_max - X_min)
如果您有一个值为5, 2, 8, 6, 12的虚拟数据,则标准化值 5 的计算为(5-2)/(12-2) = 0.3。
杂费和学费的标准化值以及最终的箱线图如下所示:
标准化杂费 | 标准化学费 |
---|---|
(43000 - 6000) / (43000 - 6000) = 1 | (1223000 - 68000) / (1223000 - 68000) = 1 |
(19000 - 6000) / (43000 - 6000) = 0.351351 | (291555 - 68000) / (1223000 - 68000) = 0.193554 |
(6000 - 6000/(43000 - 6000) = 0 | (68000 - 68000/(1223000 - 68000) = 0 |
(12000 - 6000/(43000 - 6000) = 0.162162 | (86000 - 68000/(1223000 - 68000) = 0.015584 |
我们可以观察到,标准化使得我们很容易理解每个数字列中的数据分布。
注意:分组箱线图可能会稍微改变实际数据分布。建议仅在一般概览时使用分组箱线图。
3. Treemap 和 Sunburst
当您需要显示各个类别的相对比例时,您可以使用树状图(基于矩形)或旭日图(基于圆环)。这些图非常直观易懂。
要了解如何在 Excel 中创建它们,请考虑以下数据透视表:
行标签 | 学费总额 |
---|---|
布朗大学 | 72000 |
加州理工学院 | 80000 |
哈佛大学 | 1010000 |
印度理工学院 | 40000 |
京都大学 | 56000 |
伦敦商学院 | 72000 |
伦敦政治经济学院 | 85000 |
麻省理工学院 | 99555 |
东京大学 | 68000 |
剑桥大学 | 86000 |
累计 | 1668555 |
首先,将大学名称及其学费复制到两个单独的列中。选择值并单击树形图图标,如下所示:
这将创建以下树形图:
您可以清楚看到,代表哈佛大学的矩形尺寸最大,是这 10 所大学中最昂贵的大学。矩形遵循层次结构,因此在哈佛大学之后,下一个最昂贵的大学是麻省理工学院,其次是剑桥大学,依此类推。
与树形图类似,旭日图传达相同的信息,但以环的形式显示项目,如下所示:
免责声明:本内容来源于第三方作者授权、网友推荐或互联网整理,旨在为广大用户提供学习与参考之用。所有文本和图片版权归原创网站或作者本人所有,其观点并不代表本站立场。如有任何版权侵犯或转载不当之情况,请与我们取得联系,我们将尽快进行相关处理与修改。感谢您的理解与支持!
请先 登录后发表评论 ~