使用 Tableau 中的内置统计建模
介绍
统计分析是任何商业智能功能的关键部分。对基于统计的功能的需求正在上升,因为它有助于仔细检查、分析数据并从中得出见解。一个重要领域是描述性统计,它使用集中趋势和离散度的统计度量来汇总数据。
集中趋势的测量指标包括平均值、中位数和众数,而变异性的常用测量指标包括标准差和方差。除了描述性统计之外,了解两个变量之间的关系并对数据进行线性回归也很重要。Tableau 为我们提供了使用内置统计功能执行这些任务的灵活性。
对于商业智能专家来说,了解这些技术至关重要。在本指南中,读者将学习如何使用 Tableau 对数据执行以下统计任务:
- 意思是
- 中位数
- 模式
- 标准差
- 散点图
- 线性回归
后续章节将解释创建上述统计指标的步骤。我们将使用 Tableau 存储库中的咖啡连锁数据集,包括变量销售额、利润、市场和产品。
意思是
平均值表示数据的算术平均值。它是通过将变量的所有值相加并除以记录总数而得出的。Tableau 使用Average函数可以轻松计算平均值。
假设我们想要测量并显示每个市场的平均销售额。为此,我们需要将“市场”字段拖到“行”架子中,将“销售额”字段拖到“标记”架子的“文本”属性中。
输出:
默认情况下,输出显示相应市场的销售总额。要获取平均值,我们只需右键单击“标记”架子中的销售字段并选择“平均值”,如下图所示。
输出:
现在输出结果如下图所示,这些值按各个市场的平均销售额排列。输出结果显示,东部和西部市场的平均销售额较高,而南部市场的平均销售额最低。
输出:
中位数
简单来说,中位数代表第 50 个百分位数,即数据的中间值,并将分布分为两半。
估计中位数的步骤与估计平均值的步骤类似,唯一的区别是,我们不选择平均值,而是从可用选项中选择中位数。如下图所示。
输出:
上述步骤将产生以下输出。中部市场的中位数销售额最高,南部市场的中位数销售额最低。
输出:
模式
众数是变量出现频率最高的值。这是唯一可用于分类变量的集中趋势测量,不同于平均值和中位数,后者只能用于数值数据。数据集中可以有多个众数,简单来说,它是某个类别的最高频率。
要在 Tableau 中计算众数,我们需要计算类别中的标签数量,并确定计数最高的标签。第一步是将“市场”和“产品”字段拖到“行”架子中,如下所示。
输出:
下一步,拖出另一列产品,右键单击它,然后选择计数选项。
输出:
选择计数选项后,将显示下图,展示相应市场中每种产品的数量。
输出:
我们可以从上面的输出中找到每个市场的众数。例如,在中部市场,众数为 144,而东部市场则为 120。
标准差
标准差是一种度量,用于量化一组数据值与其平均值之间的差异量。变量的标准差较低表示数据点趋向于接近其平均值,反之亦然。在 Tableau 中计算变量的标准差很容易。
我们首先将市场和产品变量拖到行架子中,将销售变量两次拖到列架子中——一次用于销售总额,另一次用于计算其标准差。下一步是右键单击第二个销售选项卡并选择测量和标准差选项,如下所示。
输出:
完成上述步骤后,将生成以下输出,显示跨产品和跨市场的销售额总和和标准差。
输出:
上图中销售额和标准差的颜色相同。要更改颜色,第一步是转到标记架的颜色属性,并将标准差和销售额字段放入颜色架中。单击编辑颜色选项更改颜色,如下所示。
输出:
首先为销售变量选择您想要的颜色,如下所示。
输出:
同样,选择标准偏差的颜色选项。我们保留了红绿发散选项,如下图所示。
输出:
完成上述步骤将产生以下输出,显示每个市场下每种产品的相应销售额和标准差。
输出:
散点图
散点图直观地检查两个连续变量之间的关系。在散点图中,数据点绘制在 X 轴和 Y 轴上。散点图还有助于直观地显示关系是正向的还是负向的。
要创建散点图,我们需要两个连续变量,在本例中为销售额和利润。我们将销售额度量拖到列架子上,将利润度量拖到行架子上。
输出:
上图显示了圆圈,它是两个指标的汇总总和。要分解数据,请单击“分析”选项卡并取消选中“汇总指标”,如下所示。
输出:
上述步骤将显示销售额和利润之间的以下散点图。
输出:
为了使散点图更有意义,我们可以使用标记架,并在细节、大小和形状选项中放入不同的维度。在本例中,我们将变量市场规模放入颜色属性,将变量市场放入形状选项。这将产生以下输出。
输出:
免责声明:本内容来源于第三方作者授权、网友推荐或互联网整理,旨在为广大用户提供学习与参考之用。所有文本和图片版权归原创网站或作者本人所有,其观点并不代表本站立场。如有任何版权侵犯或转载不当之情况,请与我们取得联系,我们将尽快进行相关处理与修改。感谢您的理解与支持!
请先 登录后发表评论 ~