创业数据统计 数据统计分析


创业数据统计 数据统计分析

文章插图
前段时间很多朋友留言学习一些数据分析的基础知识,一定要安排给我们热爱学习的同学 。所以从这周开始,我们会时不时的给大家一些数据分析的入门知识,希望大家能理解和热爱数据分析 。
今天我们主要和大家分享的是数据统计分析策略的相关知识,大家喜欢的朋友可以收集学习一下~
一般来说,数据统计分析策略主要分为三类,包括描述性统计分析、探索性统计分析和推理性统计分析 。这三种策略都是由浅入深,让我们一步步掌握统计分析策略 。
01
描述性统计分析
1)释义
根据百度的解释,描述性统计是指借助均值、百分比等各种数据表达的统计,进行单因素分析 。它侧重于对数据的描述,比如描述你看到的一张图片 。同平均水平的内容、可行范围、数据波动等 。数据分析师可以更好地理解数据,掌握数据的全貌 。
描述性统计分析是数据分析过程中的基本环节,但也非常重要 。因为操作简单,是下一步数据分析的前提 。
2)案例1
给你举个生活中的例子 。开始
解释下这个分析方法 。
老板日常跟员工对话的场景 。
老板:小丽,帮我查一下今年9月份网站的流量数据 。
小丽:……(可能会想:老板你究竟想看什么数据?页面访问量(PV)还是用户访问量(UV)?你都没说明白,我怎么操作?)
但问题是,小丽不可能不给老板数据,所以,最好的办法就是两个数据都给,这样,小丽就能减少被老板批评的概率了 。
那么,接下来小丽需要做的,就是通过描述性统计分析,将网站的PV和UV展现在表格中,像下图一样,并为这组数据附上简单的情况分析:

创业数据统计 数据统计分析

文章插图
上图就是我们常用的基本统计指标,包括每天的PV和UV 。接下,我们就要写上一些关键性的解读指标了 。拿PV举例,我们就应该补充:比如,
日均PV为:41072.87次;
月内最多的一次访问量为:49,847次
月内最少的一次访问量为:30,471次;
月内有1/4天数的PV:在36791.5次以下;
标准差为:5,685.52;
……
需要注意的是,表格中的下四分位数,即统计学意义的25%分位点,上四分位则为统计学意义的75%分位点 。最终,我们要提给老板数据表,应该还包括:

创业数据统计 数据统计分析

文章插图
综上述,该案例就是一个典型的描述性统计分析 。我们要做的,就是针对数据的统计结果做简单的描述,表达出数据的统计特征 。
3)案例2
此外,如果我们想更加直观的呈现数据效果,还可以通过图形的方式,来描述数据的内部规律 。
举个电商公司的例子:我们需要统计某电商平台,近一个月在各支付渠道的付款比例;或者我们需要分析用户年交易额的分布特征 。那么我们应该怎么做呢?
我们先来说说支付渠道比例 。通过数据统计并整合渠道,并计算各渠道占总付款渠道的比例,就可以形成如下图形:

创业数据统计 数据统计分析

文章插图
接下来我们说说全年的用户交易额的分布特征 。假设用户的总交易金额存在严重的不平衡,交易额在2000元以内的用户最多,且占到绝对优势;几乎所有用户的交易额都在10000元以内,超过10000元的用户极少,那么,我们就可以根据相应的数据比例,绘制出如下的曲线:

创业数据统计 数据统计分析

文章插图
通过两条曲线的对比,我们可以发现它们的吻合度并不是很高,故可以进一步断定,该数据的分布并非正态分布 。
由此可以得出结论:在日常的学习或工作中,数据分析人员需要掌握描述性统计分析的内容,包括:数据的频数分析、集中趋势分析(如:均值、中位数、众数等)、离散程度分析(如:标准差、极差、变异系数等)、分布特征(如:偏度值,峰度值等)以及一些基本的统计图形(如饼图、直方图、箱线图等) 。
通过这些基本的统计描述方法,我们可以进一步的了解企业的业务,并了解企业地发展状况等 。并且,掌握描述性统计分析方法,还能为企业决策提供有力的支持方案 。
02
探索性统计分析
1)释义
通过百度词条,我们了解到:
探索性统计分析主要是通过探索,来发现数据背后隐藏的内在规律和联系 。通常情况下,我们还可以利用探索性统计分析,去挖掘数据中出现异常的原因 。
比如,当我们需要研究某些变量之间,是否存在一定的相关性;研究两组样本之间是否存在显著的差异性;探索企业内某指标是否达标的原因(如:曝光量、广告点击率、支付成功率、某支付渠道占比等);探索企业内某指标未来的变化趋势等 。
2)案例分析
对于从业者来说,探索性统计分析策略在工作中的应用是非常频繁的 。因为我们可以通过该策略,帮助企业了解数据中不易发现的内在价值和联系,并通过借助数据可视化的技术,将问题的答案图形化,便于管理层直观地发现数据中有意思的信息 。
为使读者更好地理解探索性统计分析的应用,这里举三个通俗易懂的小例子:
【创业数据统计 数据统计分析】(1)探索汽车的速度与刹车距离之间的关系;
(2)探索《泰坦尼克号》里,男女乘客在一等舱内的票价,是否存在差异;
(3)探索某电商的交易量在PC端和移动端之间的比例变化 。
下面,我们逐一的来分析这几个案例中,变量之间的关系 。
案例1:
我们都知道,散点图可以直观地展现两者之间的某种内在关系(如线性关系、非线性关系或无相关关系) 。所以,在探索汽车的速度与刹车距离之间的关系时,我们可以先画出散点图来 。如下:

创业数据统计 数据统计分析

文章插图
从图中我们可知,随着行驶速度的增加,刹车距离也在增加 。它们之间属于正相关的线性关系 。
(思考:这种正相关的线性关系,可否通过某个具体的函数来表达呢?大家可以思考一下,我们也会在后面介绍推断性统计分析时,为大家解惑 。)
案例2:
我们都知道,箱型图最大的作用是:既可以直观地展现数据的对比,又可以识别出数据中的异常样本点 。所以,在探索《泰坦尼克号》男女乘客在一等舱内的票价是否存在差异时,我们可以选择箱线图来进行描述 。

创业数据统计 数据统计分析

文章插图
如图,纵轴表示男女性别,横轴表示乘客的票价,在两个箱线图的中间箱体部位,都有一个明显的分界线,那就是中位数 。
由上图可知,两个箱线图的中位数并没有近似垂直对齐,两者存在显著差异,说明男女乘客的票价存在显著差异 。
由于篇幅限制,我们会在下一篇中,给大家分享剩下的篇幅 。喜欢这些内容的话,请继续关注我们哦~