当我们有了想要分析的原始数据,首先需要对这些数据的基本情况有一个最初的了解和认识,然后在这个基础上进行下一步更全面,有针对性的分析。怎么了解数据的基本情况?有两种方法,频数分析和描述性分析。
根据数据的类型不同,可以选择不同的方法,如果数据是定类的数据,比如性别(男、女),就可以选择频数分析。
而如果数据是定量数据,这时候就可以使用描述性分析来探索数据。
这篇文章主要分享描述性分析的相关指标以及如何分析。
描述性分析就是用少数几个数值(比如平均值、中位数等)描述一系列复杂数据所表达的信息,比如描述数据的整体分布情况、波动情况、数据异常情况。
描述性统计指标大致可分为三类:集中趋势指标、离散趋势指标和分布形态指标。
(1)集中趋势指标
①众数
众数是值指出现次数最多的那个变量值。
比如有一组数据:一个班学生分数分别为60 70 70 80 90 100,其中除了70分出现了两次,其他值都只出现一次,那么70分就是出现次数最多了,也就是众数为70。
不过关于众数还会出现下面的情况:
有的数据中会没有众数或者存在多个众数。
没有众数:比如这组数据:一个班学生分数分别为:50 60 70 80 90 100,它们每个分数值都只出现一次,这种情况的数据就没有众数。
有多个众数:比如一个班学生分数分别为:50 60 60 70 80 80 90 100,其中60分和80分这两个值都出现了两次,说它们哪个是众数呢?那就它俩都是众数了。
所以你要在一组数据中找众数,可能会碰到三种情况,①没有众数,②一个众数 ③两个或多个众数。所以它不像平均值,对一组数据求平均值,就可以得到唯一的一个值,这个算是众数的一个特点——不唯一性。
②平均数
平均数又称均值,是最常用的一个数据代表值,平均数既可以描述一组数据本身的整体平均情况,也可以用来作为不同组数据比较的一个标准。
根据样本数据的不同格式,这里介绍两种常见的算术平均数的计算方法,一种是简单算术平均数,另一种是加权算术平均数。
我们都知道在进行数据分析时,通常有两种数据格式。一种是常规格式(非加权格式),另外一种是加权数据格式。分别说明如下:
常规数据格式→简单算术平均数
第一种常规格式(非加权格式),一行代表一个样本,如果有100个样本即为100行;一列代表一个属性;这类格式最为常见,而且此类数据格式可以做任何的分析。因为其携带着所有最原始的数据信息。类似如下表:
此时使用简单算术平均数计算,公式:
这就是我们小学学的计算平均值的方法,把要算的这组数据的每个数相加,然后除以样本数。
加权数据格式→加权算术平均数
比如收集100个样本,最终男性40名,女性60名,录入的数据为汇总统计数据,单独一列(或多列)表示各类别的样本数量;如下表:
这种数据格式就不是原始的数据,而是经过分组整理了,使用加权算术平均数计算,公式:
极端值情况
从公式可以看出,平均值的计算与样本的每一个数值都有关,所以比较有代表性,但是在数据没有极端值的情况下,如果出现极端值,平均数就有可能不足以代表大多数样本个案的性质。
比如,一个班的五位学生考试成绩分别为:10 70 80 90 100。
根据数据格式,算一下它的算术平均值:
M(5位学生)=(10 70 80 90 100)/5
=70
这五位学生的算术平均值是70分,观察原始数据,有四位学生的分数大于或等于70分,只有一位学生分数低于70分,判断出来,用70分来代表这组数据的集中情形是不恰当的。再观察原始数据,是10这个极端值,一下拉低了整个平均分,所以我们去掉这个10分的考试成绩再算一下剩下四位学生的算术平均值:
M(四位学生)= (70 80 90 100)/4
=85
85分就可以比较好的代表4位学生的集中趋势了,两位同学分数低于85,两位高于85分。
③中位数
中位数是样本数据升序排列后的最中间的数值,如果数据偏离较大,一般用中位数描述整体水平情况。
中位数的计算分两种情况:
当数据个数为奇数时,中位数即最中间的数,如果有N个数,则中间数的位置为(N 1)/2
比如,一个班的5位学生的成绩分别为:30 70 40 50 80,中位数是什么呢?
①先把这五个分数从小到大排序:30 40 50 70 80。
②算出中位数应该在排序后的数列中的位置:(5 1)/2=3。
③所以中位数就正好是处在第三个位置的分数值,即50。
当数据个数为偶数时,中位数为中间两个数的平均值,中间位置的算法是(N 1)/2。
比如,一个班有六位学生,考试成绩分别是:30 70 80 40 90 60,中位数是什么呢?
①先把这五个分数从小到大排序:30 40 60 70 80 90。
②算出中位数应该在排序后的数列中的位置:(6 1)=3.5。
③因为位置必须是整数,但现在是小数,所以为了公平,把在3.5左右两个位置(第三位和第四位)都拿出来。取两个位置的分数值的平均值作为中位数:(60 70)/2=65。
从中位数的计算方法可以看出,它和每个数据的位置有关系,所以如果有极端值出现,无论是特别大或特别小的极端值,都会因为对所有样本数据排序的这个动作,而被排列到某个数列的两端去,它不会有机会被排序到中间位置,而中位数是最中间位置的数,所以极端值不会影响到中位数,这样当有极端值出现,我们无法用平均值很好的描述数据情况,就可以使用中位数。
(2)离散趋势
①极差(全距)
极差的计算很简单,极差等于最大值减最小值,因为计算简单,概念清晰,所以应用比较广泛。
比如,有一组同龄男孩的身高(cm)分别为:90 95 100 105 110,算出极差。
①首先找出最大值和最小值:90,110
②极差等于最大值减去最小值:110-90=20
易受极端值影响
既然极差这个值是由一组数据中的最大值和最小值来确定的。相应的就需要考虑一个问题,数据的最大最小值是正常数据,算下来的极差对分析数据的离散特征的确是有意义的;但假如数据存在极端值,极差会受到影响。
②四分位数
四分位数是把全部数据从小到大排列并分成四等份,处于三个分割点位置的数值,即为四分位数:
上四分位数(数据从小到大排列排在第75%的数字,即最大的四分位数)
下四分位数(数据从小到大排列排在第25%位置的数字,即最小的四分位数)
中间的四分位数即为中位数
四分位数可以很容易地识别异常值。多应用于统计图中的箱线图绘制,箱线图就是根据四分位数做的图。
四分位数和中位数的计算方法一样,不同是中位数要找的是位于排序数列被分为两半后最中间的数,四分位数要找的是数据被分为四段,从左到右在1/4处的数和从右到左找在1/4处的数。
③方差与标准差
方差是每个数据值与全体数据的平均数差的平方的平均数。标准差是对方差开方。方差与标准方差与标准差反映一组数据的平均离散水平。方差小,表示数据集比较集中,波动性小,方差大,表示数据集比较分散,波动性大。
方差计算公式:
标准差是方差的正平方根:
如:一组数据 2,5,8。 计算方差和标准差。
先求平均数 (2 5 8)/3=5
然后方差:把数据带入方差公式得到
标准差:给方差开平方
④变异系数
变异系数,也叫离散系数,是标准差和平均值的比值。用于观察指标单位不同时,如身高与体重的变异程度的比较:或均数相差较大时,如儿童身高与**身高变异程度的比较。变异系数大,说明数据的离散程度大。
变异系数计算公式:
如:某地7岁男孩身高的均数为123.10cm,标准差为4.71cm;体重均数为22.92kg,标准差为226kg,此处不能因为4.71>2.26,就说身高的变异比体重要大,而要考虑到两者的单位不同,无法直接比较,故采用变异系数来解决这类问题,它实质上是一个相对变异指标,无单位。
上述7岁男孩身高、体重的变异系数分别为
身高:CV=(4.71/123.10)×100%=3.83%
体重:CV=(2.26/22.29)×100%=10.14%
可得7岁男孩身高比体重的变异小。
(3)分布趋势
①峰度:描述正态分布中曲线峰顶尖哨程度的指标。峰度系数0,则两侧极端数据较少,比正太分布更高更瘦,呈尖哨峰分布;峰度系数<0,则两侧极端数据较多,比正态分布更矮更胖,呈平阔峰分布。
②偏度:以正态分布为标准描述数据对称性的指标。偏度系数=0,则分布对称;偏度系数0,则频数分布的高峰向左偏移,长尾向右延伸,呈正偏态分布;偏度系数<0,则频数分布的高峰向右偏移,长尾向左延伸,呈负偏态分布。
使用SPSSAU可以一键快速完成对数据的描述性分析,得出描述性分析的结果。
(1)方法
使用【通用方法】-【描述】,选择要分析的分析项,【开始分析】。如下图
SPSSAU 描述分析
(2)结果:
①自动输出结果表格,论文标准格式(三线表)
基础指标
深入指标
百分位数
②自动输出可视化图表。
SPSSAU目前提供常用的图形,包括折线图、柱形图、条形图、雷达图,方便下载使用。
折线图
柱形图
条形图
雷达图
另外图形的样式也可通过下方【样式】更改:
以上就是正加财经为大家带来的全部内容,希望可以帮助到大家
正加财富网内容推荐 | ||
OK交易所下载 | USDT钱包下载 | 比特币平台下载 |
新手交易教程 | 平台提币指南 | 挖矿方法讲解 |