您还没有绑定微信,更多功能请点击绑定

标准差


方差(Variance) http://wiki.mbalib.com/wiki/%E6%96%B9%E5%B7%AE
方差(Variance)
什么是方差
  方差和标准差是测度数据变异程度的最重要、最常用的指标。
  方差是各个数据与其算术平均数的离差平方和的平均数,通常以σ2表示。方差的计量单位和量纲不便于从经济意义上进行解释,所以实际统计工作中多用方差的算术平方根——标准差来测度统计数据的差异程度。
  标准差又称均方差,一般用σ表示。方差和标准差的计算也分为简单平均法和加权平均法,另外,对于总体数据和样本数据,公式略有不同。
方差的计算公式
  设总体方差为σ2,对于未经分组整理的原始数据,方差的计算公式为:
  
  对于分组数据,方差的计算公式为:
  
  方差的平方根即为标准差,其相应的计算公式为:
  未分组数据:
  分组数据:
[编辑]
样本方差和标准差
  样本方差与总体方差在计算上的区别是:总体方差是用数据个数或总频数去除离差平方和,而样本方差则是用样本数据个数或总频数减1去除离差平方和,其中样本数据个数减1即n-1称为自由度。设样本方差为,根据未分组数据和分组数据计算样本方差的公式分别为:
  未分组数据:
  分组数据:
  未分组数据:
  分组数据:
  例:考察一台机器的生产能力,利用抽样程序来检验生产出来的产品质量,假设搜集的数据如下:



3.43
3.45
3.43
3.48
3.52
3.50
3.39

3.48
3.41
3.38
3.49
3.45
3.51
3.50
  根据该行业通用法则:如果一个样本中的14个数据项的方差大于0.005,则该机器必须关闭待修。问此时的机器是否必须关闭?
  解:根据已知数据,计算
  <IMG class=tex alt="S^2=\frac{\sum(x-\bar{x})^2}{n-1}=0.002
  因此,该机器工作正常。
  方差和标准差也是根据全部数据计算的,它反映了每个数据与其均值相比平均相差的数值,因此它能准确地反映出数据的离散程度。方差和标准差是实际中应用最广泛的离散程度测度值。 ---------------------------------------------------------------------http://zh.wikipedia.org/wiki/%E6%96%B9%E5%B7%AE
方差

维基百科,自由的百科全书

跳转到: 导航, 搜索
在概率论和统计学中,一个随机变量的“方差”描述的是它的离散程度,也就是该变量离其期望值的距离。 一个实随机变量的方差也称为它的二阶距,恰巧也是它的二阶culmulent。 方差的算术平方根称为该随机变量的标准差。





目录[隐藏]

1 定义
2 特性
3 一般化
4 历史
5 参考出处
6 外部连接

//



[编辑] 定义
设 X 为服从分布 F 的随机变量,则称 Var(X) = E(X − EX)2 为随机变量 X 或者分布 F 的方差。
如果 是隨機變數 X 的期望值 (平均數) , 則其變異數為:

[编辑] 特性
在样本空间Ω上存在有限期望和方差的随机变量构成一个希尔伯特空间: L^2(Ω, dP),不过这里的内积和长度跟方差,标准差还是不大一样。 所以,我们得把这个空间“除”常变量构成的子空间,也就是说把相差一个常数的 所有原来那个空间的随机变量做成一个等价类。这还是一个新的无穷维线性空间, 并且有一个从老空间内积诱导出来的新内积,而这个内积就是方差

[编辑] 一般化
如果X是一个向量其取值范围在Rn空间,并且其每个元素都是一个一维随机变量,我们就把X称为随机向量。随机向量的方差是一维随机变量方差的自然推广,其定义为E[(X − μ)(X − μ)T], 其中 μ = E(X) ,XT是X的转秩. 这个方差是一个非负定方阵,通常称为协方差矩阵。
如果X是一个复随机变量,那么其方差定义则为E[(X − μ)(X − μ)], 其中X是X的复共轭向量。根据这个定义,方差为实数。

标准差
  次数分布中的数据不仅有集中趋势,而且还有离中趋势。所谓离中趋势指的是数据具有偏离中心位置的趋势,它反映了一组数据本身的离散程度和差异性程度。标准差能综合反映一组数据的离散程度或个别差异程度。  例如,甲、乙两班学生各50人,其语文平均成绩都是80分,但甲班最高成绩98分,最低42分,而乙班最高成绩86分,最低60分。初步看出,两班语文成绩是不一样的,甲班学生的语文成绩个别差异程度大、水平参差不齐;而乙班学生的语文成绩差异程度小,语文水平整齐度大些。 怎样用标准差 这个特征量数来刻画一组数据的差异程度呢?下面介绍标准差的概念及计算。
一、标准差概念与计算
1.标准差定义与计算公式
  一组数据的标准差,指的是这组数据的离差平方和除以数据个数所得商的算术平方根。若用S 代表标准差,则标准差的计算公式为:
     
  标准差的平方,称为方差,用S2表示方差。  计算标准差时,首先要计算数据的平均数 ,接着要计算各数据与平均数之间的离差平方,即()2,最后由公式(2-5)计算标准差S。  例如,4名儿童的身高分别是110厘米,100厘米,120厘米和150厘米,若求4名儿童身高数据的标准差时,其基本步骤如下:
  ①求平均数: (厘米)
  ②求离差平方和:
)2=(110―120)2+(100―120)2+(120―120)2+(150―120)2        =100+400+0+900=1400(平方厘米)
  ③求标准差S:S= (厘米)
  这样,我们大体可认为,这4名儿童身高差异程度,从平均角度来看,约相差18.71厘米。
  2.标准差的计算中心方法  计算标准差的方法有三种,一是按公式逐步分析计算,如上述所示;二是以列表计算的方式;三是利用计算器或计算机进行计算。下面再举一例说明采用列表方式计算标准差S。  [例7] 已知8 位同学在某图形辨认测验中的成绩数据(见表2-2),计算这组数据的标准差。  [分析解答] 采用列表计算方式,应用公式(2-5)确定数据的标准差,详见表2-2。

表2-2 计算标准差S的示例








Xi

Xi-

( )2

结果计算


42

-10.5

110.25

(1) =


46

-6.5

42.25


46

-6.5

42.25

(2) ( )2=550


50

-2.5

6.25


50

-2.5

6.25

(3)S2=


56

3.5

12.25


62

9.5

90.25

(4)S=8.29


68

15.5

240.25


合计

420

0

550



  标准差在实际中有广泛的用途,同时对深化研究数据也具有重要的作用。如不同班级考试成绩的平均数和标准差,不同年度或不同学科测验分数的平均数和标准差,以及其他体能测试或心理测验数据的平均数和标准差,就是一些具体的应用。后续各章内容的学习,将经常用到平均数、标准差和方差这些概念。  由于标准差计算公式结构适合于代数处理,因此,许多具有统计功能的计算器,都有计算方差和标准差的相应功能。学习者只要花少量时间学习与掌握有关计算器的使用,即可以轻松自如地处理大量数据,求取平均数和标准差。  在利用公式(2-5)手工求标准差时,如表2-2所示,由于平均数有小数,这使计算离差平方的数据更加复杂,小数点的位数加倍增加,同时四舍五入的计算误差以及出错的可能性都有所增加。为克服这个弊病,我们可从公式(2-5)出发,通过代数演算,推导出另一个与公式(2-5)等价的新公式,即公式(2-6)。这一新公式对计算标准差来讲,不用通过计算平均数 以及离差平方和,用原始数据直接计算标准差,因而在许多情况下,具有更简便、准确的特点。其计算公式:
        
  式中: 是原始数据的平方和;实际上是平均数的平方。  下面,举个例子来说明公式的应用。   [例8] 7位评委对某一歌手的演唱评分结果如表2-3中第1栏所示,试确定这7位评委评分的差异程度(用标准差表示)。  [分析解答] 如果所有评委对某一歌手的评分一致性很高,这说明大家所评的分数差异程度小,因而,用标准差来衡量的话,其值一定较小。根据表2-3第1栏中原始数据,我们采用上述公式(2-6),从原始数据出发直接计算标准差,整个计算过程如表2-3中的其他各栏目所示。
表2-3 用原始数据直接计算标准差的示例








分数Xi


     计算过程


8

64

(1)n=7,


7

49


9

81

(2) =400


6

36


5

25

(3)S2=


8

64


9

81

(4)S=


合计

52

400


  标准差这个特征量数对于完整、全面地认识数据分布特点是重要的,特别是遇到比较两个次数分布时,我们不仅要从集中趋势的角度而且还要从离中趋势的角度去分析比较。但上述的标准差量数并不是在任何情况下都可以直接应用,特别是下面两种情形,就不好直接使用上述具有单位的绝对意义的标准差量数。其一,两个次数分布的数据在测量单位上是不同的。例如,测量身高用“厘米”作单位,测量体重用“千克”作单位,则这两种数据分布的标准差量数不能直接比较。再如,男生的身高用“米”作单位,女生的身高用“厘米”作单位,则男女生身高数据的标准差也不能比较。其二,在一些特别场合下,尽管两组数据的测量单位相同,但两组数据的平均数相差太大,则这两组数据的标准差量数一般也不宜直接比较。例如,研究幼儿园大班小朋友的体重差异程度(用“千克”作单位)和离退休职工体重差异程度(也用“千克”作单位)。尽管所用单位相同,但由于来自这两个特殊群体的体重测量数据,在数量上存在很悬殊的差异,因而,可以想象,离退休职工的平均体重远远大于幼儿园大班小朋友的平均体重。此时若用上述的标准差量数来比较两组数据的离散程度,是不够合理的。针对上述两种情况,下面引进差异系数。
二、差异系数
  差异系数是把标准差量数和平均数量数两相对比后所形成的相对差异量数。差异系数又称为变异系数和变差系数,用符号CV 来表示。差异系数计算公式是:
              (2-7)
  式中:S 表示一组数据的标准差; 表示该组数据的平均数。  注意到公式(2-7)中的标准差S和平均数 具有统一的测量单位,因而,差异系数是一种反映相对离散程度的系数,即相对差异量数。它消去了单位,因而,适合于不同性质数据的研究与比较。  [例9] 某城市调查10岁男童的身高与体重的发展情况 ,得到表2-4资料。试问:10 岁男童在身体发展变化方面究竟是身高的差异程度大,还是体重的差异程度大?
表2-4 某市10岁男童身高、体重调查资料








变 量

单 位

平均数

标准差S


身高

厘米

135.1

5.5


体重

千克

28.1

3.4

  [分析解答] 本例身高数据单位是“厘米”,而体重数据的单位为“千克”,因而,这两种变量的平均数之间以及标准差之间是不能直接比较的。要判断10岁男童究竟在身高方面差异程度大,还是体重方面差异程度大,需要从相对差异量数出发进行判断。根据上述差异系数计算公式(2-7),分别计算10岁男童在身高与体重方面的差异系数:
  CV身高
  CV体重
  由于CV 体重明显大于CV 身高,因此,我们有理由认为,就10岁男童来看,体重方面的差异程度比他们在身高方面的差异程度大得多。

0 个评论

游客无法查看评论和回复, 请先登录注册

发起人

推荐文章

文章状态

  • 发布时间: 2009-03-24 10:01
  • 浏览: 3353
  • 评论: 0
  • 赞: 0