您还没有绑定微信,更多功能请点击绑定

为什么使用样本标准差S代替总体标准差σ 计算总体均值置信区间时,时需要用t分布?


1. 我在使用样本标准差S时已经使用了(n-1)的计算公式,S的算法已经是σ的无偏估计量了,为何不能用正态分布?
2. 而下面我的理解更加让我百思不得其解。因为即使使用了S(n-1)的计算公式,得到的标准差S确实不是每次都等于σ(我理解应该是平均值为σ的正态分布。<---如果理解错了请纠正),所以计算得到的标准误(S/根号n= standard error, 以下简称SE)应该:
  • a) 可能大于SEσ(样本σ计算得到的SE,一下简称SEσ) 或
  • b) 可能小于SEσ,

也就是 SE S-1< SEσ< SE S-2。在计算置信区间时,真实的区间应该是X-bar±1.96SEσ。而因为我们用样本计算的SE不稳定,可能大于或小于SEσ,所以±1.96SE S也会大于或小于±1.96SEσ。
  • a) 当SE S-1< SEσ时,X-bar±1.96SE S-1区间就会偏小。这时要矫正区间大小就需要乘以大于1.96的数值,比如let’s say 2.01,也就是说原来的正太分布不适用了,1.96的地方不再是95%的密度分布了,2.01的地方才是95%,所以整个分布应该比原先的标准正太分布更塌一些,也就是我们说的T-分布(<---我的理解,如果理解错了请纠正)。
  • b) 当SEσ< SE S-2时,X-bar±1.96SE S-2区间就会偏大,这时要矫正区间大小就需要乘以小于1.96的数值,比如let’s say 1.80,但这种情况就需要套用一个比标准正态分布更窄更高的分布,但事实上我们完全没有用这样的分布。也就是说,从我以上的逻辑得出了与事实相违背的结果,也也就是说我上面所述的逻辑一定哪里错了,请大神门帮忙指正!!!!谢谢大家。


对“好”的回答一定要点个"赞",回答者需要你的鼓励!
已邀请:

杨格_Alan (威望:668) (江苏 无锡) 机械制造

赞同来自: BBC747 Young120 doublefish8307 Jingxiang Li

楼主的疑惑来自对随机变量的理解:即使用必然事件的方式来思考随机变量;:-)
 
我们永远无法知道一个随机过程(总体)的参数,比如均值或方差或峰度或偏度,等等。统计学使用样本的结果(统计量)来估计总体参数,从形式上讲:有点估计和区间估计。从效果来讲:有无偏估计与有偏估计/及估计的精度问题。从估计的方法来讲:常用最小二乘及极大似然估计。。。
 
样本标方差除以n-1,只是使用在样本不太大时,对总体方差σ^2的一种估计方法,不能认为其结果就是总体方差(除非总体已知且个数有限,此时可以进行计算)。此处与置信区间无关。
 
既然是估计,就会有风险。为了更全面认识这种风险,我们给个置信区间,这样就可以看看该样本下的统计量的比如95%概率下的范围是多少。此时,您还有5%的风险:使用该样本计算的区间cover不住总体的该参数:-)。这点lpg_441兄的解释完全正确。
 
大家都知道,这个区间的宽度与样本量有关。
 
建议在实际工作中,即使样本符合正态分布(比如说正态性检验P值大于0.05或甚至很接近于1),也请忘掉纯正态分布,而应该使用t-分布进行推断。这样您的推断会保守些,把握性大。t-分布的道理在书本上可以查到,这里就不赘述了。
 
仅供参考,不妥之处请指正哈。
 



 

5 个回复,游客无法查看回复,更多功能请登录注册

发起人

lashasha
lashasha

弄懂每一个背后的公式

扫一扫微信订阅<6SQ每周精选>