正态分布控制图置信区间标准差

为什么使用样本标准差S代替总体标准差σ 计算总体均值置信区间时，时需要用t分布？

1. 我在使用样本标准差S时已经使用了（n-1）的计算公式，S的算法已经是σ的无偏估计量了，为何不能用正态分布？
2. 而下面我的理解更加让我百思不得其解。因为即使使用了S（n-1）的计算公式，得到的标准差S确实不是每次都等于σ（我理解应该是平均值为σ的正态分布。<---如果理解错了请纠正），所以计算得到的标准误（S/根号n= standard error, 以下简称SE）应该：

a) 可能大于SEσ(样本σ计算得到的SE，一下简称SEσ) 或
b) 可能小于SEσ，

也就是 SE S-1< SEσ< SE S-2。在计算置信区间时，真实的区间应该是X-bar±1.96SEσ。而因为我们用样本计算的SE不稳定，可能大于或小于SEσ，所以±1.96SE S也会大于或小于±1.96SEσ。

a) 当SE S-1< SEσ时，X-bar±1.96SE S-1区间就会偏小。这时要矫正区间大小就需要乘以大于1.96的数值，比如let’s say 2.01，也就是说原来的正太分布不适用了，1.96的地方不再是95%的密度分布了，2.01的地方才是95%，所以整个分布应该比原先的标准正太分布更塌一些，也就是我们说的T-分布（<---我的理解，如果理解错了请纠正）。
b) 当SEσ< SE S-2时，X-bar±1.96SE S-2区间就会偏大，这时要矫正区间大小就需要乘以小于1.96的数值，比如let’s say 1.80，但这种情况就需要套用一个比标准正态分布更窄更高的分布，但事实上我们完全没有用这样的分布。也就是说，从我以上的逻辑得出了与事实相违背的结果，也也就是说我上面所述的逻辑一定哪里错了，请大神门帮忙指正！！！！谢谢大家。

对“好”的回答一定要点个"赞"，回答者需要你的鼓励!

已邀请:

5 个回复

杨格_Alan (威望:668) (江苏无锡) 机械制造

赞同来自: BBC747 、Young120 、doublefish8307 、Jingxiang Li

楼主的疑惑来自对随机变量的理解：即使用必然事件的方式来思考随机变量；:-)

我们永远无法知道一个随机过程（总体）的参数，比如均值或方差或峰度或偏度，等等。统计学使用样本的结果（统计量）来估计总体参数，从形式上讲：有点估计和区间估计。从效果来讲：有无偏估计与有偏估计/及估计的精度问题。从估计的方法来讲：常用最小二乘及极大似然估计。。。

样本标方差除以n-1，只是使用在样本不太大时，对总体方差σ^2的一种估计方法，不能认为其结果就是总体方差（除非总体已知且个数有限，此时可以进行计算）。此处与置信区间无关。

既然是估计，就会有风险。为了更全面认识这种风险，我们给个置信区间，这样就可以看看该样本下的统计量的比如95%概率下的范围是多少。此时，您还有5%的风险：使用该样本计算的区间cover不住总体的该参数:-)。这点lpg_441兄的解释完全正确。

大家都知道，这个区间的宽度与样本量有关。

建议在实际工作中，即使样本符合正态分布（比如说正态性检验P值大于0.05或甚至很接近于1），也请忘掉纯正态分布，而应该使用t-分布进行推断。这样您的推断会保守些，把握性大。t-分布的道理在书本上可以查到，这里就不赘述了。

仅供参考，不妥之处请指正哈。

5 个回复，游客无法查看回复，更多功能请登录或注册

为什么使用样本标准差S代替总体标准差σ 计算总体均值置信区间时，时需要用t分布？

5 个回复

发起人

问题状态

为什么使用样本标准差S代替总体标准差σ 计算总体均值置信区间时，时需要用t分布？

与内容相关的链接

5 个回复

发起人

问题状态