您还没有绑定微信,更多功能请点击绑定

T检验中如果两组数据不是正态的怎么办?

在进行T检验的时候,一般要求检验的两组数据要是正态分布,但是如果数据不是正态分布的怎么办呢?
比如一个过程,改进前和改进后进行T检验,结果发现改进后的数据不是正态分布的,这个时候如何做T检验?多谢!
对“好”的回答一定要点个"赞",回答者需要你的鼓励!
已邀请:

xuling0688 (威望:6) (天津 和平区) 在校学生 员工 - Student

赞同来自: 龙行天下2012


使用双总体T检验(即2-SampleT)必须满足下列3个条件,在使用前一定要先进行验证检验,一旦条件不满足,就不再能使用此检验。

我赞成云淡风清的观点:
YYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYY按照Oliven的观点,没有必要对样本进行检验,只需搞清总体数据本身的特性即可,但是我想不出除了通过
抽样来认识总体外还有什么手段?
其次即便你搞清了总体是应该服从正态分布的,但如果其中由于一些特殊的原因造成数据偏态分布,这种情况下你如何去做,难不成置之不理!?I
YYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYY

在计算机已经如此发达的当今时代,人们进行统计分析的关键支出是花时间花金钱做试验采集数据,一旦数据收集完毕,计算的花费已几乎可以忽略不计。换言之,当前统计工作的主要任务是对于现有数据要最充分地挖掘出它们所包含的信息。既然要“最充分”,怎么可能“搞清总体数据本身的特性即可”,“没有必要对样本进行检验”呢?有了数据岂有白白放过的道理?
当然,如果数据量太小,甚至于没达到检验所需最小数据量,因而有些检验不可能进行,这当然没办法。但是,一旦允许进行检验,而只是由于“坚信”自已已“搞清总体数据本身的特性”而放任自流,那不是已掌握统计方法的人应该持有的态度。“除了通过抽样来认识总体外还有什么手段?”问得很深刻。

我们看看3个检验最小样本量是多大?

1.独立性检验
T检验的首要前提是两个样本观测值都必须是独立的。其实在单样本Z检验或T检验时也都有此要求。因为数据如果不独立,则下面所有的检验步骤与公式都无意义。
检验独立性方法有两个:
1)样本量大于40,可以用时间序列分析检验。
使用时间序列分析检验方法的原理是,看自相关函数(Auto-Correlation Function)和偏自相关函数(Partial Auto-Correlation Function)中,在Lag10以内,是否有自相关函数项或偏自相关函数项超过临界值。一旦有超过,则应该盘数据不独立。这些在MINITAB的时间序列分析窗(Time Series Analysis)中可以很方便地得到有关结果。图上有条红色界线,如果没有任何一个自相关系数或偏自相关系数超过临界值(红线)则可以判数据独立。
2)样本量大于9,就可以进行“游程检验”。
这里要说明的是MINITAB软件给的方法不全面。在MINITAB中,用
STAT=>Non Parametric Test=>Runs Test
可以得到游程检验的大样本的正态近似法,这里的条件是n>= 22。 游程检验的含义是,游程个数太多或太少,就都可以认为数据不独立。一旦能够判断游程个数不是太多或太少就都可以认为数据是独立的了(化为标准正态后,绝对值在1.96以内即可)。用p-value>0.05,即可同样判断数据是独立的。
其实样本量未达到22时, 用上述方法是不行的。MINIATAB 会给出警告信息,对此不能置之不理。其实,游程检验有精确方法, 在样本量大于9时就可以使用。操作是:
STAT=>Quality Tool=>Run Chart
可以提供出序列对于中位数的总游程数, 再查马林编《六西格玛管理》一书的第560页,附录表10,游程检验表,当游程个数太多或太少时(超过表中双侧拒绝域临界值),判数据不独立。
要注意,样本量未达到22时,不能直接使用MINITAB中Runs Test的结论。

2.正态性检验.
正态性也是必须检验的。 详细的检验方法这里不在赘述。现在的检验方法相当灵敏。所谓“灵敏”指的是“总体非正态能很快被鉴别出来”。事实上,对于Anderson-Darling及 Ryan-Joiner两种方法都能有例子说明,只要有4个以上样本就能判定拒绝正态。当然,根据假设检验基本概念,大家都知道“不能拒绝”时是没有说服力说明它确实为正态的。样本量小时,确实不容易判定分布对于正态性的偏离,但样本量小是客观条件限制的结果,这种情况下,是应该提倡“检验”还是提倡“搞清总体数据本身的特性就行”呢?事实很明显,拿到样本后,不论是否已“搞清总体数据本身的特性”,都应该进行检验。 如果你确实来自正态总体,对这样的数据进行检验,你还用“怕”什么或“担心”什么吗?那为什么还有人建议“没有必要对样本进行检验,只需搞清总体数据本身的特性即可”呢?统计假设检验就是要打破那种自以为已经“搞清总体数据本身的特性”的观念的。请问还有什么理由认为“没有必要对样本进行检验”呢?请注意到这样提倡的结果将会导致多么严重的结果啊!,

3.方差相等性。
这也是2-SAMPLE T检验的前提条件之一。很多人忽略了。纵然,在MINITAB软件操作中,在T检验时,对于两总体方差相等与否,只是在进入选项中判定勾选或不勾选“是否假定等方差”钮而已,但实际上这二者含义完全不同。“假定等方差”下的计算是精确T检验,“不假定等方差”下的计算则只是一种近似方法而已,自由度会大幅度减小,功效会大幅降低,只是一种不得已而为之的策略。对此条件一定要事先验证好。方差相等性检验样本量没有限制,F检验要求各自都在2个样本以上,Levenes检验要求各自都在3个样本以上即可。

对于云淡风清最后的问题
YYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYY
即便你搞清了总体是应该服从正态分布的,但如果其中由于一些特殊的原因造成数据偏态分布,这种情况下你如何去做,难不成置之不理!?i
YYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYY

我的回答是不能置之不理
有些书建议先用Box-Cox变换处理一下。其实,用Box-Cox变换来进行假设检验(包括单总体检验)在理论上都只是一种近似方法,不应该首选。最好的办法还是直接使用非参数方法。双样本可以使用Non-Parametrics => Mann-Whitney检验, 很容易就得到结果了,而且Mann-Whitney检验之功效只略比2SampleT检验稍小一点点,值得作为非参数方法的首选。Mann-Whitney检验样本量最小的限制是:单侧:(2,4),双侧:(2,6),(3,4)。

我想我们现在讨论不只是一个具体检验方法问题,这里牵涉到如何对待检验,何时可以“不做检验直接判断”的问题。这是有关于统计理念的一件大事情,不可不讨论清楚,所以才写了这么个长帖。本人是书呆子,难免发些呆论,敬请批评指正。

Student-xuling0688

39 个回复,游客无法查看回复,更多功能请登录注册