您还没有绑定微信,更多功能请点击绑定

关于方差分析的一道实际案例分析及思考

手上有个项目,是服务业关于缩短排队等候时间的一个项目。想分析下排队人数与每周7天之间是否有显著性差异。分析过程如下
1、收集了近半年的历史数据,整理后如下:
星期 排队人员数量
3 133
4 141
5 174
6 131
7 135
1 55
2 62
3 41
4 71
5 92
6 61
7 42
1 180
2 175
3 160
4 127
5 152
6 77
7 43
1 168
2 130
3 134
4 141
5 170
6 89
7 48
1 172
2 202
3 160
4 124
5 150
6 71
7 58
1 177
2 176
3 111
4 136
5 172
6 66
7 53
1 163
2 170
3 155
4 144
5 169
6 79
7 67
1 229
2 179
3 184
4 145
5 168
6 70
7 43
1 228
2 172
3 151
4 150
5 178
6 76
7 47
1 164
2 180
3 144
4 161
5 163
6 84
7 43
1 196
2 163
3 135
4 145
5 136
6 71
7 47
1 172
2 168
3 156
4 142
5 138
6 76
7 42
1 187
2 163
3 162
4 168
5 141
6 87
7 41
1 175
2 171
3 157
4 145
5 182
6 181
7 47
1 60
2 43
3 148
4 163
5 169
6 81
7 52
1 182
2 158
3 126
4 172
5 145
6 68
7 46
1 172
2 143
3 133
4 153
5 138
6 62
7 58
1 161
2 145
3 111
4 141
5 119
6 54
7 30
1 132
2 140
3 112
4 115
5 140
6 115
7 112
1 147
2 88
3 36
4 22
5 62
6 43
7 30
1 56
2 59
3 153
4 174
5 175
6 66
7 47
1 208
2 176
3 155
4 119
5 147
6 74
7 47
1 162
2、分析方法采用的单因子方差分析。先进行正态性检验及方差齐次性检验,结果如下:


从上面来看,数据不是正态的,根据Levene检验结果P=0.331,可接受星期几之间数据方差是齐次的。
_单因子方差分析: 数量 与 星期

来源 自由度 SS MS F P
星期 6 209720 34953 27.14 0.000
误差 146 187999 1288
合计 152 397719

S = 35.88 R-Sq = 52.73% R-Sq(调整) = 50.79%


平均值(基于合并标准差)的单组 95% 置信区间
水平 N 平均值 标准差 ---------+---------+---------+---------+
1 22 161.18 48.01 (---*---)
2 21 145.86 44.72 (----*---)
3 22 134.41 36.08 (---*----)
4 22 136.32 33.94 (---*---)
5 22 149.09 29.16 (----*---)
6 22 81.00 29.08 (---*---)
7 22 53.55 24.34 (---*----)
---------+---------+---------+---------+
70 105 140 175

合并标准差 = 35.88_
结论:从R-sq值,可认为模型是可接受的,从p值可认为不同星期几对数量有显著性差异。周六、周日的人员明显比周一到周五的人员少。

分析过程就是这样,但我在分析时突然想到个问题就是,方差分析的前提是假设数据来源于正态总体,且方差是相同的。但实际在进行分析时,许多数据都不是正态的、齐次的。在本例中,数据不是正态的,但正好Levene检验出结果是齐次的,如果说数据又不是正态又不是齐次的,哪能进行方差分析吗?遇上这种情况应该怎么下手呢?特别是多因子的方差分析?

抛砖引玉,请大家多多顶下!
1.JPG 2.JPG
对“好”的回答一定要点个"赞",回答者需要你的鼓励!
已邀请:

jingtianl (威望:6) (山东 潍坊) 咨询业 咨询顾问

赞同来自:

你的答案恐怕不是很正确,方差分析中的数学模型我个人认为值得深入探讨。其实这里所谓的数学模型就是那个计算公式(统计学往往认为公式就相当于是数据拟合而来的),不像回归分析中牵扯拟合问题需要考虑拟合程度(回归分析中的拟合最容易理解,DOE次之,相比,方差分析中的拟合就大相径庭了)。看看R-Sq的计算公式:R-Sq=组间的差异/总体差异,根据公式不难看出,如果组间差异占的比重较大那不正说明样本间有较大差异吗?这里建议仔细研究一下MS、SS、F值的计算公式,结合其实际意义去理解,就能发现其实R-Sq有别于其他地方。需要注意的是,方差分析中的R-Sq有别于其他计算中的R-Sq值,回归分析中是表示回归曲线拟合程度的好坏(40%是远远不够的),DOE中表示现有模型能在多大程度上解释数据(如果只有40%那说明还有主要影响因子没找出来),但是在方差分析中,它恐怕意义和P值F值差不多了,只作为对结果的一个判断依据。不知道大家注意过没有,老版本的minitab中进行方差分析的时候没有R-Sq这一项,这是一个后加的,因此其意义要重新判断。说到这还牵扯到一个残差的问题,既然拟合只是反映在一个数学公式上,那哪来的残差呢?我曾经认为进行方差分析可以不用进行残差分析,只要经过必要的样本量、正态、稳定性、独立性、等方差检验后直接得结论就ok了,但是咨询老师说有其意义,他的讲解我没听懂,或许他也不是很清楚,这是我一直悬而未解的疑惑,如果有朋友知道麻烦详细解释一下大家学习学习。

13 个回复,游客无法查看回复,更多功能请登录注册

发起人

扫一扫微信订阅<6SQ每周精选>