方差分析

关于方差分析的一道实际案例分析及思考

手上有个项目，是服务业关于缩短排队等候时间的一个项目。想分析下排队人数与每周7天之间是否有显著性差异。分析过程如下
1、收集了近半年的历史数据，整理后如下：
星期排队人员数量
3 133
4 141
5 174
6 131
7 135
1 55
2 62
3 41
4 71
5 92
6 61
7 42
1 180
2 175
3 160
4 127
5 152
6 77
7 43
1 168
2 130
3 134
4 141
5 170
6 89
7 48
1 172
2 202
3 160
4 124
5 150
6 71
7 58
1 177
2 176
3 111
4 136
5 172
6 66
7 53
1 163
2 170
3 155
4 144
5 169
6 79
7 67
1 229
2 179
3 184
4 145
5 168
6 70
7 43
1 228
2 172
3 151
4 150
5 178
6 76
7 47
1 164
2 180
3 144
4 161
5 163
6 84
7 43
1 196
2 163
3 135
4 145
5 136
6 71
7 47
1 172
2 168
3 156
4 142
5 138
6 76
7 42
1 187
2 163
3 162
4 168
5 141
6 87
7 41
1 175
2 171
3 157
4 145
5 182
6 181
7 47
1 60
2 43
3 148
4 163
5 169
6 81
7 52
1 182
2 158
3 126
4 172
5 145
6 68
7 46
1 172
2 143
3 133
4 153
5 138
6 62
7 58
1 161
2 145
3 111
4 141
5 119
6 54
7 30
1 132
2 140
3 112
4 115
5 140
6 115
7 112
1 147
2 88
3 36
4 22
5 62
6 43
7 30
1 56
2 59
3 153
4 174
5 175
6 66
7 47
1 208
2 176
3 155
4 119
5 147
6 74
7 47
1 162
2、分析方法采用的单因子方差分析。先进行正态性检验及方差齐次性检验，结果如下：

从上面来看，数据不是正态的，根据Levene检验结果P＝0.331，可接受星期几之间数据方差是齐次的。
_单因子方差分析: 数量与星期

来源自由度 SS MS F P
星期 6 209720 34953 27.14 0.000
误差 146 187999 1288
合计 152 397719

S = 35.88 R-Sq = 52.73% R-Sq（调整） = 50.79%

平均值（基于合并标准差）的单组 95% 置信区间
水平 N 平均值标准差 ---------+---------+---------+---------+
1 22 161.18 48.01 (---*---)
2 21 145.86 44.72 (----*---)
3 22 134.41 36.08 (---*----)
4 22 136.32 33.94 (---*---)
5 22 149.09 29.16 (----*---)
6 22 81.00 29.08 (---*---)
7 22 53.55 24.34 (---*----)
---------+---------+---------+---------+
70 105 140 175

合并标准差 = 35.88_
结论：从R－sq值，可认为模型是可接受的，从p值可认为不同星期几对数量有显著性差异。周六、周日的人员明显比周一到周五的人员少。

分析过程就是这样，但我在分析时突然想到个问题就是，方差分析的前提是假设数据来源于正态总体，且方差是相同的。但实际在进行分析时，许多数据都不是正态的、齐次的。在本例中，数据不是正态的，但正好Levene检验出结果是齐次的，如果说数据又不是正态又不是齐次的，哪能进行方差分析吗？遇上这种情况应该怎么下手呢？特别是多因子的方差分析？

抛砖引玉，请大家多多顶下！

对“好”的回答一定要点个"赞"，回答者需要你的鼓励!

已邀请:

13 个回复

jingtianl (威望:6) (山东潍坊) 咨询业咨询顾问

赞同来自:

你的答案恐怕不是很正确，方差分析中的数学模型我个人认为值得深入探讨。其实这里所谓的数学模型就是那个计算公式（统计学往往认为公式就相当于是数据拟合而来的），不像回归分析中牵扯拟合问题需要考虑拟合程度（回归分析中的拟合最容易理解，DOE次之，相比，方差分析中的拟合就大相径庭了）。看看R-Sq的计算公式：R-Sq=组间的差异/总体差异，根据公式不难看出，如果组间差异占的比重较大那不正说明样本间有较大差异吗？这里建议仔细研究一下MS、SS、F值的计算公式，结合其实际意义去理解，就能发现其实R-Sq有别于其他地方。需要注意的是，方差分析中的R-Sq有别于其他计算中的R-Sq值，回归分析中是表示回归曲线拟合程度的好坏（40%是远远不够的），DOE中表示现有模型能在多大程度上解释数据（如果只有40%那说明还有主要影响因子没找出来），但是在方差分析中，它恐怕意义和P值F值差不多了，只作为对结果的一个判断依据。不知道大家注意过没有，老版本的minitab中进行方差分析的时候没有R-Sq这一项，这是一个后加的，因此其意义要重新判断。说到这还牵扯到一个残差的问题，既然拟合只是反映在一个数学公式上，那哪来的残差呢？我曾经认为进行方差分析可以不用进行残差分析，只要经过必要的样本量、正态、稳定性、独立性、等方差检验后直接得结论就ok了，但是咨询老师说有其意义，他的讲解我没听懂，或许他也不是很清楚，这是我一直悬而未解的疑惑，如果有朋友知道麻烦详细解释一下大家学习学习。

13 个回复，游客无法查看回复，更多功能请登录或注册

关于方差分析的一道实际案例分析及思考

13 个回复

发起人

问题状态

关于方差分析的一道实际案例分析及思考

与内容相关的链接

13 个回复

发起人

问题状态