您还没有绑定微信,更多功能请点击绑定

自变量相关(共线性)问题 向DOE初学者进言(4)


当方便用软件处理DOE数据建数模后,
“我们往往可以非常自信地谈论总体估计的精确度。但是,我们对回归结果的信任程度取决于是否能够成功地处理以下常见问题:多元共线性、奇异值、非正态、异方差性以及非线性。”
单单就共线性问题,对寻找最优水平组合,也会带来判断困难。
《实用优选法》第3章望小型案例:A升温速度、B恒温温度、C恒温时间、D降温方式。
用极差法分析,对响应贡献大小排列:A>C>B>D。用部分正交试验:L9,3水平4因子。
9个结果中,C时间高水平6h组合,响应为1。
第2次正交试验之前,书中用“中心炮”和“两极炮”分析,都指向C时间8h和10h可能是最佳水平。但实际上第2次试验证明C时间3h或5h都能得到响应0。
原分析方向有误,笔者认为除部分正交试验信息不完备外,最重要的是A升温速度和C时间负相关,B恒温温度和C时间也负相关。
简易之:自变量之间相关不独立,有多种组合可达到最优(此案例响应为0)。
最后从经济角度,选C恒温时间3h的组合。
有的学者认为破解自变量相关的方法是去除一个自变量。
“一个常见的但往往容易被误用的解决共线性的方法是变量选择…用来将模型中回归因子减少至较低相关性的组合。”即逐步回归的方法, 但此案例,A和B都不能少。
统计假设最多的正态独立同分布,实际独立同分布是最基础性的约束。
也就是如不独立,不能用普通最小二乘法建数学模型,“对共线性的处理没有速效方法”。
比如SpC休哈特控制图,其中隐含前后工序独立,如不独立需用张公绪提出的SpD统计过程控制(选控图)。
多因子案例交互作用难避免,同样自变量之间相关也难避免。
所以高斯-马尔科夫七项假设中要求自变量之间没有完全的线性关系。
回归分析“尽管它是一件最常用的工具,但它同样有可能最容易被滥用的工具”
(《理解回归假设》序)

2 个评论

游客无法查看评论和回复, 请先登录注册