您还没有绑定微信,更多功能请点击绑定

因素分析法在观测数据处理上的应用

因素分析法在观测数据处理上的应用
  因素分析的概念是英美心理统计学者们最早提出的,因素分析法是从试验所得的m×n个数据样本中概括和提取出较少量的关键因素,它们能反映和解释所得的大量观测事实,从而建立起最简洁、最基本的概念系统,揭示出事物间最本质的联系.就大坝而言,通过定时测读埋设的仪表,可以获得反映建筑物工作性态的观测数据,它们是随时间而变的一组变量,并含有随机噪声误差.通常这个样本的数据量很大,而就其中每一个个体(一组变量)来看,它们表示某一给定时刻各测点上的读值,是建筑物当时工作性态的反映,应该可以表述为建筑物若干特征的函数,也就是说可以概括出较少量的因素,存在着应用因素分析技术的可能性.另一方面,人们通常希望了解这一组变量间的关系如何,每个变量反映建筑物特点的程度如何,哪些是重要的,能否通过变量间的整体联系来发现数据中的个别错误与遗漏,给予一定程度的复原(估计与预测).显然因素分析这一统计技术能有助于解决这些问题.1 因素分析的数学模型
  因素分析的数学模型如下[1]x=Pf+s, (1)式中 为可观测的m维随机向量,任一分量xi可看作带随机性的时间序列变量xi= . 为公共因素向量 . 为特殊因素向量.P=[pik]m×q是因素负荷矩阵.f和s都是相互无关的随机向量,一般是不可观测的.
  为计算方便,常将随机向量x进行标准化.设进行了n次观测,标准化后记为 ,其中第i分量第j次测读的标准化值为 (2)式中 是第i个变量的观测均值, 是第i个变量的观测方差.从而zi是均值为零、方差为1的随机变量.式(1)可写作z=Pf+s.(3)或
表示第i个变量第j次观测标准化值与公共因素和特殊因素的关系.且满足E(f)=0, E(s)=0, 其中Φ是m×m对角阵,称个性方差阵.m维随机向量z的协方差阵Cov(z,z)与相关系数阵Rmm有如下关系Cov(z,z)=R= +Φ.(4)  负荷矩阵的统计意义是:P的行元素平方和 代表公共因素 对变量zi的方差所作的贡献,称共性方差. 大小反映变量zi对公共因素的依赖程度;P的列元素平方和 表示第k个公共因素fk对向量z的所有分量z1,…,zm的影响,称fk的方差贡献. 的大小反映了随机向量z对fk依赖程度,是衡量公共因素fk相对重要性的一个尺度.
  模型的几何意义是:如果将每个因素看作一个座标轴,q个因素变量就形成一个q维的因素空间,而式(1)或(3)就是将原m个观测变量嵌入到这一q维的因素空间中,用q个因素变量的组合来蕴含原观测变量的主要信息甚至全部信息.当这m个原观测变量彼此相关性较弱时,仍可以将这m维空间进行降维,转变成q维空间,但这时降维法对个体而言会降低它的一些精度.因此要求有适当的方法来生成q维因素空间,它与原m维向量的数据有很高的相关系数,才能实现这一空间变换.2 因素提取
  因素分析是从一组向量的相互关系出发,建立若干个相互正交的因素轴,将这组向量最大限度地包含在因素空间内,使各个向量在各因素轴上的投影和达到最大.因素分析的关键是从变量的相关矩阵中,根据式(4)解出负荷矩阵P.通常包括两步:第一步是从R中解出无限多个P中一个,确定因素数目,称因素提取过程;第二步是经过旋转变换,找到一个最合适的P,称因素旋转过程.
**
2.1 特征值法 特征值法是目前采用最多亦较精确的因素提取方法.它的优点在于可用最少的因素来概括最大的变异(方差),由所获得的因素负荷矩阵复制出的相关矩阵最佳.
  为清楚起见,先忽略特殊因素,在下一小节再考虑,则式(4)成为R= ,(5)可知相关矩阵中任一元素rst应为(6)现不妨先将公共因素f1,f2,…,fq,按它们对z的贡献 的大小降序排列,即使得: 然后按下列步骤求解P.
  (1)求 ,确定P的第一列元素 选取第一公共因素f1的原则是在满足式(6)的条件下使 达到最大,这是一个条件极值问题,可用lagrange乘数法则求解,即构造包括目标函数与约束条件的拉氏函数并使其极大(7)其中μst=μts是拉氏乘子.由此可以推得:(8)  这表明公共因素f1对各变量的方差总贡献 就是相关矩阵R的最大特征值λ1,而p1是对应λ1的特征向量.求解中当求出R的属于第一特征值λ1的标准正交特征向量u1后就可取(9)  (2)再顺序求 ,确定p的第2…第q列向量p2,…,pq.由式(5)  ,令(10)对R1重复式(1)中提取公共因素f1的p1的求解方式,可得(11)在求得R1的属于特征值 的标准正交的特征向量u2后,可取(12)可以证明 不仅是R1的特征根,也是R的特征根,p2亦是R的相应 的特征向量.
  继续以上过程,可以证明 都是R的特征值,而p1,p2,…,pq是相应的特征向量.由于p的秩为q,故R将有q个大于零的特征值,求因子负荷矩阵p的各列向量pk,就是求相关矩阵R的前q个非零特征值与相应的特征向量.
  (3)求得负荷矩阵p后,再经矩阵运算即可获得因素分数矩阵.
**
2.2 公共因素方差的估计 上面仅是抽取公共因素的一般方法,没有考虑仅对某个变量产生影响的特殊因素,而就实际问题而言,总会含有一些仅对某一变量发生影响的特殊因素,应该排除这些特殊因素的影响,才能正确提取出公共因素.由于即 (13)所以排除特殊因素问题就转化为对公共因素方差 的估计问题.如果获得了公共因素方差,用它们取代原相关矩阵中的对角元素,进行因素提取,就解决了排除特殊因素影响的任务.估计公共因素方差的方法很多,本文采用比较实用的迭代法,即:先直接对相关矩阵进行因素提取,当因素数目、负荷矩阵得到后,根据 计算对应于每一个变量的公共因素方差 ;之后,用计算得出的 取代相关矩阵对角元;如此反复迭代,直到先后两次计算得到的 相近时终止迭代.
**
2.3 公共因素数目的确定 确定公共因素数目实质上是涉及因素模型与数据矩阵相一致的充分性的标准问题,即达到什么样的标准,可以认为公共因素模型是数据矩阵X或Z的一个可以接受的替代者.通常可用统计方法、代数方法、对剩余残差阵评估以及计算方差百分比来确定等,本文采用后者,即:在每抽取一个因素后,计算所有因素所解释变量方差的累积百分比,当这一累积百分比达到一个规定的满意标准(如80%,85%,90%等)后,即停止因素抽取.
**
2.4 旋转变换 通过因素提取过程得到了若干个因素之后,因素的实际含义往往不很清楚.有时,各个变量在一个因素上的负荷差不多;有时,一个变量在各个因素上的负荷差不多,这样各因素代表的意义就不明显.为了对因素作出解释,就要对提取得到的因素负荷矩阵进行旋转变换.
  前已指出,因素分析是将n次观测的m个变量嵌入到q维的因素空间中,某个变量(i)在因素k上的负荷pik就是该变量在因素轴fk上的投影.因此旋转因素座标轴使变量(xi或zi)在因素轴k上的投影长度发生改变,也就是使p负荷pik改变.当pik≈1时,该变量位于因素轴k上,因素fk的意义就是该变量的含义;而pik≈0时,则表示该变量与因素fk无关.这样就能较明确地显示出各个因素的意义.常用的方法有:方差最大正交旋转、方差最大平方旋转、有向斜交旋转等[1].限于篇幅,不再赘述.3 应用示例
  下面用紧水滩拱坝的坝体变形观测的部分资料[2]验证上述大坝观测资料整体分析的理论和方法.紧水滩大坝位于浙江省云和县瓯江上游龙泉溪上,枢纽属一等工程.大坝为三心变厚混凝土双曲拱坝,坝高102m,坝顶弧长350.6m,坝顶厚5m,坝底厚24.6m.大坝坝体变形观测包括水平位移与垂直位移两类项目,水平位移观测有坝顶9个测点的前方交会观测和位于4#、7#、11#、13#、17#坝段的5组21个测点的正倒垂线观测.每月观测2次.
  为了减少计算工作量,本文仅分析了其中7个测点上垂线观测的径向位移资料,该7个测点的编号依次为1#、2#(位于4号顶段上),9#、10#、11#、(位于11号坝段上),19#、20#(位于17号坝段上).所采用的数据资料为从1989年6月25日至1995年12月5日之间的167次观测数据.在确定公共因素数目时采用了较简单实用的计算方差的累积百分比方法,满意标准取为95%.公共因素方差估计采用了迭代法.因素旋转变换时采用标准方差最大正交旋转(即Varimax旋转)法.在进行矩阵的特征值和特征向量的求解时,采用了Iacobi方法.
  计算时取1989年6月25日至1990年8月15日之间的35次观测的数据进行第一次因素分析,其后的观测数据将被作为不断加入的新数据进行递推计算.这样经计算后确定公共因素数目为3,各测点径向位移的共性方差( )过程线随着数据的不断增加,前期稍有波动,后期渐趋平稳,数值均达98%左右,这表明观测数据的质量较好,误差小,可靠性高,同时也说明该组测点的径向位移所反映的坝的性态较稳定.现将未旋转和经过标准方差最大正交旋转的负荷矩阵列表现于表1.表1 旋转前后的负荷矩阵
数据长度测点号旋转前的负荷阵旋转后的负荷阵公因素1公因素2公因素3公因素1公因素2公因素315010.9623-0.00440.25880.58130.43210.684420.9116-0.08650.39440.53160.30910.784890.9478-0.2680-0.14680.88990.29100.3393100.9484-0.2774-0.13000.88820.28000.3549110.8718-0.4214-0.22250.95200.14040.2471190.73440.6652-0.07550.19460.94500.2378200.74420.6437-0.13010.23690.94370.1960   从表1中可以看出,经过正交旋转变换后,各公共因素意义和作用就较为明确了,第一个公因素中,9#、10#和11#测点的径向位移变量在其上的负荷值较高,而9#、10#和11#测点又恰恰都位于第11号坝段上,所以可以认为第一个公因素主要是反映11号坝段附近坝体的径向位移变化的;第二个公因素中,19#和20#测点的径向位移变量在其上的负荷数值较大,而19#和20#测点有都位于第17号坝段上,所以第二个公因素主要是反映7号坝段附近坝体径向位移变化的;同样第三个公因素则是主要反映1#、2#测点所在4号坝段附近坝体水平位移变化的.
  对原始观测数据进行因素分析后,得到负荷矩阵和因素分数矩阵,两者相乘(式3)可以得到整体分析后的拟合复制观测数据.原始数据与拟合数据间的相关系数见表2.可见,因素分析后的数据拟合相关系数较高.各测点上根据复制数据绘制的过程线与原始观测数据过程线吻合良好.
   表2 因素分析的数据拟合相关系数
测点号1#2#9#10#11#19#20#相关系数0.99810.99660.99610.99700.99380.99610.9954   应该指出,由于因素负荷矩阵是根据很多测点上的观测值序列(即R)来提取的,因此当一个测点的观测数据中某一数据误差较大甚至是错误时,可以利用因素分析通过与该测点相关的若干个其它测点的数据来加以校正.我们曾经作过实例计算[3,4],将上例中9#测点的某一测值16.69mm改为1.69mm,按此进行因素提取,再复制该测值,就可校正为11.44mm.如在此基础上再作一次因素提取,复制该测值,就可校正为14.476mm,与原测值16.69mm已十分接近.
  所得的公共因素通常含有一定的物理意义,如代表某一坝段或某一拱圈的特征变形等,因此当坝体产生结构性变化,如出现较大裂缝时,有关测点测值所包含的公共因素情况(测点的公共因素模式)会出现明显改变.根据这一特性,可以估测坝体开裂的大致时段与位置. 4 结 论
  大坝定时量测所得的观测数据量通常是很大的,而样本中每一个个体是大坝当时工作环境与状态的描述,观测数据间必然存在某种联系而并不完全独立的,从而既有可能亦有必要运用因素分析方法提取与概括出少数关键因素来描述大坝的运行性态与特征.具体来说,大坝监测中进行因素分析可以达到如下目的:(1)将离散、繁杂的观测数据序列精炼化与整体化;(2)明确各观测变量间的相互关系,了解关系因素与建筑物的整体特征;(3)进行动态计算时,减少分析与计算工作量;(4)通过对观测数据的复制拟合,可以发现异常情况进行数据检错与补缺等,估计裂缝出现的区域与时间.本文应用因素分析方法处理了紧水滩拱坝部分位移观测资料,示例表明,确能从中提取出公共因素,而且因素的含义明确,与坝体变形性质吻合,表明因素分析方法应用于大坝监测分析中是可行的.
对“好”的回答一定要点个"赞",回答者需要你的鼓励!
已邀请:

victor2018 (威望:11) (湖北 武汉) 汽车制造相关 经理

赞同来自:

太复杂了,看不懂啊,不知道能不能更简单些。

1 个回复,游客无法查看回复,更多功能请登录注册

发起人

zhongtd12345
zhongtd12345

为品质奋斗的人

扫一扫微信订阅<6SQ每周精选>