研究背景
主成分分析用于对数据信息进行浓缩,比如总共有20个指标值,是否可以将此20项浓缩成4个概括性指标。除此之外,主成分分析可用于权重计算和综合竞争力研究。即主成分分共有三个实际应用场景:
数据格式
主成分分析时,一列标识1个指标,一行为1个样本;如果为面板数据,比如家公司每家公司10年,那么就会有*10=0个样本,可能需要单独两列分别是公司名和年份来标识面板格式而已,但主成分分析并不区分是否面板数据,只针对指标进行分析即可,另一般分析样本量需要超出分析项(指标)的5倍,类似数据格式如下图:
SPSSAU操作
1.上传数据
登录账号后进入SPSSAU页面,点击右上角“上传数据”,将处理好的数据进行“点击上传文件”上传即可。
2.拖拽分析项
可以勾选“成分得分”以及“综合得分”点击开始分析后,左侧分析框就会出现,成分得分与综合得分:
SPSSAU分析
背景:当前有一份数据,共涉及9个指标,希望将此9个指标使用主成分分析进行降维,并计算综合得分。
1.KMO和Bartlett的检验
使用主成分分析进行信息浓缩研究,首先分析研究数据是否适合进行主成分分析,从上表可以看出:KMO为0.,大于0.6,满足主成分分析的前提要求,意味着数据可用于主成分分析研究。以及数据通过Bartlett球形度检验(p0.05),说明研究数据适合进行主成分分析。
2.方差解释率表格
上表格针对主成分提取情况,以及主成分提取信息量情况进行分析,从上表可知:主成分分析一共提取出2个主成分,此2个主成分方差解释率分别是55.%,8.%,累积方差解释率为64.%另外,本次分析共提取出2个主成分,它们对应的加权后方差解释率即权重依次为:55./64.=87.30%;8./64.=12.70%;
3.载荷系数表格
载荷系数表格,主要展示主成分对于研究项的信息提取情况,以及主成分和研究项对应关系。
共同度代表某题项可被提取的信息量,共同度越高说明指标能被主成分解释的程度越高,被提取的信息量越多。一般以0.4作为标准。
上表格展示主成分对于研究项的信息提取情况,以及主成分和研究项对应关系,从上表可知:所有研究项对应的共同度值均高于0.4,意味着研究项和主成分之间有着较强的关联性,主成分可以有效的提取出信息。确保主成分可以提取出研究项大部分的信息量之后,接着分析主成分和研究项的对应关系情况(载荷系数绝对值大于0.4时即说明该项和主成分有对应关系)。
补充说明:如果主成分分析结果不佳,可考虑使用因子分析,在主成分分析的基础上,因子分析多出旋转功能,更容易找出因子和分析项对应关系。
4.成份得分系数矩阵
使用主成分分析目的在于信息浓缩,则忽略“成份得分系数矩阵”表格。如果使用主成分分析法进行权重计算,则需要使用“成份得分系数矩阵”建立主成分和研究项之间的关系等式(基于标准化后数据建立关系表达式),如下:成分得分1(成分1)=
0.*X1+0.*X2+0.*X3+0.*X4+0.*X5+0.*X6+0.*X7+0.*X8+0.*X9;成分得分2(成分2)=
-0.*X1-0.*X2-0.*X3-0.*X4-0.*X5-0.*X6+0.*X7+0.*X8+0.*X9;
5.碎石图
可结合碎石图辅助判断主成分提取个数。当折线由陡峭突然变得平稳时,陡峭到平稳对应的主成分个数即为参考提取主成分个数。实际研究中更多以专业知识,结合主成分与研究项对应关系情况,综合权衡判断得出主成分个数。图中可以看出当横坐标为2时,折线突然变得比较平稳。
6.载荷图
载荷图是针对成分与旋转后载荷值关系的图形化展示,使用较少,通常需要手工加‘圆圈’把挨在一起的因子圈起来,更直观展示成分与分析项的隶属对应关系情况。由于可读性和解释性问题,一般只