因子分析的基本步骤
因子分析是指研究从变量群中提取共性因子的统计技术。最早由英国心理学家C.E.斯皮尔曼提出。他发现学生的各科成绩之间存在着一定的相关性,一科成绩好的学生,往往其他各科成绩也比较好,从而推想是否存在某些潜在的共性因子,或称某些一般智力条件影响着学生的学习成绩。因子分析可在许多变量中找出隐藏的具有代表性的因子。将相同本质的变量归入一个因子,可减少变量的数目,还可检验变量间关系的假设。因子分析的前提条件由于因子分析的主要任务之一是对原有变量进行浓缩,即将原有变量中的信息重叠部分提取和综合成因子,进而最终实现减少变量个数的目的。因此它要求原有变量之间应存在较强的相关关系。否则,如果原有变量相互独立,相关程度很低,不存在信息重叠,它们不可能有共同因子,那么也就无法将其综合和浓缩,也就无需进行因子分析。本步骤正是希望通过各种方法分析原有变量是否存在相关关系,是否适合进行因子分析。SPSS提供了四个统计量可帮助判断观测数据是否适合作因子分析:(1)计算相关系数矩阵Correlation Matrix在进行提取因子等分析步骤之前,应对相关矩阵进行检验,如果相关矩阵中的大部分相关系数小于0.3,则不适合作因子分析;当原始变量个数较多时,所输出的相关系数矩阵特别大,观察起来不是很方便,所以一般不会采用此方法或即使采用了此方法,也不方便在结果汇报中给出原始分析报表。(2)计算反映象相关矩阵Anti-image correlation matrix反映象矩阵重要包括负的协方差和负的偏相关系数。偏相关系数是在控制了其他变量对两变量影响的条件下计算出来的净相关系数。如果原有变量之间确实存在较强的相互重叠以及传递影响,也就是说,如果原有变量中确实能够提取出公共因子,那么在控制了这些影响后的偏相关系数必然很小。观察反映象相关矩阵,如果反映象相关矩阵中除主对角元素外,其他大多数元素的绝对值均小,对角线上元素的值越接近1,则说明这些变量的相关性较强,适合进行因子分析。与方法(1)中最后所述理由相同,一般少采用此方法(3)巴特利特球度检验Bartlett test of sphericityBartlett球体检验的目的是检验相关矩阵是否是单位矩阵(identity matrix),如果是单位矩阵,则认为因子模型不合适。Bartlett球体检验的虚无假设为相关矩阵是单位阵,如果不能拒绝该假设的话,就表明数据不适合用于因子分析。一般说来,显著水平值越小(<0.05)表明原始变量之间越可能存在有意义的关系,如果显著性水平很大(如0.10以上)可能表明数据不适宜于因子分析。(4)KMO(Kaiser-Meyer-OklinMeasure of Smapling Adequacy)KMO是Kaiser-Meyer-Olkin的取样适当性量数。KMO测度的值越高(接近1.0时),表明变量间的共同因子越多,研究数据适合用因子分析。通常按以下标准解释该指标值的大小:KMO值达到0.9以上为非常好,0.8~0.9为好,0.7~0.8为一般,0.6~0.7为差,0.5~0.6为很差。如果KMO测度的值低于0.5时,表明样本偏小,需要扩大样本。
因子分析过程的步骤
因子分析过程的步骤如下:第一步:数据检验。用于因子分析的变量必须是相关的,一般相关矩阵中大部分相关系数小于0.3,就不适合做因子分析了。还可以使用巴特利特球形检验,KMO检验等。第二步:因子提取。常用主成分法提取,先对数据进行标准化,然后计算出相关系数矩阵及其特征根和特征向量,最后再进行因子提取。提取原则一般是特征根值不小于1,或者选取的主成分的累计变异达到80% 以上(即累计特征根值占总特征根值80%以上)。第三步:因子命名和解释。常使用因子旋转使得因子的含义更加清楚,旋转的方法有正交旋转和斜交旋转两种。第四步:计算因子得分。因子分析:因子分析是指研究从变量群中提取共性因子的统计技术。最早由英国心理学家C.E.斯皮尔曼提出。他发现学生的各科成绩之间存在着一定的相关性,一科成绩好的学生,往往其他各科成绩也比较好,从而推想是否存在某些潜在的共性因子,或称某些一般智力条件影响着学生的学习成绩。因子分析可在许多变量中找出隐藏的具有代表性的因子。将相同本质的变量归入一个因子,可减少变量的数目,还可检验变量间关系的假设。
因子分析方法
因子分析是一种多变量化简技术,目的是分解原始变量,从中归纳出潜在的“类别”,相关性较强的指标归为一类,不同类间变量的相关性较低,每一类变量代表了一个“共同因子”,即一种内在结构,因子分析就是要寻找该结构。其分析方法有很多种,最常用的有两种:一是主成分分析方法;另外一种是一般因子分析法。通常所说的因子分析指的就是一般因子分析法,它通过原始变量的方差去构造因子,一般情况下,因子的数量总是要少于变量的数量。所以对于一般因子分析而言,如何正确解释因子将会比主成分分析更困难。因子分析一般可以分成四步:考察变量之间的相关性,判断是否要进行因子分析;进行分析,按一定的标准确定提取的因子数目,一般要求特征值大于1;考察因子的可解释性,并在必要时进行因子旋转,以寻求最佳解释方式;计算出因子得分等中间指标,供进一步分析使用。利用因子分析,可以把搜集到的比较杂乱的原始数据进行压缩,找出最重要的因子,并对其按照成因归类、整理,从中找出几条主线,帮助分析充满度的主要控制因素。本研究中共统计岩性圈闭354个,参与统计分析和计算的圈闭有249个。由于其中的落空圈闭无法参与因子分析及充满度预测模型的建立,因此实际参与分析和预测的岩性油气藏为222个。初步地质分析后,选取平均孔隙度,%;平均渗透率,10-3μm2;排烃强度,104t/km2;与排烃中心的平面距离,km;与排烃中心的垂直距离,m;地层压力系数;砂体厚度,m;砂体面积,km2;有机质丰度,%;围岩厚度,m;平均埋深,m;共11个地质参数进行因子分析。本研究按不同的成藏体系进行,建立其充满度预测模型并进行回代验证。同一成藏体系内的岩性油气藏的生、储、盖、圈、运、保等成藏条件相互影响、相互制约,关系密切,将同一成藏体系中的岩性油气藏又分别划分为构造-岩性、透镜体油气藏进行预测。
因子分析方法
问题一:统计分析中的因子分析(factors),如何确定因子的个数 方差累计贡献率,碎石图,特征根,很多的
问题二:主成分分析和因子分析有什么区别? 因子分析与主成分分析的异同点:
都对原始数据进行标准化处理; 都消除了原始指标的相关性对综合评价所造成的信息重复的影响; 构造综合评价时所涉及的权数具有客观性; 在信息损失不大的前提下,减少了评价工作量
公共因子比主成分更容易被解释; 因子分析的评价结果没有主成分分析准确; 因子分析比主成分分析的计算工作量大
主成分分析仅仅是变量变换,而因子分析需要构造因子模型。
主成分分析:原始变量的线性组合表示新的综合变量,即主成分;
因子分析:潜在的假想变量和随机影响变量的线性组合表示原始变量。
问题三:因子分析法的分析步骤 因子分析的核心问题有两个:一是如何构造因子变量;二是如何对因子变量进行命名解释。因此,因子分析的基本步骤和解决思路就是围绕这两个核心问题展开的。(i)因子分析常常有以下四个基本步骤:⑴确认待分析的原变量是否适合作因子分析。⑵构造因子变量。⑶利用旋转方法使因子变量更具有可解释性。⑷计算因子变量得分。(ii)因子分析的计算过程:⑴将原始数据标准化,以消除变量间在数量级和量纲上的不同。⑵求标准化数据的相关矩阵;⑶求相关矩阵的特征值和特征向量;⑷计算方差贡献率与累积方差贡献率;⑸确定因子:设F1,F2,…, Fp为p个因子,其中前m个因子包含的数据信息总量(即其累积贡献率)不低于80%时,可取前m个因子来反映原评价指标;⑹因子旋转:若所得的m个因子无法确定或其实际意义不是很明显,这时需将因子进行旋转以获得较为明显的实际含义。⑺用原指标的线性组合来求各因子得分:采用回归估计法,Bartlett估计法或Thomson估计法计算因子得分。⑻综合得分以各因子的方差贡献率为权,由各因子的线性组合得到综合评价指标函数。F = (w1F1+w2F2+…+wmFm)/(w1+w2+…+wm )此处wi为旋转前或旋转后因子的方差贡献率。⑼得分排序:利用综合得分可以得到得分名次。在采用多元统计分析技术进行数据处理、建立宏观或微观系统模型时,需要研究以下几个方面的问题:・ 简化系统结构,探讨系统内核。可采用主成分分析、因子分析、对应分析等方法,在众多因素中找出各个变量最佳的子 *** ,从子 *** 所包含的信息描述多变量的系统结果及各个因子对系统的影响。“从树木看森林”,抓住主要矛盾,把握主要矛盾的主要方面,舍弃次要因素,以简化系统的结构,认识系统的内核。・ 构造预测模型,进行预报控制。在自然和社会科学领域的科研与生产中,探索多变量系统运动的客观规律及其与外部环境的关系,进行预测预报,以实现对系统的最优控制,是应用多元统计分析技术的主要目的。在多元分析中,用于预报控制的模型有两大类。一类是预测预报模型,通常采用多元线性回归或逐步回归分析、判别分析、双重筛选逐步回归分析等建模技术。另一类是描述性模型,通常采用聚类分析的建模技术。・ 进行数值分类,构造分类模式。在多变量系统的分析中,往往需要将系统性质相似的事物或现象归为一类。以便找出它们之间的联系和内在规律性。过去许多研究多是按单因素进行定性处理,以致处理结果反映不出系统的总的特征。进行数值分类,构造分类模式一般采用聚类分析和判别分析技术。如何选择适当的方法来解决实际问题,需要对问题进行综合考虑。对一个问题可以综合运用多种统计方法进行分析。例如一个预报模型的建立,可先根据有关生物学、生态学原理,确定理论模型和试验设计;根据试验结果,收集试验资料;对资料进行初步提炼;然后应用统计分析方法(如相关分析、逐步回归分析、主成分分析等)研究各个变量之间的相关性,选择最佳的变量子 *** ;在此基础上构造预报模型,最后对模型进行诊断和优化处理,并应用于生产实际。
问题四:因子分析到底有什么用处? 问题:大家觉得因子分析到底有什幺用处呢?把原来很多个影响因素归纳成几个影响因子,如果不继续做回归或者聚类的话,光做因子分析有价值吗?答复:因子分析是将多个实测变量转换为少数几个综合指标(或称潜变量),它反映一种降维的思想。通过降维将相关性高的变量聚在一起,从而减少需要分析的变量的数量,而减少问题分析的复杂性。在你对问题系统结构不了解时候,因子分析可以根据数据内在逻辑性,把它归并成几个公因子,每个公因子分别代表空间的一个维度,如果经过正交或斜 交旋转的话,各个维度之间可以认为是不相关的,这些公因子能够相对完整地刻画对象的体系维度,最起码累计方差贡献率大于85%的话,就基本能够保证重要信 息不丢失了。一句话,你如果对研究对象到底应该分为几个维度不清楚的话,用因子分析可以通过数据内在逻辑告诉你。但如果你对研究对象体系比较清楚的话,那你直接确定维度,通过AHP计算出权重,就能够把系统表述清楚了。但这里面有巨大问题,单纯通过数据内 在逻辑来判断维度,常常是错误的,而主观判断其实更加科学,并非象统计学宣称的,数据说话才有发言权。真正有发言权的,是你对问题的经验认识程度。人们为 了避免被人嘲笑主观判断的失误,而越来越选择了统计分析,实际上,他们并不清楚,单纯用统计分析来做判断,才是最愚蠢的。只有主客观结合起来,才是相对科 学的,两者矛盾的时候,应该深入研究矛盾的根源,搞不清楚的话,我认为指标体系评价法要远比统计分析准确的多。而变量之所以能分布在不同的因子内,则是由 于其方差波动性大小和变量之间的相关性决定的,波动性越大,越排在前面的公因子中,各个公因子之间的变量是不相关的,而每个公因子之间的变量是相关的。因 子分析认为那些数据波动大的变量对对象影响作用更大,它们排在公因子的前列,这样单纯从数据逻辑来判断的准则你认为对吗?我想,如果管理和社会科学都这幺 认为的话,那错误将大大增加了。上面想法是我这两年做课题的体会,没有在任何一本书上看过相关说法,也许说的不对,这是我个人看法。如果让我选择的话,我 宁愿用指标体系评价法,体系几个维度事先就清楚,最多先用因子分析算算,看看数据波动性如何,到底能确定几个维度,只起辅助作用。研究者就是专家,指标体 系的维度由主观来做判断,这主要来自经验判断,而不是由数据判断,我认为其实更科学。当然,如果你对问题一无所知,那指标体系评价法用AHP来做的话,错 误很可能更多。我以前就强烈批判过AHP。说到底,没有一种评价方法是好的,说明问题就好。问题:那能对LISREL进行类似于因子分析的探索性因素分析了解吗?能给点评价么?3x答复:下面是探索性分析的原理:传统上所谈的因素分析)factor *** ysis)指的是探索性因素分析)exploratory factor *** ysis),它的目的是在承认有测量误差的情形下,尝试用少数的因素)factors)以解释许多变项间的相关关系。随着统计理论及电脑计算上的进展,目前因素分析的方法可分成探索性因素分析)exploratory factor *** ysis,EFA)及验证性因素分析)confirmatory factor *** ysis,CFA),这两类分析之间的差别在于研究者对研究变项间因素结构的了解程度不同。如果研究者对资料内所含的因素性质,结构及个数不是很 清楚,则可使用探索性因素分析试图找出能解释资料变项间相关关系的少数几个重要因素。若研究者从过去文献中的理论及自己的研究经验,而对资料间因素之数 目,结构有一定程度的了解及假设,则可使用验证性因素分析来验证该假设是否能解......>>
问题五:因子分析法是什么? 因子分析
1输入数据。
2点Analyze 下拉菜单,选Data Reduction 下的Factor 。
3打开Factor Analysis后,将数据变量逐个选中进入Variables 对话框中。
4单击主对话框中的Descriptive按扭,打开Factor Analysis: Descriptives子对话框,在Statistics栏中选择Univariate Descriptives项要求输出个变量的均值与标准差,在Correlation Matrix 栏内选择Coefficients项,要求计算相关系数矩阵,单击Continue按钮返回Factor Analysis主对话框。
5单击主对话框中的Extraction 按钮,打开如下图所示的Factor Analysis: Extraction 子对话框。在Method列表中选择默认因子抽取方法――Principal ponents,在Analyze 栏中选择默认的Correlation Matrix 项要求从相关系数矩阵出发求解主成分,在Exact 栏中选择Number of Factors;6, 要求显示所有主成分的得分和所能解释的方差。单击Continue按钮返回Factor Analysis主对话框。
6单击主对话框中的OK 按钮,输出结果。
统计专业研究生工作室原创,请勿复杂粘贴
问题六:怎么判断样本能不能因子分析? 基本指标层面的因子分析检验
在对数据进行因子分析前首先要对其进行检验,来判断是否适合做因子分析,检验所采用的方法为巴特利特球度检验(BartlettTestofSphericity)和KMO(Kaiser-Meyer-Olkin)检验。
巴特利特球度检(BartlettTestofSphericity)是假设相关系数矩阵是一个单位阵,如果统计量值比较大,且其相对应的相伴概率值小于用户指定的显著性水平,拒绝原假设,认为适合作因子分析。反之,接受原假设,不适合作因子分析。
问题七:因子分析法和数据包络分析法 有何区别? 100分 因子分析是指研究从变量群中提取共性因子的统计技术。最早由英国心理学家C.E.斯皮尔曼提出。他发现学生的各科成绩之间存在着一定的相关性,一科成绩好的学生,往往其他各科成绩也比较好,从而推想是否存在某些潜在的共性因子,或称某些一般智力条件影响着学生的学习成绩。因子分析可在许多变量中找出隐藏的具有代表性的因子。将相同本质的变量归入一个因子,可减少变量的数目,还可检验变量间关系的假设。
数据包络分析方法(DataEnvelopmentAnalysis,DEA)是运筹学、管理科学与数理经济学交叉研究的一个新领域。它是根据多项投入指标和多项产出指标,利用线性规划的方法,对具有可比性的同类型单位进行相对有效性评价的一种数量分析方法。DEA方法及其模型自1978年由美国著名运筹学家A.Charnes和W.W.Cooper提出以来,已广泛应用于不同行业及部门,并且在处理多指标投入和多指标产出方面,体现了其得天独厚的优势。
问题八:因子分析法的优缺点 ・ 简化系统结构,探讨系统内核。可采用主成分分析、因子分析、对应分析等方法,在众多因素中找出各个变量最佳的子 *** ,从子 *** 所包含的信息描述多变量的系统结果及各个因子对系统的影响。“从树木看森林”,抓住主要矛盾,把握主要矛盾的主要方面,舍弃次要因素,以简化系统的结构,认供系统的内核。 ・ 构造预测模型,进行预报控制。在自然和社会科学领域的科研与生产中,探索多变量系统运动的客观规律及其与外部环境的关系,进行预测预报,以实现对系统的最优控制,是应用多元统计分析技术的主要目的。在多元分析中,用于预报控制的模型有两大类。一类是预测预报模型,通常采用多元线性回归或逐步回归分析、判别分析、双重筛选逐步回归分析等建模技术。另一类是描述性模型,通常采用聚类分析的建模技术。 ・ 进行数值分类,构造分类模式。在多变量系统的分析中,往往需要将系统性质相似的事物或现象归为一类。以便找出它们之间的联系和内在规律性。过去许多研究多是按单因素进行定性处理,以致处理结果反映不出系统的总的特征。进行数值分类,构造分类模式一般采用聚类分析和判别分析技术。 如何选择适当的方法来解决实际问题,需要对问题进行综合考虑。对一个问题可以综合运用多种统计方法进行分析。例如一个预报模型的建立,可先根据有关生物学、生态学原理,确定理论模型和试验设计;根据试验结果,收集试验资料;对资料进行初步提炼;然后应用统计分析方法(如相关分析、逐步回归分析、主成分分析等)研究各个变量之间的相关性,选择最佳的变量子 *** ;在此基础上构造预报模型,最后对模型进行诊断和优化处理,并应用于生产实际。
问题九:因子分析法如何确定主成分及各个指标的权重? 5分 在SPSS中,主成分分析是通过设置因子分析中的抽取方法实现的,如果设置的抽取方法是主成分,那么计算的就是主成分得分,另外,因子分析和主成分分析尽管原理不同,但是两者综合得分的计算方法是一致的。
确定数据的权重也是进行数据分析的重要前提。可以利用SPSS的因子分析方法来确定权重。主要步骤是:
(1)首先将数据标准化,这是考虑到不同数据间的量纲不一致,因而必须要无量纲化。
(2)对标准化后的数据进行因子分析(主成分方法),使用方差最大化旋转。
(3)写出主因子得分和每个主因子的方程贡献率。
Fj =β1j*X1 +β2j*X2 +β3j*X3 + ……+ βnj*Xn ; Fj 为主成分(j=1、2、……、m),X1、X2 、X3 、……、Xn 为各个指标,β1j、β2j、β3j、……、βnj为各指标在主成分Fj 中的系数得分,用ej表示Fj的方程贡献率。
(4)求出指标权重。 ωi=[(m∑j)βij*ej]/[(n∑i)(m∑j)βij*ej],ωi就是指标Xi的权重。
因子分析应用在评价指标权重确定中,通过主成分分析法得到的各指标的公因子方差,其值大小表示该项指标对总体变异的贡献,通过计算各个公因子方差占公因子方差总和的百分数。
问题十:什么是因子分析,该方法可以解决哪些问题 可以将变量或指标划分为若干维度,以便进一步做更高级的统计分析。南心网SPSS。