1. 首页
  2. 文档大全

第11章(1)主成分分析

上传者:5****1 2022-07-09 13:06:18上传 PPT文件 520.51KB
第11章(1)主成分分析_第1页 第11章(1)主成分分析_第2页 第11章(1)主成分分析_第3页

《第11章(1)主成分分析》由会员分享,可在线阅读,更多相关《第11章(1)主成分分析(58页珍藏版)》请在文档大全上搜索。

1、汇报什么?汇报什么?假定你是一个公司的财务经理,掌握了公司的假定你是一个公司的财务经理,掌握了公司的所有数据,比如所有数据,比如固定资产、流动资金、每一笔固定资产、流动资金、每一笔借贷的数额和期限、各种税费、工资支出、原借贷的数额和期限、各种税费、工资支出、原料消耗、产值、利润、折旧、职工人数、职工料消耗、产值、利润、折旧、职工人数、职工的分工和教育程度等等的分工和教育程度等等。如果让你向上面介绍公司状况,你能够把这些如果让你向上面介绍公司状况,你能够把这些指标和数字都指标和数字都原封不动地摆出去吗原封不动地摆出去吗? 当然不能。当然不能。你必须要把各个方面作出高度概括,你必须要把各个方面作出

2、高度概括,用一两个用一两个指标简单明了地把情况说清楚。指标简单明了地把情况说清楚。 每个人都会遇到有每个人都会遇到有很多变量很多变量的数据。的数据。比如全国或各个地区的带有许多经济和社会变比如全国或各个地区的带有许多经济和社会变量的数据;各个学校的研究、教学等各种变量量的数据;各个学校的研究、教学等各种变量的数据等等。的数据等等。这些数据的共同特点是变量很多,在如此多的这些数据的共同特点是变量很多,在如此多的变量之中,有很多是相关的。人们希望能够找变量之中,有很多是相关的。人们希望能够找出它们的出它们的少数少数“代表代表”来对它们进行描述。来对它们进行描述。把变量维数降低以便于描述、理解和分析

3、的方把变量维数降低以便于描述、理解和分析的方法:法:主成分分析主成分分析(principal component principal component analysisanalysis)和)和因子分析因子分析(factor analysisfactor analysis)。)。实际上实际上主成分分析可以说是因子分析的一个特主成分分析可以说是因子分析的一个特例例。本章介绍主成分分析法。本章介绍主成分分析法。11.1 什么是主成分分析?我们来看一个例子:小学各科成绩的评估可以用下面的综合成绩来体现:a1語文a2数学a3自然a4社会科学 确定权重系数的过程就可以看作是主成分分析的过程,得到的加权成

4、绩总和就相对于新的综合变量主成分推而广之,当某一问题需要同时考虑好几个因素时,我们并不对这些因素个别处理而是将它们综合综合起来处理,这就是PCA。 这样综合处理的原则是使新的综合变量能够解释大部分原始数据方差。由于各种量测到数据通常是以矩阵的形式记录、表达和存储的,实际中的很多数据信息往往是重叠与冗余的。从线性代数的观点来看,就是这些数据矩阵中存在相关的行或列。因此需要对其进行处理和提炼,抽取出有意义、独立的变量。 主成分分析(Principal Component Analysis, 简称PCA)是一种常用的基于变量协方差矩阵对信息进行处理、压缩和抽提的有效方法。为什么要根据方差确定主成分?

5、情形II下总分的方差为0,显然不能反映三个学生各科成绩各有所长的实际情形,而红色标记的变量对应的方差最大,可反映原始数据的大部分信息对主成分的要求上例可见,用总分有时可以反映原分数表的情况,保留原有信息,有时则把信息丢尽,不能反映原理的情况和差异。根据总分所对应的方差可以确定其代表了多大比例的原始数据(分数)信息。一般来说,我们希望能用一个或少数几个综合指标(分数)来代替原来分数表做统计分析,而且希望新的综合指标能够尽可能地保留原有信息,并具有最大的方差。 主成分分析的目的压缩变量个数,用较少的变量去解释原始数据中的大部分变量,剔除冗余信息。即将许多相关性很高的变量转化成个数较少、能解释大部分

6、原始数据方差且彼此互相独立的几个新变量,也就是所谓的主成分。这样就可以消除原始变量间存在的共线性,克服由此造成的运算不稳定、矩阵病态等问题。11.2主成分分析的基本思想 (以两个变量为例)2x1x1F2F主成分分析的几何解释平移、旋转坐标轴2x1x1F2F主成分分析的几何解释平移、旋转坐标轴2x1x1F2F 主成分分析的几何解释平移、旋转坐标轴三变量主成分分析示意图PC1=a1xi1+a2xi2+a3xi3PC2= b1xi1+b2xi2+b3xi3 主成分变换将三维空间的样本显示在二维空间一、主成分分析的基本原理 假定有n个样本,每个样本共有p个变量,构成一个np阶的地理数据矩阵npnnpp

7、xxxxxxxxxX212222111211(1) 11.3 主成分分析的原理和步骤 当p较大时,在p维空间中考察问题比较麻烦。为了克服这一困难,就需要进行降维处理,即用较少的几个综合指标代替原来较多的变量指标,而且使这些较少的综合指标既能尽量多地反映原来较多变量指标所反映的信息,同时它们之间又是彼此独立的。定义:记x1,x2,xP为原变量指标,z1,z2,zm(mp)为新变量指标pmpmmmppppxlxlxlzxlxlxlzxlxlxlz22112222121212121111(2) n系数lij的确定原则: zi与zj(ij;i,j=1,2,m)相互无关; z1是x1,x2,xP的一切线

8、性组合中方差最大者,z2是与z1不相关的x1,x2,xP的所有线性组合中方差最大者; zm是与z1,z2,zm1都不相关的x1,x2,xP, 的所有线性组合中方差最大者。 则新变量指标z1,z2,zm分别称为原变量指标x1,x2,xP的第一,第二,第m主成分。 从以上的分析可以看出,主成分分析的实质就是确定原来变量xj(j=1,2 , p)在诸主成分zi(i=1,2,m)上的荷载 lij( i=1,2,m; j=1,2 ,p)。 从数学上容易知道,从数学上可以证明,它们分别是相关系数矩阵的m个较大的特征值所对应的特征向量。 二、计算步骤 (一)计算相关系数矩阵一)计算相关系数矩阵 rij(i,

9、j=1,2,p)为原变量xi与xj的相关系数, rij=rji,其计算公式为:pppppprrrrrrrrrR212222111211(3) nknkjkjikinkjkjikiijxxxxxxxxr11221)()()((4) (二)计算特征值与特征向量:(二)计算特征值与特征向量: 解特征方程,常用雅可比法(Jacobi)求出特征值,并使其按大小顺序排列 ; 0RI0,21p 分别求出对应于特征值的特征向量 ,要求 =1,即,其中表示向量 的第j个分量。i), 2 , 1(pieiie112pjijeijeie 计算主成分贡献率及累计贡献率 贡献率:),2, 1(1pipkki累计贡献率:

10、 ),2, 1(11pipkkikk一般取累计贡献率达8595%的特征值所对应的第一、第二、第m(mp)个主成分。 m,21 计算主成分载荷 各主成分的得分: ), 2 , 1,(),(pjiexzplijijiij(5) nmnnmmzzzzzzzzzZ212222111211(6) 主成分分析的步骤小结 例1 根据表1给出的数据,对某农业生态经济系统做主成分分析。体验处理过程。样本序号x1:人口密度(人/km2)x 2:人均耕地面积(ha)x 3:森林覆盖率(%)x 4:农民人均纯收入(元/人)x 5:人均粮食产量(kg/人)x 6:经济作物占农作物播面比例()x 7:耕地占土地面积比率(

11、)x 8:果园与林地面积之比()x 9:灌溉田占耕地面积之比()1363.9120.35216.101192.11295.3426.72418.4922.23126.2622141.5031.68424.3011752.35452.2632.31414.4641.45527.0663100.6951.06765.6011181.54270.1218.2660.1627.47412.4894143.7391.33633.2051436.12354.2617.48611.8051.89217.5345131.4121.62316.6071405.09586.5940.68314.4010.3032


文档来源:https://www.renrendoc.com/paper/212693504.html

文档标签:

下载地址