1. 首页
  2. 文档大全

第四章回归分析

上传者:7****0 2022-05-30 11:04:22上传 PPT文件 1.74MB
第四章回归分析_第1页 第四章回归分析_第2页 第四章回归分析_第3页

《第四章回归分析》由会员分享,可在线阅读,更多相关《第四章回归分析(121页珍藏版)》请在文档大全上搜索。

1、第四章 多元线性回归模型n经典多元回归模型n回归分析的机理n经典回归模型及其参数估计n残差分析与假设检验n偏回归系数的经济含义n含有虚拟变量的回归n线性回归过程一、回归分析的机理n任意抽出一个妇女,试猜测其体重n如何猜?准确性如何?n猜平均体重,最大偏差:31n如何猜得更准确?n影响体重的最直接因素是身高:一般身高高的人体重大。n平均身高:62.85inch, 标准差:3.3n以平均身高分界:最大偏差21nE(weight/height)=b0+b1height,09. 4,13410bbn例:20个妇女的体重资料如表,n 平均体重:123.6pound,标准差:15.5n 最低体重:93po

2、und, 最大体重:155一个身高60的妇女体重平均111.5,最大偏差12heighttweigh09. 4134身高I N CH7068666462605856体重P O UN1601501401301201101009093155体重均值体重均值123.6猜体重平均值,最大偏差:猜体重平均值,最大偏差:318 .4606)(2wwi总变异身高I N CH7068666462605856体重P O UN16015014013012011010090身高相同的人体重不一定相同平均来看,体重随身高的增加而增加身高I N CH7068666462605856体重P O UN16015014013

3、012011010090平均身高62.85134.0113.2以平均身高分界,高于平均身高猜以平均身高分界,高于平均身高猜134,低于平均,低于平均身高猜身高猜113.2:最大偏差:最大偏差21身高I N CH7068666462605856体重P O UN16015014013012011010090heighttweigh09. 4134这条直线的含这条直线的含义是什么?义是什么?一个身高一个身高60的妇女体重平均的妇女体重平均111.5,最大偏差最大偏差12观测值weighti估计值weight残差iiietweighweight身高I N CH7068666462605856体重P O

4、 UN16015014013012011010090highttweigh09. 4134%8 .73%100*8 .46063 .33995 .1207)(3 .3399)(8 .4606)(2222Rwwwwwwiii回归线的解释程度残差平方和)剩余变异身高解释的变异总变异身高身高体重体重总体回归线总体回归线通常,身高高的人体重大。同样身高的人体重不同,即在给定通常,身高高的人体重大。同样身高的人体重不同,即在给定身高下,体重有一个分布。大样本下为正态分布。身高下,体重有一个分布。大样本下为正态分布。总体回归线反映了给定身高下,体重的平均水平总体回归线反映了给定身高下,体重的平均水平: E

5、(weight/height)=b0+b1height ,b0,b1是未知的参数iiiheightbbweight10实际体重:已知已知20个妇女的身高体重资个妇女的身高体重资料以此为样本估计总体参数料以此为样本估计总体参数样本回归线样本回归线iiieheightbbweightheightbbtweigh1010为什么为什么要有要有 回归分析的任务:从样本回归线估计总体回归线heighttweigh09. 4134heightbbweightheightbbheightweightE1010)/(因变量观测值:总体回归函数:n总体回归函数说明在给定的身高总体回归函数说明在给定的身高下,体重平

6、均下,体重平均水平。水平。n但对某一个妇女,其体重可能与该平均水平有但对某一个妇女,其体重可能与该平均水平有偏差。偏差。n被解释变量观察值围绕其期望值的被解释变量观察值围绕其期望值的离差离差,是一,是一个不可观测的随机变量,称为个不可观测的随机变量,称为随机误差项随机误差项。)()/(10iiiiiheightbbweightheightweightEweightweightheight为什么要设随机误差项?n在解释变量中被忽略的因素的影响;在解释变量中被忽略的因素的影响;n变量观测值的观测误差的影响;变量观测值的观测误差的影响;n模型关系的设定误差的影响;模型关系的设定误差的影响;n其它随机

7、因素的影响。其它随机因素的影响。n产生并设计随机误差项的主要原因:产生并设计随机误差项的主要原因:n理论的模糊性;理论的模糊性;n数据的欠缺;数据的欠缺;n节省原则;节省原则;weightheight样本回归函数n从被研究总体中随机抽取n个样本(本例n=20),利用样本观测数据可得到样本回归函数:n样本回归函数是对总体回归函数的一个估计n对某一个妇女,其体重观测值不会恰好等于估计值,而是会有残差:n残差是对随机误差项的一个估计heightbbtweigh10iiiieheightbbetweighweight10tweighweightein回归分析的主要目的:回归分析的主要目的:根据样本回归

8、函数根据样本回归函数SRF,估计总体回归函数估计总体回归函数PRF。iiiiieXeYY10iiiiiXXYEY10)|(一、回归分析的机理n任意抽出一个妇女,试猜测其体重n影响体重的最直接因素是身高:利用身高与体重的关系推测n如何猜得更准确(提高回归线的解释程度R2)?n除了身高,还有哪些因素影响体重?n例:20个妇女的体重资料hightbbweight10实际体重:%8 .73%100*8 .46063 .33992R回归线的解释程度iimotherhightweight210实际体重:heighttweigh09. 4134回归建模过程模型设定n确定模型包含的变量:n回归模型自变量:导致

9、因变量变化的重要因素n综合考虑数据的可获得性和数据质量n模型设定错误:美国人均CO2排放与中国人均GDP(谬误回归)n确定模型的数学形式n确定随机扰动项的概率分布特性n拟定模型中待估计参数的理论期望值区间回归分析vs方差分析n方差分析n因素不同水平(分类变量)对响应变量的影响n总变异分解为组间变异(因素影响)与组内变异(随机因素影响)n模型检验:nF检验组间变异是否显著大于组内变异n回归n自变量不同水平(连续变量)对因变量的影响n总变异分解为自变量影响(回归平方和)与随机因素影响(残差平方和)n模型总体显著性检验nF检验:回归平方和是否显著大于残差平方和估计效应量二、经典回归模型及其参数估计n

10、多元回归模型n多元回归模型的参数估计n经典假设及参数估计量的性质n样本容量问题1.多元回归模型n找到导致被解释变量变化的主要因素作为解释变量,构建多元回归模型:n设因变量Y是k个解释变量X1, Xk和误差项的线性函数: 其中:0为常数项,1 , k为偏回归系数,i为随机误差项n对容量为n的样本,这一模型实际上包含n个方程: y1=0+1x11+kxk1+1 yn=0+1x1n+kxkn+n总体回归模型ikikiiXXY110多元回归模型的矩阵表示nkknnkknxxxxxxyy21101212111111111)1()1(1nkknnxy样本回归函数样本回归函数(SRF)kikiiiiXXXY

11、22110ikikiiiieXXXY22110ei称为称为残差残差或或剩余项剩余项(residuals),可看成是总体,可看成是总体回归函数中随机扰动项回归函数中随机扰动项 i的一个点估计。的一个点估计。 样本回归函数样本回归函数的的矩阵表达矩阵表达: : XYeXYk10neee21e2.2.回归参数的普通最小二乘估计:残差平方回归参数的普通最小二乘估计:残差平方和最小和最小kjniXYjii,2, 1 ,0,2, 1),(KikiiiiXXXY221100000210QQQQk2112)(niiiniiYYeQ2122110)(nikikiiiXXXY已知已知假定假定kiikikikiii

12、iikikiiiiiikikiiikikiiXYXXXXXYXXXXXYXXXXYXXX)()()()(221102222110112211022110kjj,2,1 ,0,正规方程组正规方程组正规方程组正规方程组的的矩阵形式矩阵形式nknkknkkiikikikiiiikiiYYYXXXXXXXXXXXXXXXXn212111211102112111111YXX)X(YXXX1)(条件?条件?点估计点估计 OLSOLS估计的矩阵表示估计的矩阵表示 0)()(XYXY0)(XXXYYXYY0XXYXYXXX1)(XXYX)()(12XYXYeeniieQH)y(IyyexxxxHHyyxxxx

13、xyxxyxxx,)(,)()()var()(11121正规方程组的另一种表达XXYXXXeXXX0eX 001,2,iiij iieX ejk该正规方程该正规方程组成立的条组成立的条件是什么?件是什么? 可以证明,随机误差项的方差的无偏估计量为: 1122knkneiee随机误差项随机误差项 的方差的方差 的无偏估计的无偏估计 例:二元回归模型的参数估计iiiiixxy22110)1 ()(2212121rxVari2212221212211)()()()(iiiiiiiiiiixxxxxxxyxxy1的置信区间:)()(1211121SetSet)()(OLS111VarSe估计量的标准误

14、为:的3.3. 经典假设与参数估计量的性质经典假设与参数估计量的性质 在满足基本假设的情况下,其结构参数 的普通最小二乘估计具有: 线性性线性性、无偏性无偏性、有效性有效性( (最优最优线性无偏估计量线性无偏估计量BLUEBLUE)。 同时,随着样本容量增加,参数估计量具有: 渐近无偏性、渐近有效性、一致性渐近无偏性、渐近有效性、一致性。多元回归模型的经典假设n假设1: x1,x3, xk是非随机的。n假设2:E(i)=0 i=1,2, nn假设3:同方差Var(i)=2 (E(ii)= 2 )n假设4:无序列相关, cov (ij)=E(ij)=0n假设5:x诸变量间无准确的线性关系,即:无

15、多重共线性。n不存在一组不全为零的数1、2、 k,使得: 1x1i+ 2x2i+ + kxki=0n假设6:i N(0, 2)ikikiiXXY110关于多重共线性的进一步说明n如果存在一组不全为零的数1、2、 k,使得: 1x1i+ 2x2i+ + kxki=0 n不妨设10,则上式可变为: x1i=-(2x2i+ + kxki)/1称解释变量之间存在完全共线性,此时,某个解释变量可以写为其它解释变量的线性组合。n如果 ,会不会破坏无多重共线假定?223iixx不会,因为这两个变量的关系是非线性的!经典假设的矩阵表示n假设2:0000)()()()(2121nnEEEEEnnnnnnnnEE

16、EI222222122212121212121000000) (n假设3和4:n假设5:矩阵x的秩等于回归参数的个数(或解释变量个数加1),R(x)=k+1 , nk 4. 4.样本容量问题样本容量问题 所谓“最小样本容量”,即从最小二乘原理出发,欲得到参数估计量,不管其质量如何,所要求的样本容量的下限。 1) 最小样本容量最小样本容量 样本最小容量必须不少于模型中解释变量样本最小容量必须不少于模型中解释变量的数目(包括常数项)的数目(包括常数项),即 n k+1因为,无多重共线性要求:秩(X)=k+1 2 2)、满足基本要求的样本容量)、满足基本要求的样本容量 从统计检验的角度从统计检验的角

17、度: n30 时,Z检验才能应用; n-k8时, t分布较为稳定 一般经验认为一般经验认为: 当n30或者至少n3(k+1)时,才能说满足模型估计的基本要求。 模型的良好性质只有在大样本下才能得到理模型的良好性质只有在大样本下才能得到理论上的证明论上的证明三、残差分析与假设检验n假设检验必要性及检验内容n统计检验及经济意义检验n经典假设的检验n模型的修正1.假设检验的必要性和检验内容n回归建模过程1.假设检验的必要性和检验内容n为什么需要检验?n回归分析是要通过样本来估计总体的真实参数,或回归分析是要通过样本来估计总体的真实参数,或者说是用样本回归线估计总体回归线者说是用样本回归线估计总体回归

18、线n模型可能违反OLS估计的基本假定n结论只是一次抽样的某种偶然结果n检验内容:n经典假设检验:保证统计量良好统计性质n异方差、序列相关、多重共线n统计检验:推断总体模型设定的合理性n经济意义检验:模型经济意义的合理性假设检验的内容1:经典假设检验n检验经典线性回归模型的假定是否成立:保证参数估计量的良好性质n按照线性模型的假定,模型随机误差项应相互独立,且服从均值为0,等方差的正态分布。n如果假定不成立,如果假定不成立,OLS估计量不再有效,回归分估计量不再有效,回归分析的统计检验结果再显著也不能说明问题析的统计检验结果再显著也不能说明问题。因为残差平方和中既有观测误差,又有模型误差,t,F

19、检验的p值再小,也不意味模型正确。n内容:是否存在共线性、序列相关、异方差,是否正态分布假设检验的内容2:统计检验n统计检验n尽管从统计性质上已知,对无偏估计量,如果有足够多的重复抽样,参数的估计值的期望(均值)就等于其总体的参数真值,但一次抽样,估计值不会等于该真值。抽样具有偶然性。n因此,根据一次抽样结果不能直接下结论,需要进一步进行统计检验。n主要包括方程显著性检验、变量的显著性检验、拟合优度检验及参数的区间估计。ikikiiXXY110假设检验的内容3:经济意义检验n经济意义检验n检验各个参数是否与经济理论和实际经验相符消费函数例:消费函数例: =232.8+0.771X ,011?例

20、如:例如:ln(人均食品需求量人均食品需求量)=2.00.5ln(人均收入人均收入)4.5ln(食品价格食品价格) +0.8ln(其它商品价格其它商品价格) ln(人均食品需求量人均食品需求量)=2.0+0.5ln(人均收入人均收入)4.5ln(食品价格食品价格)+0.8ln(其它商品价格其它商品价格) ln(人均食品需求量人均食品需求量)=2.0+0.5ln(人均收入人均收入)0.8ln(食品价格食品价格) +0.8ln(其它商品价格其它商品价格)2. 统计检验及经济意义检验前提条件:经典假设满足n拟合优度检验n方程显著性检验n变量显著性检验n经济意义检验(1)拟合优度检验n判定系数和调整的

21、判定系数:方差分析2222)()(2)()()()(YYYYYYYYYYYYYYTSSiiiiiiiiii 总离差平总离差平方和的分解方和的分解ESSRSSYYYYTSSiii22)()(证明:证明:该项等于该项等于0TSSRSSTSSESSR12该统计量越接近于1,模型的拟合优度越高。 从R2的表达式中发现,如果在模型中增加解释变量, R2往往增大。 这就给人一个错觉:要使得模型拟合得好,只要增加解释变量即可。 但是,由增加解释变量引起的R2的增大与拟合好坏无关,所以R2需调整。 判定系数(可决系数)判定系数(可决系数) 调整的可决系数调整的可决系数(adjusted coefficient

22、 of determination) ) 1/() 1/(12nTSSknRSSR其中:n-k-1为残差平方和的自由度,n-1为总体平方和的自由度。(2)方程显著性的)方程显著性的F检验检验n 方程的显著性检验,旨在对模型中被解释变量方程的显著性检验,旨在对模型中被解释变量与解释变量之间的线性关系与解释变量之间的线性关系在总体上在总体上是否显著成是否显著成立作出推断。立作出推断。n 在多元模型中,即检验模型在多元模型中,即检验模型中的中的参数参数 j是否显是否显著不为著不为0。ikikiiiXXXY22110Hk012000:,0), 2 , 1(:1不全为kjHj 在原假设在原假设H0成立的

23、条件下成立的条件下,统计量,统计量 给定显著性水平,可得到临界值F(k,n-k-1),由样本求出统计量F的数值,通过 F F(k,n-k-1) 或 FF(k,n-k-1)来拒绝或接受原假设H0,以判定原方程总体上总体上的线性关系是否显著成立。 ) 1,() 1/(/knkFknRSSkESSF F F检验的思想检验的思想来自于总离差平方和的分解式来自于总离差平方和的分解式 TSS=ESS+RSS 关于拟合优度检验与方程显著性检验关系关于拟合优度检验与方程显著性检验关系的讨论的讨论 n从上式可看出,F与R2是同向变化的:n当R2 =0时,F=0nR2越大,F值也越大。当R2=1时,F) 1,()

24、 1/()1 (/) 1/(/22knkFknRkRknRSSkESSF 对于一般的实际问题,在对于一般的实际问题,在5%5%的显著性水平下,的显著性水平下,F F统计量的临界值所对应的统计量的临界值所对应的R R2 2的水平是较低的。的水平是较低的。所以,不宜过分注重所以,不宜过分注重R R2 2值,应注重模型的经济意值,应注重模型的经济意义;在进行总体显著性检验时,显著性水平应该义;在进行总体显著性检验时,显著性水平应该控制在控制在5%5%以内。以内。(3 3)变量的显著性检验()变量的显著性检验(t t检验)检验)n方程的方程的总体线性关系总体线性关系显著显著不等于不等于每个解释变每个解

25、释变量量对被解释变量的影响都是显著的。对被解释变量的影响都是显著的。n必须对每个解释变量进行显著性检验,以决必须对每个解释变量进行显著性检验,以决定是否作为解释变量被保留在模型中。定是否作为解释变量被保留在模型中。n这一检验是由对变量的这一检验是由对变量的 t 检验完成的。检验完成的。ikikiiiXXXY22110 设计原假设与备择假设: H1:i0 给定显著性水平,可得到临界值t/2(n-k-1),由样本求出统计量t的数值,通过 |t| t/2(n-k-1) 或 |t|t/2(n-k-1) p判断拒绝或不拒绝原假设H0,从而判定对应的解判定对应的解释变量是否应包括在模型中。释变量是否应包括

26、在模型中。 H0:i=0 (i=1,2k) )(iiset例. 凯恩斯消费函数n每周家庭消费支出exp和每周家庭收入income的数据如表,求凯恩斯消费函数。n建立二元线性回归模型n模型估计结果: ) 1(210expincomeexp系数系数a a26.2497.9313.310.016.851.1971.5744.327.005-.599.359-.607-1.668.146(常量)每周家庭收入($)LAGS(exp,1)模型1B标准误非标准化系数Beta标准化系数t显著性因变量: 每周家庭消费支出($)a. ANOVAANOVAb b6816.06723408.03399.188.000

27、a206.155634.3597022.2228回归残差合计模型1平方和df均方F显著性预测变量:(常量), LAGS(exp,1), 每周家庭收入($)。a. 模型摘要模型摘要b b.985a.971.9615.862模型1RR 方调整的 R 方估计的标准差a. 参数估计值参数估计的标准误单零检验之t统计量:H0:B=0方程显著性检验之F统计量判定系数n边际消费倾向11的假设检验?nH0: 11 H1: 11 (4 4)经济意义检验:一般)经济意义检验:一般t t检验检验Ttn一般回归系数的显著性检验用t检验:)(:H1*11*110Set7 . 0197. 01851. 0)(111Set

28、拒绝域:=0.05, T=-1.94 统计上不显著,不能拒绝原假设) 1(210expincomeexp系数系数a a24.4556.4143.813.005.509.036.98114.243.000(常量)每周家庭收入($)模型1B标准误非标准化系数Beta标准化系数t显著性因变量: 每周家庭消费支出($)a. ANOVAANOVAb b8552.72718552.727202.868.000a337.273842.1598890.0009回归残差合计模型1平方和df均方F显著性a. 模型摘要模型摘要b b.981a.962.9576.493模型1RR 方调整的 R 方估计的标准差预测变量

29、:(常量), 每周家庭收入($)。a. 剔除不显著变量incomeexp10n边际消费倾向11的假设检验?nH0: 11 H1: 1样本容量iiiixxy2210多重共线的识别n注意:多重共线是程度问题,而不是有无问题。n识别方法:nR2值高,F检验显著,但显著t值少。n容许度与方差膨胀因子n特征根(eigenvalues)和病态指数(condition index)最小特征根最大特征根病态指数CI病态指数CI在10-30之间,中强多重共线;CI30,严重多重共线iiiiiTOLRVIFR111)1 (TOL22方差膨胀因子容许度共线性诊断共线性诊断a a2.9301.000.01.00.00

30、.0706.483.98.00.00.000166.245.001.001.00维123模型1特征值条件索引(常量)收入财富方差比例因变量: 消费支出a. 系系 数数a a24.7756.7523.669.008.942.8231.8141.144.290.002482.128-.042.081-.834-.526.615.002482.128(常量)收入财富模型1B标准误非标准化系数Beta标准化系数t显著性容差VIF共线性统计量因变量: 消费支出a. 消费支出与收入和财富关系例4. 模型的修正n模型存在异方差和序列相关n模型存在多重共线n模型存在不显著变量(无多重共线)n剔除不显著变量n参

31、数经济意义不合理n变量选择不当、函数形式不当重新设定模型(1)模型存在异方差和序列相关n如果模型中存在异方差和序列相关,则t检验和F检验均无效,区间预测无效,模型必须修正n识别异方差和序列相关的原因n遗漏重要变量修改模型,引入遗漏变量n样本数据自身特征n异方差修正:加权最小二乘法n序列相关修正:广义差分方程(2)多重共线的克服a. 横截面数据与时间序列数据并用n例:汽车需求,假定有销售量、平均价格和消费者收入的时间序列数据,模型为:ttttIpylnlnln321时间序列数据,价格和收入变量一般有高度共线的趋势。可利用横截面数据估计收入弹性3,因为这些数据都产生于一个时间点上,价格还不至于有多

32、大变化。令收入弹性的横截面估计为 ,原回归可化为:3ttttttIyypylnlnln3*21*其中:多重共线的克服b. 差分法:时间序列数据间往往有较强的相关性,减小相关性的方法是形成一次差分方程:11, 3331, 2221)()(ttttttttttxxxxyy其中:虽然x2和x3的水平之可能高度相关,但是,其差分形式相关程度往往较低。因此,一阶差分回归常能减低多重共线性的严重程度。(对于横截面数据,一阶差分不适用。)差分法的问题:随机误差项可能存在序列相关;损失了一次观测值,因而减少了一个自由度,如果样本容量本身就不大,这可能会有影响。多重共线的克服c. 补充新数据:以二元回归为例)1

33、 ()(2232222rxVart当r23给定时,增加新样本,通常可以使 增大,从而减少 的方差,使我们能更准确地估计2。22tx 2e. 剔除变量:要慎重,设定偏误(偏回归系数估计量有偏)d. 主成分回归*岭回归法岭回归法(Ridge Regression)n 20世纪70年代发展,以引入偏误为代价减小参数以引入偏误为代价减小参数估计量的方差估计量的方差。n 具体方法是:引入矩阵D,使参数估计量为 其中矩阵D一般选择为主对角阵,即D=aI,a为大于0的常数。YXDXX1)( 显然,与未含显然,与未含D D的参数的参数B B的估计量相比,估计量有的估计量相比,估计量有较小的方差。较小的方差。例

34、 医院生产率n研究医院人员配备n因变量:manhrs(医院要求的工时数),n解释变量:nLoad:平均日均病人数nXray:每月x光的使用次数,nBeddays:病床占用日,nStay:病人的平均停留时间,n elgpop :该地区人口n 做线性模型:elgpopstaybeddaysxrayloadmanhrs543210ANOVAANOVAb b490177043598035409237.767.000a4535497.411412317.9549471254016回归残差合计模型1平方和df均方F显著性预测变量:(常量), stay, xray, elgpop, beddays, loa

35、d。a. 因变量: manhrsb. 模型摘要模型摘要b b.995a.991.987642.119892.733模型1RR 方调整的 R 方估计的标准差Durbin-Watson预测变量:(常量), stay, xray, elgpop, beddays, load。a. 因变量: manhrsb. elgpopstaybeddaysxrayloadmanhrs543210系数系数a a1964.3581071.4721.833.094-15.52497.661-.450-.159.877.0009598.207.056.021.2142.631.023.1267.9401.5793.092

36、1.394.511.620.0008933.554-4.2357.177-.082-.590.567.04323.292-394.635209.666-.112-1.882.087.2344.280(常量)loadxraybeddayselgpopstay模型1B标准误非标准化系数Beta标准化系数t显著性容差VIF共线性统计量a. 共线性诊断共线性诊断a a5.2011.000.00.00.00.00.00.00.6672.793.01.00.01.00.00.01.0798.109.03.00.38.00.01.02.04510.781.01.00.46.00.29.02.00825.16

37、2.80.00.14.00.25.762.848E-05427.339.151.00.001.00.44.20维123456模型1特征值条件索引(常量)loadxraybeddayselgpopstay方差比例因变量: manhrsa. 系数系数a a2032.188942.0752.157.052.056.020.2152.755.017.1267.9261.088.153.9607.095.000.04223.927-5.0045.081-.097-.985.344.07912.706-410.083178.078-.117-2.303.040.2983.361(常量)xraybedday

38、selgpopstay模型1B标准误非标准化系数Beta标准化系数t显著性容差VIF共线性统计量因变量: manhrsa. 模型摘要模型摘要b b.995a.991.988615.488682.739模型1RR 方调整的 R 方估计的标准差Durbin-Watson预测变量:(常量), stay, xray, elgpop, beddays。a. 多重共线修正:剔除变量nLoad(平均日均病人数)和Beddays(病床占用日)高度共线,剔除LoadF=323.447下章:主成分回归31033. 0088. 1的系数估计值BEDDAYS多重共线是否一定要修正?nOLS估计仍然是BLUE,参数估计

39、量方差大n视情况而定:n预测n结构分析nt是否显著四、偏回归系数的含义n二元回归模型为:二元回归模型为:yi= 1+ 2x2i+ 3x3i+ i 1) 偏相关系数n简单相关:两个变量之间线性关联的紧密程度n偏相关定义:在多个变量y,x1,x2,xk之间,如果只考虑两个变量之间的真实相关关系,而排除其他变量对它们的影响(或者说其他变量保持不变),这种相关成为偏相关。例 控制第三变量n某地15名13岁男童身高x1(cm)、体重x2(kg)、和肺活量y(ml)的数据如表。试对该资料做控制体重影响的身高与肺活量的偏相关分析。n步骤: AnalyzeCorelatePartialn选“身高”和“肺活量”

40、为分析变量,“体重”为控制变量,“双尾检验”,“显示实际显著性水平”n选项:同时输出均值和标准差及零阶相关系数肺活量身高体重?偏相关系数n在偏相关中,根据被固定的变量数目的多少,可分为零阶偏相关(即简单相关)、一阶偏相关、二阶偏相关、(k-1)阶偏相关等。n偏相关系数:用来衡量偏相关程度的数量指标。n例: 为x3保持不变下y和x2的一阶偏相关系数32xyxr简单相关系数vs偏相关系数nr123与r12的关系nr12=0时, r123并不为0,除非r13或r23为0。nr123与r12不一定同号。)1)(1()1)(1()1)(1(21321213122312322321223121321322

41、3213231312312rrrrrrrrrrrrrrrrrr如果如果x x1 1与与x x2 2的偏相关系数为的偏相关系数为0 0,意味着在消,意味着在消除了除了x x3 3对每个变量的线性影响后,对每个变量的线性影响后, x x1 1与与x x2 2之之间没有线性关联,这时我们可以下结论说:间没有线性关联,这时我们可以下结论说:在模型中在模型中x x2 2对对x x1 1没有直接影响。没有直接影响。例1 “期望扩充”菲利普斯曲线n菲利普斯曲线表明:通货膨胀率和失业率是反向变化的。期望扩充菲利普斯曲线增加了预期通货膨胀率的影响。n1970-1982年美国真实通货膨胀率y(%)、失业率x2(%

42、)和预期通货膨胀率x3(%)数据如表,作菲利普斯曲线。n原始菲利普斯曲线:yt=b1+b12x2t+1tn期望扩充菲利普斯曲线:yt=1+2x2t+3x3t+t b12、 2的经济涵义、先验符号?2) 偏回归系数b12 2估计值为正,失业率与通胀率同方向?估计值为正,失业率与通胀率同方向?符号正确,统计显著。符号正确,统计显著。统计上不显著异于统计上不显著异于0例1 “期望扩充”菲利普斯曲线n估计结果n原始菲利普斯曲线n 期望扩充菲利普斯曲线设定偏误设定偏误?000029. 0)(51521.35000008. 0001034. 0001125. 0:876590. 0362633. 8565

43、214. 4594789. 4:175786. 0305018. 0594789. 1:470032. 1392472. 1193357. 7232FpFpRtsexxyttt705058. 0)(150934. 0705058. 0180552. 0:013536. 0388502. 0429817. 1:630456. 0285283. 4:244934. 0127172. 622FpFpRtsexyttE(b12 ) = 2 + 3 b32 b12不仅度量了不仅度量了x2对对y的净影响,还包括了的净影响,还包括了x2对对x3的的影响而间接对影响而间接对y产生的影响产生的影响yt=b1+b

44、12x2t+1tyt=1+2x2t+3x3t+tb12=0.2449342=-1.392472nx3t=b2+b32x2t+2t x3t =-0.725280+1.113857x2ttttxxy32470032. 1392472. 1193357. 7ttxy2244934. 0127172. 6通胀通胀y失业率失业率x2预期预期通胀通胀x320B320偏回归系数n偏回归系数表示了其他因素不变时,相应解释变量对因变量的“净影响”。n2反映了x3不变的条件下,x2对y的净影响n偏回归系数-偏相关:控制第三变量n多元回归与一元回归的区别:为什么要作多元回归tttxxy32470032. 13924

45、72. 1193357. 7yt=1+2x2t+3x3t+t选择恰当的变选择恰当的变量至关重要量至关重要例1:在研究生产中的劳动在经济附加值(EVA)中所占分额(即劳动份额)的变动时,古扎拉蒂考虑如下模型:例2:n根据美国30所知名学校的MBA学生1994年基本年薪(ASP)、GPA分数做回归模型n估计输出结果如图n分析GPA是否对ASP有影响?GPAASP10模型摘要模型摘要b b.602a.362.34014779.439201.879模型1RR 方调整的 R 方估计的标准差Durbin-Watson预测变量:(常量), gpa。a. 因变量: aspb. 系数系数a a-273722.5

46、85758.314105117.5826347.086(常量)gpa模型1B标准误非标准化系数因变量: aspa. n进一步引入GMAT分数以及每年学费COST的数据建立一个多元回归模型,解释MBA毕业生的平均初职工资ASP,并且求出回归结果n分别做方程和变量显著性检验 n分析GPA是否对ASP有影响?为什么与一元回归结果不一样?n如果学费这一变量的系数为正、并且在统计上是显著的,是否表示进入最昂贵的商业学校是值得的? 模型摘要模型摘要b b.876a.768.7419248.370221.938模型1RR 方调整的 R 方估计的标准差Durbin-Watson预测变量:(常量), cost,

47、 gpa, gmat。a. 因变量: aspb. 系数系数a a-310301.558715.98025676.00622106.479442.845115.9221.084.476(常量)gpagmatcost模型1B标准误非标准化系数因变量: aspa. 五、含虚拟变量的回归n一些影响经济变量的因素是无法定量度量。为了在模型中能够反映这些因素的影响,并提高模型的精度,需要将它们“量化”。n虚拟变量(定类尺度变量、范畴变量):n用来表示某一“性质”或属性出现或不出现,通常取值0或1,因而也称两值变量或两分变量。n如:x表示性别,0=男性,1=女性n或x=0表示政策实施前,x=1表示政策实施后

48、。n同时含有一般解释变量与虚拟变量的模型称为虚拟变量模型或者方差分析(analysis-of variance: ANOVA)模型。被赋予0值的类别是基底(基准),1是基底类的截距。1、虚拟变量的性质n例:教授薪金与性别、教龄的关系nYi=1+2Di+Xi+I (1)n其中:Yi=教授的薪金, Xi=教龄, Di=性别,若是女性,若是男性01iDiiiiiiiiXDXYEXDXYE)(男教授平均薪金:女教授平均薪金:211) 1,|()0,|(教龄X年薪Y0女教授男教授12男教授平均薪金和女教授平均薪金水平相差2,但平均年薪对教龄的变化率是一样的2:级差截距系数薪金与性别:估计结果993. 0

49、)455.21()45.38()61.93(:)155. 0()036. 0()192. 0(:334. 3371. 1969.172rtseDXYiii,若是女性,若是男性01iD993. 0)455.21()45.38()2 .117(:)155. 0()036. 0()182. 0(:334. 3371. 1303.212rtseDXYiii,若是男性,若是女性01iD男教授平均薪金水平比女教授显著高$3.334K(男:21.3,女:17.969)2、含有虚拟变量的回归问题n虚拟变量的设计n对多分定性变量,按照虚拟变量的个数比变量分类数少一的规则设虚拟变量。n例如受教育程度分为:博士、硕

50、士和本科三类,则应设两个虚拟变量:,不然的话,如果是硕士,不然的话,如果是博士010132DDYi=1+2D2i+3D3i+Xi+i“本科”类为基底iiiiiiiiiXDDXYEXDDXYEXDDXYE)()(31322132132) 1, 0,|()0, 1,|()0, 0,|(2、含有虚拟变量的回归问题n美国制造业的利润-销售额行为季节调整例ttttttDDD销售利润4433221D2=1, 第2季度 ; D3=1, 第3季度; D4=1, 第4季度 =0, 其他季度; =0, 其他季度; =0, 其他季度5255. 0)3313. 3()281. 0()34. 0()072. 2()90

51、82. 3(:)0115. 0() 3 .654() 3 .632()5 .638()4 .1711(:0383. 086.18380.2179 .13224 .66882432rtseDDDttttt(销售)润利515. 0)7173. 3()7004. 2()0143. 4(:)0106. 0()02.493() 1 .1623(:0393. 0352.1331581.651522rtseDttt销售利润剔除季节影响,销售额增加1美元,利润可望增加4美分美国战争时期消费模型1940-1950n建模:C=+X+3、比较两个回归n比较英国在第二次大战后重建时期和重建后时期的总储蓄-收入关系是否

52、发生变化。数据如表。D=1,重建时期 =0,重建后时期级差截距:区分两个时期的截距级差斜率系数:区分两个时期的斜率ttttttXDXDY)(2121953. 0)109. 3()238. 9()155. 3()27. 5(:)033. 0()016. 0()47. 0()332. 0(:103. 015. 0484. 175. 12rtseXDXDYtttttttttttttXXDYEXXDYE)()(), 1|(), 0|(212111D=1D=0例:现有如下估计的利润函数n新食品定价和广告策略研究例参数估计参数估计因变量: sale350.00071.2554.912.000200.299

53、499.701507.000100.7705.031.000295.291718.709160.750100.7701.595.128-50.959372.4590a.86.500100.770.858.402-125.209298.2090a.-245.250142.510-1.721.102-544.65254.1520a.-21.250142.510-.149.883-320.652278.1520a.0a.0a.参数截距price=1price=2price=3advertis=1advertis=2price=1 *advertis=1price=1 *advertis=2price

54、=2 *advertis=1price=2 *advertis=2price=3 *advertis=1price=3 *advertis=2B标准误tSig.下限上限95% 置信区间此参数为冗余参数,将被设为零。a. 虚拟变量模型与方差分析协变量调整前协变量调整后参数估计参数估计因变量: sale-246.389146.159-1.686.110-554.75961.98022.5055.1764.348.00011.58433.427428.23273.6165.817.000272.915583.548160.75071.3522.253.03810.211311.2890a.-116.

55、04785.215-1.362.191-295.83463.7400a.-211.492101.205-2.090.052-425.0162.0320a.-77.513101.733-.762.457-292.152137.1250a.0a.0a.参数截距storesizprice=1price=2price=3advertis=1advertis=2price=1 *advertis=1price=1 *advertis=2price=2 *advertis=1price=2 *advertis=2price=3 *advertis=1price=3 *advertis=2B标准误tSig.

56、下限上限95% 置信区间此参数为冗余参数,将被设为零。a. 六、线性回归过程选择建立回归方程的方法可以对不同的自变量采用不同的引入方法选择进入回归分析的样本点加权最小二乘法,单击此按钮可输入加权变量方法选择框:n建立回归方程的方法有五种可供选择:n进入(强迫引入法):定义的全部自变量均引入方程。n移去(强迫剔除法):定义的全部自变量均剔除。n向前(向前引入法):自变量由少到多一个一个引入回归方程,直到不能按检验水准引入新的变量为止。缺点:当两个变量一起时效果好,单独时效果不好,有可能只引入其中一个变量,或两个变量都不能引入。方法选择框:n向后(向后剔除法):自变量由多到少一个一个从回归方程中剔

57、除,直到不能按检验水准剔除为止。能克服向前引入的缺点。n逐步(逐步回归):将向前引入法和向后剔除法结合起来,在向前引入的每一步之后都要考虑从已引入方程的变量中剔除作用不显著的变量,直到没有一个自变量能引入方程,也没有一个自变量能从方程中剔除为止。缺点同向前引入法,但选中的变量比较精悍。“统计量”对话框D-W检验:检验随机误差项的独立性(序列相关性)个案诊断:特异值或全部样本,显示其标准化残差、实测值、预测值和残差。默认选项共线诊断“图”对话框散点图:输入纵坐标和横坐标。为获得更多散点图,可单击“next”按钮标准化残差图直方图残差的正态概率图DEPENDENT:因变量,*ZPRED:标准化预测

58、值,*ZRESID:标准化残差,*DRESID:删除的残差,*ADJPRED:调整预测值,*SRESID:student氏残差,*SDRESID: student氏删除残差。预测值的标准误预测区间估计:均值的预测区间和个体y值的预测区间“保存”对话框“选项”对话框逐步方法准则:以F的概率p值为准则或以F值为准则(均给出引入值和剔除值),当F的p值小于等于引入值时,引入相应变量;当F的p值大于等于剔除值时,剔除相应变量。本章小结 多元回归模型n多元回归模型描述了被解释变量与诸解释变量的依赖关系n偏回归系数i表示其它解释变量不变的条件下,第i个解释变量变化对被解释变量的 “净” 影响。n偏回归系数

59、的估计方法:最小二乘估计n当经典假设满足时,OLS估计量为最优线性无偏估计量111nkknnxy121)()var()(xxyxxx多元回归模型的建模过程n明确所研究的问题,确定因变量n通过定性分析,找到导致因变量变化的主要影响因素,作为解释变量n收集数据,整理数据,数据的初步分析n分析因变量与各解释变量间关系的性质,确定模型的函数形式n建立计量模型,确定各偏回归系数的先验符号多元回归模型的建模过程(续)n用OLS估计模型的参数,并作各种检验n经典假设检验:多重共线、异方差、序列相关n如果存在异方差/序列相关,统计检验无效n统计检验:t检验,F检验,判定系数n经济意义检验:各偏回归系数的符号是

60、否与预期一致n筛选完善模型:n不遗漏重要变量,无多余变量,参数经济意义合理n模型的应用:预测、结构分析、政策建议n注意:不同形式模型偏回归系数的经济含义回归建模示例1:粮食生产模型n根据理论和经验分析,影响粮食生产(Y)的主要因素有:n农业化肥施用量(X1), 粮食播种面积(X2),成灾面积(X3),农业机械总动力(X4), 农业劳动力(X5)n已知中国粮食生产的已知中国粮食生产的相关数据相关数据,建立中,建立中国粮食生产函数国粮食生产函数: Y= 0+ 1 X1 + 2 X2 + 3 X3 + 4 X4 + 4 X5 + ANOVAANOVAb b324797742564959548137.

61、116.000a5685056.112473754.6833048279817回归残差合计模型1平方和df均方F显著性a. 模模型型摘摘要要b b.991a.983.976688.29839201.811模型1RR 方调整的 R 方估计的标准差Durbin-Watson预测变量:(常量), 劳动力(万人), 播种面积(千公顷), 机械总动力(万千瓦), 成灾面积(公顷), 化肥施用量(万公斤)。a. 模型估计结果模型估计结果系数系数a a-12815.7514078.905-.910.3816.213.7411.2828.385.000.06116.309.421.127.1653.320.0

62、06.5791.727-.166.059-.190-2.807.016.3143.188-.098.068-.223-1.445.174.06016.643-.028.202-.007-.140.891.5731.745(常量)化肥施用量(万公斤)播种面积(千公顷)成灾面积(公顷)机械总动力(万千瓦)劳动力(万人)模型1B标准误非标准化系数Beta标准化系数t显著性容差VIF共线性统计量因变量: 粮食产量(万吨)a. 系数系数a,ba,b6.1722.083.4642.964.012.3982.510.464.154.4123.024.011.5261.901-.191.046-.498-4.

63、154.001.6791.473-.093.154-.095-.602.559.3922.554.003.413.001.006.995.7781.285DIFF(x1,1)DIFF(x2,1)DIFF(x3,1)DIFF(x4,1)DIFF(x5,1)模型1B标准误非标准化系数Beta标准化系数t显著性容差VIF共线性统计量因变量: DIFF(y,1)a. 通过原点的线性回归b. ANOVAANOVAc,dc,d7227478651445495718.065.000a9602066.112800172.1781876852b17回归残差合计模型1平方和df均方F显著性a. 模型摘要模型摘要c

64、,dc,d.940b.883.834894.52343351.869模型1RR 方a调整的 R 方估计的标准差Durbin-Watson对于通过原点的回归(无截距模型),R 方可测量(由回归解释的)原点附近的因变量中的可变性比例。对于包含截距的模型,不能将此与 R 方相比较。a. 差分消除共线差分消除共线1ttt1tt5t54t43t32t21t1tt5t54t43t32t21t10tyyyxxxxxyxxxxxy其中差分方程:系数系数a,ba,b5.2181.255.3924.157.001.9681.033.490.126.4353.901.002.6951.439-.194.042-.5

65、07-4.601.000.7101.409DIFF(x1,1)DIFF(x2,1)DIFF(x3,1)模型1B标准误非标准化系数Beta标准化系数t显著性容差VIF共线性统计量因变量: DIFF(y,1)a. 通过原点的线性回归b. 剔除两个不显著变量剔除两个不显著变量)042. 0()126. 0()255. 1 (:se194x. 049x. 0218x. 5y 3t2t1ttC最终模型:模型摘要模型摘要c,dc,d.938b.879.853840.56977811.770模型1RR 方a调整的 R 方估计的标准差Durbin-Watson对于通过原点的回归(无截距模型),R 方可测量(由

66、回归解释的)原点附近的因变量中的可变性比例。对于包含截距的模型,不能将此与 R 方相比较。a. ANOVAANOVAc,dc,d7198504632399501533.960.000a9891805.714706557.5581876852b17回归残差合计模型1平方和df均方F显著性预测变量: DIFF(x3,1), DIFF(x1,1), DIFF(x2,1)a. 剔除变量法:先剔除“劳动力”模型摘要模型摘要b b.991a.983.977661.83917681.800模型1RR 方调整的 R 方估计的标准差Durbin-Watson预测变量:(常量), 机械总动力(万千瓦), 播种面积(千公顷), 成灾面积(公顷), 化肥施用量(万公斤)。a. 因变量: 粮食产量(万吨)b. ANOVAANOVAb b324788394481197098185.368.000a5694404.213438031.1033048279817回归残差合计模型1平方和df均方F显著性预测变量:(常量), 机械总动力(万千瓦), 播种面积(千公顷), 成灾面积(公顷), 化肥施用量(万公斤)。a. 系


文档来源:https://www.renrendoc.com/paper/212494819.html

文档标签:

下载地址