Chapter1线性回归模型的OLS估计



《Chapter1线性回归模型的OLS估计》由会员分享,可在线阅读,更多相关《Chapter1线性回归模型的OLS估计(42页珍藏版)》请在文档大全上搜索。
1、第1章 线性回归模型线性回归模型用于考察多个自变量对一个因变量的影响。例如施肥量、土质与作物产量的关系;受教育年数、工龄、性别对收入的影响,警察数量、下岗职工对城市犯罪率的影响等。以双变量为例。x1、x2对y存在影响,同时x1和x2之间也存在相关关系。如图所示。X1X2y1.1 模型设定假定变量yt与k个变量xt j, j = 1, , k,存在线性关系。多元线性回归模型表示为, 1.1其中yt是被解释变量(因变量),xj t是解释变量(自变量),ut是随机误差项,bi, i = 0, 1, , k是回归参数(通常未知)。这说明xj t, j = 1, , k, 是yt的重要解释变量。ut代表
2、其他影响yt变化的随机因素。 给定一个样本(yt , xt1, xt2 , xt k),t = 1, 2, , T,上述模型表示为, 1.2令 , , 则(3.3) 式可以写为, y = Xb + u 1.31.2 参数估计1.2.1 参数的点估计1 最小二乘法(OLS)设残差平方和用Q表示, 1.4上式中,因为和是一个标量()的结果是一个数值标量,而不是向量,同理也是标量;向量是既有大小又有方向的量),所以有。求Q对的一阶偏导数,并令其为零, 1.5化简得, 假定1 解释变量之间线性无关。Rank(X'X) = Rank(X) = K1 1.6其中Rank(×)表示矩阵的秩
3、,矩阵的秩等于它所含的线性无关的列向量的最大数目,有:秩(A)= 秩(A)min(行数,列数),。即解释变量之间彼此线性无关。如果假定1成立,可以直接得到的最小二乘估计量, 1.7Stata程序实现的例子:*begin1/*下面是最简单的一元回归,操作一下看结果*/use consume, clear /使用consume.dta数据文件regress consume income /*用reg命令回归,常数项是stata自动加入的*/reg consume income if income>300 /对收入(income)大于300的样本进行回归reg consume income i
4、n 5/11 /对第5至11个样本进行回归regress consume income /再对全部回归样本回归一次,因为下面要用到回归的预测值predict y, xb /根据X预测y的拟合值predict e, residual /预测回归残差值list /列出所有变量/*根据公式估计*/local N = _N /取得样本个数,_N是系统变量,其值等于样本数量gen cons = 1 /生成一列值全为1的向量,对应于式1.1中的常数项0mkmat consume, mat(y) /将数据库中的consume列定义为矩阵y(此时y是向量)mkmat income cons, mat(X) /
5、将数据库中的imcome列和新生成的定义为矩阵Xmat b = inv(X'*X)*X'*y / 式的stata实现mat list b /列出向量值,和reg结果比较看是否一样mat list y /列出y的观测值,和前面是一样的mat list X /列出X矩阵的值,注意到它有一列是1,即常数项取值为1(对应0)*over1表示y的拟合值,表示残差项。拟合值和残差项经常表示为另外一种形式: 1.8 1.9其中,称为映射矩阵。Py表示y对X回归的拟合值。,称为零化子矩阵。My表示y对X的残差项。因此,y总是可以表示为y=Py+My。可以证明,P和M都是对称幂等矩阵,即 M =
6、 M ',P = P ' M2 = M ' M = M ',P 2 = P ' P = P ' 1.10且有 PX=X, MX=0 1.11M+P=I,PM=0 由正规方程组可得,即。进而可得。即1.2.2 FML定理接下来我们介绍OLS估计量的一个重要性质,即FML定理(Frisch and Waugh(1933)、Lovell (1963))。这一定理体现了线性回归模型参数的经济含义。在虚拟变量等问题的处理中重要的应用。将所有的解释变量拆分为两部分。模型表述为: 1.12残差平方和为: 1.13其中和为标量(可以看到,所有的矩阵表达式结果均为
7、标量,但值不一样,只能把和这二个标量值相同的项合并),同样,对应的正规方程组为: 1.14由(1)式可得: 1.15由此可以看出,如果,则。即当X2与X1正交时,模型与的参数估计量是完全相同的。将(1.15)式带入正规方程(2)可得到解: 1.16其中,M1表示X1的零化矩阵,根据零化矩阵的性质, 1.17其中,表示X2对X1回归的残差项,表示y对X1回归的残差项。由此得到如下定理。Frisch-Waugh定理:与得到相同的估计量和残差。(式1.12两边左乘MX1,然后再回到式1.17,估计过程可参考http:/personal.rhul.ac.uk/uhte/006/ec5040/Frisc
8、hWaugh.pdf)即,y对X1、X2的回归方程中,X2的参数估计量等价于y对X1回归的残差项对X2对X1回归的残差项进行回归得到的参数估计量,二者的残差也是相同的。这一定理表明,多元回归模型中,回归参数2体现了“排除”(partial out)X1影响后的“净”影响。因此,2也称作“偏回归系数”,体现了X2对y的净影响,称之为“偏影响”(partial effect)。也正是由于回归参数2体现了排除X1影响后的“净”影响,因此把X1称作“控制变量”。也就是说,虽然实际经济环境中,我们几乎不能控制X1的变化。但在多元回归模型中,2已经把X1的影响排除掉了,因此2理解为“当其他条件不变的情况下
9、”,X2对y的边际影响。对于如下结构关系:X1X2y如果回归模型,参数b1的估计量不会显著,因为将x2的影响排除后,x1对y不存在任何影响。例:*begin2/Consider an OLS regression of wage on education and ageuse "womenwk.dta", clear /使用womenwk.dta数据文件keep if work=1 /保留已工作妇女的样本数据(即删除未工作妇女样本)reg wage education age / 估计多元回归方程reg wage education /首先求出教育年限、年龄的对工资的影响系
10、数reg wage education /求education对wage的偏影响predict yhat2 if e(sample), resid /得出上面ols回归的残差并保存为变量yhat2reg age education /求education对age的偏影响predict xhat2 if e(sample), resid /得出上面ols回归的残差并保存为变量xhat2;if e(sample)指Obtain predictions for just the sample on which we fit the modelreg yhat2 xhat2 /用xhat2对yhat2
11、回归,此时注意xhat2的系数与多元回归方程中education的系数是一致的predict ahat if e(sample) sort xhat2two (scatter yhat2 xhat2) (line ahat xhat2) /Graphing this relationship*over21.2.3 参数估计量的分布特征设真实的DGP为y = Xb0 + u其中,b0为真实的参数。如果模型设定准确的话,即y = Xb + u我们来看参数估计量的统计特征。对于模型错误设定的情况,请参见本章“模型的设定分析”部分。1 一致性设模型的参数为,估计量为。如果,则称具有一致性。一致性意味着