第五章 解释变量包含虚拟变量的回归模型



《第五章 解释变量包含虚拟变量的回归模型》由会员分享,可在线阅读,更多相关《第五章 解释变量包含虚拟变量的回归模型(39页珍藏版)》请在文档大全上搜索。
1、第五章 解释变量包含虚拟变量 的回归模型 一、虚拟变量的基本含义一、虚拟变量的基本含义 二、虚拟变量的引入二、虚拟变量的引入 三、虚拟变量的设置原则三、虚拟变量的设置原则一、虚拟变量的基本含义一、虚拟变量的基本含义v许多经济变量是可以定量度量可以定量度量的,如:如:商品需求量、价格、收入、产量等。v但也有一些影响经济变量的因素无法定量度量无法定量度量,如:如:职业、性别对收入的影响,战争、自然灾害对GDP的影响,季节对某些产品(如冷饮)销售的影响等等。v为了在模型中能够反映这些因素的影响,并提高模型的精度,需要将它们“量化”。 这种“量化”通常是通过引入“虚拟变量”来完成的。根据这些因素的属性
2、类型,构造只取“0”或“1”的人工变量,通常称为虚拟变量虚拟变量(dummy variables),记为D。v例如例如,反映文化程度的虚拟变量可取为,反映文化程度的虚拟变量可取为: 1, 本科学历 D= 0, 非本科学历v 一般地,在虚拟变量的设置中:v 基础类型、肯定类型取值为基础类型、肯定类型取值为1;v 比较类型,否定类型取值为比较类型,否定类型取值为0。概念:概念: 同时含有一般解释变量与虚拟变量的模同时含有一般解释变量与虚拟变量的模型 称 为 虚 拟 变 量 模 型 或 者 方 差 分 析型 称 为 虚 拟 变 量 模 型 或 者 方 差 分 析(analysis-of varian
3、ce: ANOVA)模型模型。 一个以性别为虚拟变量考察企业职工薪金的模型:iiiiDXY210其中:Yi为企业职工的薪金,Xi为工龄, Di=1,若是男性,Di=0,若是女性。二、虚拟变量的引入二、虚拟变量的引入 虚拟变量做为解释变量引入模型有两种基本方式:加法方式加法方式和乘法方式乘法方式。 上述企业职工薪金模型中性别虚拟变量的引入采取了加法方式。 在该模型中,如果仍假定E(i)=0,则 企业女职工的平均薪金为:企业女职工的平均薪金为:1. 1. 加法方式加法方式iiiiXDXYE10)0,|( 企业男职工的平均薪金为:企业男职工的平均薪金为:iiiiXDXYE120)() 1,|(几何意
4、义:几何意义: 假定20,则两个函数有相同的斜率,但有不同的截距。意即,男女职工平均薪金对工龄的变化率是一样的,但两者的平均薪金水平相差2。v可以通过传统的回归检验,对2的统计显著性进行检验,以判断企业男女职工的平均薪金水平是否有显著差异。 年薪Y 男职工 女职工 工龄X02 又例又例:在横截面数据基础上,考虑个人保健支出对个人收入和教育水平的回归。 教育水平考虑三个层次:高中以下, 高中, 大学及其以上。 011D 其他高中 012D 其他大学及其以上 这时需要引入两个虚拟变量:模型可设定如下:iiiDDXY231210 在E(i)=0 的初始假定下,高中以下、高中、大学及其以上教育水平下个
5、人保健支出的函数:v高中以下:iiiXDDXYE1021)0, 0,|( 高中:iiiXDDXYE12021)()0, 1,|( 大学及其以上:iiiXDDXYE13021)() 1, 0,|( 假定32,其几何意义: 大学教育 保健 高中教育 支出 低于中学教育 收入 还可将多个虚拟变量引入模型中以考察多种还可将多个虚拟变量引入模型中以考察多种“定定性性”因素的影响。因素的影响。 如如在上述职工薪金的例中,再引入代表学历的虚拟变量D2:iiiDDXY231210012D本科及以上学历本科以下学历职工薪金的回归模型可设计为:女职工本科以下学历的平均薪金:iiiXDDXYE13021)() 1,
6、 0,|(女职工本科以上学历的平均薪金:iiiXDDXYE132021)() 1, 1,|(iiiXDDXYE1021)0, 0,|(iiiXDDXYE12021)()0, 1,|(于是,不同性别、不同学历职工的平均薪金分别为:男职工本科以下学历的平均薪金:男职工本科以上学历的平均薪金:2. 2. 乘法方式乘法方式v加法方式引入虚拟变量,考察:截距的不同。截距的不同。v许多情况下:往往是斜率就有变化,或斜率、截或斜率、截距同时发生变化距同时发生变化。v斜率的变化可通过以乘法的方式引入虚拟变量来斜率的变化可通过以乘法的方式引入虚拟变量来测度测度。 例例:根据消费理论,消费水平C主要取决于收入水平
7、Y,但在一个较长的时期,人们的消费倾向会发生变化,尤其是在自然灾害、战争等反常年份,消费倾向往往出现变化。这种消费倾向的变化可通过在收入的系数中引入虚拟变量来考察。tttttXDXC210如,设01tD反常年份正常年份消费模型可建立如下:v这里,虚拟变量D以与X相乘的方式引入了模型中,从而可用来考察消费倾向的变化。v假定E(i)= 0,上述模型所表示的函数可化为: 正常年份:ttttXDXCE)() 1,|(210 反常年份:ttttXDXCE10)0,|( 当截距与斜率发生变化时,则需要同时引入当截距与斜率发生变化时,则需要同时引入加法与乘法形式的虚拟变量加法与乘法形式的虚拟变量。v例例,考
8、察1990年前后的中国居民的总储蓄-收入关系是否已发生变化。 表中给出了中国19792001年以城乡储蓄存款余额代表的居民储蓄以及以GNP代表的居民收入的数据。表表5.1.1 19792001年年中中国国居居民民储储蓄蓄与与收收入入数数据据(亿亿元元)90年前储蓄GNP90年后储蓄GNP19792814038.21991910721662.51980399.54517.8199211545.426651.91981523.74860.3199314762.434560.51982675.45301.8199421518.846670.01983892.55957.4199529662.3574