第七章 相关与回归分析

《第七章 相关与回归分析》由会员分享,可在线阅读,更多相关《第七章 相关与回归分析(47页珍藏版)》请在文档大全上搜索。
1、 第第7 7章章 相关与回归分析相关与回归分析7.17.1相关分析相关分析的意义和任务的意义和任务7.27.2简单线性相关分析简单线性相关分析7.37.3回归分析回归分析7.47.4估计标准误差估计标准误差 、教学目的和要求:本章目的在于提供从数量上研究现象之间相互关系的分析方法。学习本章要理解:1、相关的意义,现象相关的主要形式以及相关分析的主要内容;2、相关系数的计算与性质;相关与回归的联系与区别,建立回归方程的依据;3、回归方程参数的意义;4、把握回归估计标准误差的计算与意义,以及进行相关分析与回归分析应注意的问题。 、教学重点和难点:教学重点是 相关与回归分析的主要内容、相关系数的计算
2、及性质、回归方程的拟合。难点是回归方程的拟合 、教学时数:6学时实例实例1:中国妇女生育水平的决定因素是什么:中国妇女生育水平的决定因素是什么妇女生育水平除了受计划生育政策影响以外,还可能妇女生育水平除了受计划生育政策影响以外,还可能与社会、经济、文化等多种因素有关。与社会、经济、文化等多种因素有关。1. 1. 影响中国妇女生育率变动的因素有哪些?影响中国妇女生育率变动的因素有哪些?2. 2. 各种因素对生育率的作用方向和作用程度如何?各种因素对生育率的作用方向和作用程度如何?3. 3. 哪些因素是影响妇女生育率主要的决定性因素?哪些因素是影响妇女生育率主要的决定性因素?4. 4. 如何评价计
3、划生育政策在生育水平变动中的作用?如何评价计划生育政策在生育水平变动中的作用?5. 5. 计划生育政策与经济因素比较计划生育政策与经济因素比较, ,什么是影响生育率的什么是影响生育率的 决定因素?决定因素?6. 6. 如果某些地区的计划生育政策及社会、经济、文化如果某些地区的计划生育政策及社会、经济、文化 等因素发生重大变化,预期对这些地区的妇女生育等因素发生重大变化,预期对这些地区的妇女生育 水平会产生怎样的影响?水平会产生怎样的影响? 据世界卫生组织统计,全球肥胖症患者达3亿人,其中儿童占2200万人,11亿人体重过重。肥胖症和体重超常早已不是发达国家的“专利”,已遍及五大洲。目前,全球因
4、”吃”致病乃至死亡的人数已高于因饥饿死亡的人数。 (引自光明日报刘军/文)问题问题: : 肥胖症和体重超常与死亡人数真有显著肥胖症和体重超常与死亡人数真有显著 的数量关系吗的数量关系吗? ?这些类型的问题可以运用相关分析与回归分析的这些类型的问题可以运用相关分析与回归分析的方法去解决。方法去解决。实例实例2:2:全球吃死的人比饿死的人多全球吃死的人比饿死的人多? ?7.17.1相关分析相关分析的意义和任务的意义和任务一、变量间的相互关系变量间的相互关系二、相关关系的类型二、相关关系的类型三、相关分析与回归分析三、相关分析与回归分析 一、变量间的相互关系一、变量间的相互关系 确定性的函数关系确定
5、性的函数关系 Y=f (X) 不确定性的统计关系相关关系相关关系 Y= f(X)+ (为随机变量) 没有关系没有关系 变量间关系的图形描述:变量间关系的图形描述: 坐标图(散点图) 相关关系的概念相关关系的概念 相关关系是现象间确实存在的,但相关关系数值不完全确定的相互依存关系。 相关关系是一种不完全的随机关系。在相关关系的情况下,因素标志的每个数值,都可能有若干个结果标志的数值。所以,相关关系是一种不完全的依存关系。如身高和体重,劳动生产率与工资水平、商品流转规模与流通费用水平等,它们之间没有完全严格确定的数量关系存在。二、相关关系的类型二、相关关系的类型 从涉及的变量数量变量数量看 简单相
6、关 多重相关(复相关) 从变量相关关系的表现形式表现形式看 线性线性相关散布图接近一条直线(左图) 非线性非线性相关散布图接近一条曲线(右图) 从变量相关关系变化的方向方向看正相关正相关变量同方向变化 A 同增同减 (A)(A)负相关负相关变量反方向变化 一增一减 (B)(B) B 从变量相关的程度看 完全相关 (B) 不完全相关 (A) C 不相关 (C) 相关关系的类型相关关系的类型相关分析与回归分析相关分析与回归分析回归的古典意义古典意义: 高尔顿遗传学的回归概念高尔顿遗传学的回归概念 父母身高与子女身高的关系父母身高与子女身高的关系: : 无论高个子或低个子的子女无论高个子或低个子的子
7、女 都有向人的平均身高回归的都有向人的平均身高回归的 趋势趋势回归的现代意义回归的现代意义一个因变量对若干解释变量依存关系的研究回归的目的回归的目的(实质)(实质): 由固定的自变量去估计因变量的平均值由固定的自变量去估计因变量的平均值估计因变估计因变量平均值量平均值 相关分析与回归分析的联系共同的研究对象:都是对变量间相关关系的分析只有当变量间存在相关关系时,用回归分析去寻求相关的具体数学形式才有实际意义相关分析只表明变量间相关关系的性质和程度,要确定变量间相关的具体数学形式依赖于回归分析 相关分析中相关系数的确定建立在回归分析的基础上相关与回归分析的主要内容相关与回归分析的主要内容1.确定
8、现象之间有无关系,以及相关关系的表现形式。其主要方法是绘制相关图表2.确定相关关系的密切程度。主要方法是计算相关系数。3.选择合适的数学模型。为了测定现象之间的数量变化上的一般关系,必须使用函数关系的数学公式作为相关关系的数学表达式。4.测定变量估计值的可靠程度.估计值和实际值是有出入的,确定因变量估计值误差程度大小的指标是估计标准误。估计标准误大,表明估计较不精确;估计标准误小,表明估计较精确。5.对相关系数进行显著检验。7 72 2 简单线性相关分析简单线性相关分析一、散布图和相关表一、散布图和相关表二、相关系数的测定与计算二、相关系数的测定与计算 相关表相关表 在统计中,制作相关表或相关
9、图,可以直观地判断现象之间大致呈现何种关系的形式。相关图表是相关分析的重要方法。例:有例:有8个企业生产某种产品,月产量和生产费用个企业生产某种产品,月产量和生产费用的资料如下:的资料如下:散布图散布图相关图 将现象之间的相关关系,通过图象来表示,这种图象称为相关图。相关图的绘制是在直角坐标中,以横轴表示 自变量,纵轴表示因变量,标出每对变量值的坐标点或散布点,表示其分布的状况。通过相关图, 可以大致看出两个变量之间有无相关关系及相关的形态、方向和密切程度。相关系数相关系数 通过X和Y 的样本观测值去估计样本相关变量X和Y的样本相关系数通常用r表示 特点:特点:样本相关系数是根据从总体中抽取的
10、随机样本 的观测值计算出来的,是对总体相关系数的估计,它是个随机变量。 XYryxxyr2其中, 称为协方差;x ,是 X的标准差;y ,是 y 的标准差。所以相关系数可表现为如下形式: r 2xynyy2)( 相关系数的特点:相关系数的特点: 相关系数的取值在-1与1之间。当r=0r=0时,表明X与Y没有线性相关关系。当 ,表明X与Y存在一定的线性相关关系:若 表明X与Y 为正相关; 若 表明X与Y 为负相关。当 时,表明X与Y完全线性相关: 若r=1,称X与Y完全正相关; 若r=1,称X与Y完全负相关。0r 0r 1r 10r相关系数的特点 1, 表明x与y为微弱相关。 2, 表明x与y为
11、低度相关。 3, 表明x与y为显著相关。 4, 表明x与y为高度相关。5 . 03 . 0 r 3 . 00 r8 . 05 . 0 r18 . 0 r使用相关系数的注意事项:使用相关系数的注意事项:1. X和Y 都是相互对称的随机变量.2. 相关系数只反映只反映变量间的线性相关程度,不能说明非线性相关关系。3. 相关系数不能确定变量的因果关系,也不能说明相关关系具体接近于哪条直线。XYYX单相关系数的检验单相关系数的检验 样本相关系数是随抽样而变动的随机变量,样本容量越小其可信程度就越差,相关系数的统计显著性还有待检验。相关系数的显著性检验可分为两类:一是对总体相关系数是否等于0进行检验,二