多元统计思考题及答案



《多元统计思考题及答案》由会员分享,可在线阅读,更多相关《多元统计思考题及答案(13页珍藏版)》请在文档大全上搜索。
1、多元统计分析思考题第一章 回归分析1、回归分析是怎样的一种统计方法,用来解决什么问题?答:回归分析作为统计学的一个重要分支,基于观测数据建立变量之间的某种依赖关系,用来分析数据的内在规律,解决预报、控制方面的问题。2、线性回归模型中线性关系指的是什么变量之间的关系?自变量与因变量之间一定是线性关系形式才能做线性回归吗?为什么?答:线性关系是用来描述自变量x与因变量y的关系;但是反过来如果自变量与因变量不一定要满足线性关系才能做回归,原因是回归方程只是一种拟合方法,如果自变量和因变量存在近似线性关系也可以做线性回归分析。3、实际应用中,如何设定回归方程的形式?答:通常分为一元线性回归和多元线性回
2、归,随机变量y受到p个非随机因素x1、x2、x3xp和随机因素的影响,形式为: 是p+1个未知参数,是随机误差,这就是回归方程的设定形式。4、多元线性回归理论模型中,每个系数(偏回归系数)的含义是什么?答:偏回归系数是p+1个未知参数,反映的是各个自变量对随机变量的影响程度。5、经验回归模型中,参数是如何确定的?有哪些评判参数估计的统计标准?最小二乘估计法有哪些统计性质?要想获得理想的参数估计值,需要注意一些什么问题?答:经验回归方程中参数是由最小二乘法来来估计的;评判标准有:普通最小二乘法、岭回归、主成分分析、偏最小二乘法等; 最小二乘法估计的统计性质:其选择参数满足正规方程组, (1)选择
3、参数分别是模型参数的无偏估计,期望等于模型参数; (2)选择参数是随机变量y的线性函数 要想获得理想的参数估计,必须注意由于方差的大小表示随机变量取值的波动性大小,因此自变量的波动性能够影响回归系数的波动性,要想使参数估计稳定性好,必须尽量分散地取自变量并使样本个数尽可能大。6、理论回归模型中的随机误差项的实际意义是什么?为什么要在回归模型中加入随机误差项?建立回归模型时,对随机误差项作了哪些假定?这些假定的实际意义是什么?答:随机误差项的引入使得变量之间的关系描述为一个随机方程,由于因变量y很难用有限个因素进行准确描述说明,故其代表了人们的认识局限而没有考虑到的偶然因素。7、建立自变量与因变
4、量的回归模型,是否意味着他们之间存在因果关系?为什么?答:不是,因果关系是由变量之间的内在联系决定的,回归模型的建立只是一种定量分析手段,无法判断变量之间的内在联系,更不能判断变量之间的因果关系。8、回归分析中,为什么要作假设检验?检验依据的统计原理是什么?检验的过程是怎样的?答:因为即使我们已经建立起了模型,但是尚且不知这个回归方程是否能够比较好地反映所描述的变量之间的影响关系,必须进行统计学上的假设检验; 假设性检验原理可以用小概率原理解释,通常认为小概率事件在一次试验中几乎不可能发生的,即对总体的某个假设是真实的,那么不支持这一个假设事件在一次试验中是几乎不可能发生的,要是这个事件发生了
5、,我们就有理由怀疑这一假设的真实性,拒绝原假设; 检验过程:(1)提出统计假设H0和H1;(2)构造一个与H0相关的统计量,称其为检验统计量;(3)根据其显著性水平的值,确定一个拒绝域;(4)作出统计决断;9、回归诊断可以大致确定哪些问题?回归分析有哪些基本假定?如果实际应用中不满足这些假定,将可能引起怎样的后果?如何检验实际应用问题是否满足这些假定?对于各种不满足假定的情形,分别采用哪些改进方法?答:回归诊断解决: (1)回归方程的线性假定; (2)是否存在多重共线性; (3)误差项的正态性假定; (4)误差项的独立性假设; (5)误差项同方差假定; (6)是否存在数据异常; 原基本假定H:
6、 (1)假设回归方程不显著; (2)假设回归系数不显著; 引起后果:与模型误差相比,自变量对因变量的影响是不重要的(模型误差太大、自变量对y的影响确实太小)。 如何检验:用F统计量或者P值法来检验方程的显著性; 改进方法: (1)对于模型的误差太大,我们要想办法缩小误差,检查是否漏掉了重要的自变量,或检查自变量与y的非线性关系; (2)对于自变量对y影响较小,此时应该放弃回归分析方法。 10、回归分析中的R2有何意义?它能用来衡量模型优劣吗?答:R2是回归平方和与总离差平方和之比,作为评判一个模型拟合度的标准,称为样本决定系数,其值越接近1,意味着模型的拟合优度越高。但是其不是衡量模型优劣唯一
7、标准,增加自变量会使得自由度减少,因此需要引入自由度修正的复相关系数。这些都需要视具体的情况而定。 11、如何确定回归分析中变量之间的交互作用?存在交互作用时,偏回归系数的意义与不存在交互作用的情形下是否相同?为什么?答:交互作用是指因素之间联合搭配对试验指标的影响作用,存在交互作用是,偏回归系数肯定与不存在是的系数不同,毕竟变量之间有相互影响的关系。12、有哪些确定最优回归模型的准则?如何选择回归变量?答:(1)修正的复相关系数达到最大; (2)预测平方和达到最小; (3)定义Cp统计量值小,选择小的回归方程; (4)赤池信息量达到最小; 按照以上准则进行回归变量的选择。13、在怎样的情况下
8、需要建立标准化的回归模型?标准化回归模型与非标准化模型有何关系?形式有否不同?答:在多元线性回归分析中,由于涉及到的变量量纲不同,差别很大,需要对变量进行中心化和标准化,数据中心化处理相当于将坐标原点移至样本中心坐标系的平移不改变直线的斜率;标准化处理后建立的回归方程模型比非标准化的回归方程少一个常数项,系数存在关系。14、利用回归方法解决实际问题的大致步骤是怎样的?答:(1)根据预测目标,确定自变量和因变量; (2)建立回归预测模型; (3)进行相关分析; (4)检验回归预测模型,计算预测误差; (5)计算并确定预测值。15、你能够利用哪些软件实现进行回归分析?能否解释全部的软件输出结果?答
9、:目前会用的软件是SPSS和matlab,关于地球物理的软件如grapher也可以进行回归分析。对于SPSS的一些输出结果,还是不太理解。第二章 判别分析1、判别分析的目的是什么?答:在自然科学和社会科学研究中,研究对象用某种方法已经划分为若干类别,当得到一个新的样本数据时,要确定该样本属于已知的哪一类。2、有哪些常用的判别分析方法?这些方法的基本原理或步骤是怎样的?它们各有什么特点或优劣之处?答:(1)距离判别法:根据已知分类数据,分别计算各类的重心,即是分类的均值;判别方法是对于任意一个样品,若它与第i类的重心距离最近,就认为它来自第i类;特点是对各类数据分布并无特定的要求 (2)Fish
10、er判别法:其基本思想是投影,将k组m元数据投影到某一个方向,使得投影后组与组之间尽可能分开,其中利用了一元方差分析的思想导出判别函数;其特点是对总体的分布没有特殊要求,是处理概率分布未知的一种方法。 (3)逐步判别法:逐步引入一个“最重要”的变量进入判别式,同时对先引入判别式的一些变量进行检验,如果判别能力随着引入新变量而变得不显著,则将它从判别式中剔除,直到没有新的变量能够进入,依然没有旧变量需要剔除为止。3、判别分析与回归分析有何异同之处?答:(1)相同点:这两种方法都有关于数据预测的功能; 不同点:这个估计太多了,一般来讲判别分析功能是将样品归类,回归分析是探究样品对因变量的变动影响。
11、4、判别分析对变量与样本规模有何要求?答:判别分析对总体分布没有要求,但是判别分析的假设之一是要求每一个变量不能是其他判别变量的线性组合,即不能存在多重共线性。5、如何度量判别效果?有哪些影响判别效果的因素?答:通过评价判别准则来度量判别效果,常用方法: (1)误判率回代法; (2)误判率交叉确认估计; 影响因素是个总体之间的差异程度,各个总体之间差异越大,就越有可能建立有效的判别准则,如果差异太小,则判别分析的意义不大;当各个总体服从多元正态分布,我们可以根据各总体的均值向量是否相等进行统计检验。当然也可以检验各总体的协方差矩阵是否相等来采用判别函数。6、逐步判别是如何选择判别变量的?基本思