2.1 多元线性回归模型及其参数估计2.2 多元线性回归的显著性检验2.3 利用多元线性回归方程进行预测2.4 解释变量的选择2.5 多重共线性2.6 预测实例 第二章 多重回归分析法 2.1 多元线性回归模型及其参数估计 一、线性回归模型的一般形式 如果因变量(被解释变量)与各自变量(解释变量)之间有线性相关关系,那么它们之间的线性总体回归模型可以表示为: 对每一组观测值 非随机表达式 可见,多元回归分析是以多个解释变量的固定值为条件的回归分析,表示各解释变量X值固定时Y的平均响应. 也被称为偏回归系数,表示在其他解释变量保持不变的情况下, 每变化1个单位时,引起的因变量的平均变动量.或者说 给出 单位变化对Y均值的"直接"或"净"(不含其他变量)影响. 写成矩阵形式为: 其中 实际上,在多元线性回归分析中,比一元线性回归分析增加了一个假设条件,即自变量之间不存在线性关系. 二、多元回归模型的基本假定 (1) (2) 等方差性 (3) 无序列相关 (4) (5)进一步假定 (6) 各自变量之间不存在显著相关关系 即 其中 是 阶单位方阵 预测模型 是观测值与预测值(回归值)之间的离差 用最小二乘法估计回归参数 考虑 使 分别求 关于 的偏导数,并令其为零 三、参数估计方法—最小二乘估计 整理得正规方程组 其矩阵形式为 解得 所以多元线性回归方程的矩阵形式为 一元回归的参数估计是多元回归参数估计的特例. 根据: 四、最小二乘估计量(OLSE)的统计性质 其中, 是 主对角线上的元素. 可以证明, 具有最小方差的特性.(证明略) 与一元线性回归相比, 元线性回归的参数估计量也 有类似的性质.例如: 都是 的线性组合; 分别是 的无偏估计; 等.且 和一元线性回归类似有平方和分解 五、随机误差项的方差的估计量 从而 的无偏估计为 它的算术方根称为估计标准误差,记为: 此时,估计量的标准差可表示为: 是 主对角线上的元素(j=0,1,…,k). 六、回归系数的置信区间 由于 故可得的置信度为 的置信区间为: 统计软件自动给出各回归系数的上下限 七、例2.1 已知某地区的相关数据如右表所示,试求该回归方程.解:使用Eviews实现回归,得到的方程为 这说明,该地区收入每增加1万元,消费增加0.497万元,人口每增加1万人消费增加0.665万元. 56.98 54.8 36 2005 56.16 48.5 31.3 2004 55.35 35.8 25.3 2003 54.55 30.1 21.8 2002 53.69 28.1 20.1 2001 53.76 24.2 17.7 2000 51.84 20.9 16.2 1999 51.02 16.4 13.4 1998 50.25 14.8 10.6 1997 49.54 13.8 10 1996 48.9 13.9 9.5 1995 48.2 13.1 9 1994 人口 收入 消费 年份 2.2 多元线性回归的显著性检验 一、经济检验二、拟合优度检验三、回归方程的显著性检验四、回归系数的显著性检验五、序列相关检验 一、经济检验(逻辑检验) 1. 检验内容:参数估计值的符号和大小是否与经济理论和经济实际相符合. 2. 回归系数的估计值与实际相反的原因 (1)某些变量的取值范围太窄; (2)模型中遗漏了某些重要因素; (3)模型中自变量之间有较强的线性关系. 二、拟合优度检验 1.判定系数 与修正判定系数 判定系数的大小还取决于包含在模型中的自变量的个数. 在样本容量一定得情况下,增加解释变量必定使得自由度减少,所以调整的思路是将残差平方和与总离差平方和分别除以各自的自由度,以剔除变量个数对拟合优度的影响.记为调整的可决系数. 其中n-k-1为残差平方和的自由度,n-1为总离差平方和的自由度.显然,如果增加的解释变量没有解释能力,则对残差平方和的减少没有多大帮助,却增加待估参数的个数,从而使 有较大幅度的下降. 2.修正判定系数 的计算 注: (1)如果k=0,则(2)如果k>0,则(3) 有可能为负值. 三、回归方程的显著性检验 检验内容:检验因变量和所有自变量的线性关系. 2. 建立原假设和备择假设: 3. 构造统计量 4. 在显著性水平 条件下的临界值 5. 判断:如果采用样本数据计算的结果 , 则拒绝原假设,认为因变量和该自变量之间的线性关系显著. F检验通不过的可能原因 (1)选择自变量时漏掉了某些有重要影响 的因素; (2)自变量与因变量的关系是非线性的. 四、回归系数的显著性检验 检验内容:检验因变量和每个自变量的线性关系. 2. 建立原假设和备择假设: 3. 构造统计量 4.在显著性水平 条件下的临界值 5.判断:如果采用样本数据计算的结果 , 则拒绝原假设,认为因变量和该自变量之间的线性关系显著. t检验通不过的可能原因 (1)选择的自变量对因变量事实上并无显著影响; (2)选择的自变量具有多重共线性. 五、序列相关检验(DW检验) 检验内容:检验随机误差项的无序列相关假设 是否成立. 2. 方法:与一元回归相同. 六、多元回归的显著性检验小结拟合优度的检验需要采用修正判定系数;回归方程的显著性检验和回归系数的显著性检验不再一致,需要分别进行;序列相关检验与一元回回归是一致的. 七、续例2.2,给定显著性水平 ,进行检验解:根据运行结果(1)方程的拟合优度较高;(2)方程通过显著性检验;(4)回归系数的显著性检验 ,均大于临界值3.201,所以回归系数均显著.(3)在2附近,不存在序列相关. 2.3 利用多元线性回归方程进行预测 一、点预测当给定自变量的某一特定值为对因变量进行点估计为用矩阵表示为 .二、区间预测 给定置信水平 ,置信区间为其中, 是自由度为年n-k-1的t分布临界值. 2.4 解释变量的选择 一、因素分析 因素分析是一种定性分析.它是预测时选择自变量的第一步.凭借对预测对象的熟悉、了解,分析找到影响预测对象的所有因素,从中选择. 二、简单相关分析 分别计算预测对象与各影响因素的简单相关系数,选择那些与预测对象相关程度高者作为自变量. 三、逐个剔除法(后退法) 首先将与预测对象有关的全部因素引入方程,建立模型,然后依据每个回归系数的t值大小,逐个剔除那些不显著的变量,直到模型中包含的变量都是影响预测对象的显著因素为止. (1)当不显著的变量较多时,不能同时剔除,要从最小的那个系数所对应的变量开始逐一删除. 注意: (2)删除一个变量后腰观察其他统计量的变化,如果有所改善,认为剔除是适宜的;否则应保留在模型中. 四、前进法 1、基本思想:由少到多,每次增加一个自变量,直至没有可引入的变量为止. 2. 具体做法: (1)对于全部k个自变量,分别对因变量Y建立k个一元线性回归方程,并分别计算这k个一元回归方程回归系数的t值,选择最显著的一个引入. (2)因变量Y分别与 ,建立k-1个二元线性回归方程,对这k-1个回归方程中的回归系数 进行t检验,选择最显著的一个引入. (3)依上述方法接着做下去.直至所有未被引入方程的自变量t检验通过不了时,得到的回归方程就是最终确定的方程. 五、 逐步回归法 基本思想:有进有出. 2.具体做法 将变量一个一个引入,引入变量的条件是其t统计量经检验是显著的.即每引入一个自变量后,对已经被选入的变量要进行逐个检验,当原引入的变量由于后面变量的引入而变得不再显著时,要将其剔除. 这个过程反复进行,直到既无显著的自变量选入,也无不显著自变量从回归方程中剔除为止.这样就保证了最后所得的回归子集是"最优"回归子集. 尽管数学方法对变量的正确选择可能有一些帮助,但在处理具体问题时,变量的正确选择在根本上还是要依赖于所研究问题本身的专业知识和实践经验. 当应用某种准则和方法选出的"最优"变量组明显地与实际问题本身的专业理论不一致时,需要首先重新考虑我们的统计结论. 不能把自变量选择方法看成僵死的"教条"机械搬用. 2.5 多重共线性 多重共线性即自变量之间的线性约束,是由两个或更多个自变量具有高度线性相关而致. 如在居民家庭的消费支出回归分析中,选择家庭收入、家庭储蓄及家庭人口,这三个自变量之间也表现为较高度的相关. 一、多重共线性出现的原因 (1)各经济变量之间存在内在联系 如生产函数表示为 Q表示产值,K是资金,L是劳动. 一般来说大企业有雄厚的资金和充足的劳动力,而小企业的资金和劳动力都较小.这说明资金和劳动力之间有内在的联系.因而存在多重共线性. (2)各经济变量在时间上有共同增长的趋势 经济、人民群众收入、消费支出、储蓄 (3)在建模时引入了一些解释变量的滞后值作为新的解释变量. 如,在研究消费函数时,不仅把现期收入而且把上期的收入都作为解释变量,这就明显地出现多重共线性. 二、多重共线性的基本性质 1、改变回归系数 以两个自变量完全相关为例 如果 , 则即最小二乘法,回归系数 当和完全相关时,显然, . 不存在,回归系数也不存在. 不存在,回归系数也不存在. 当和不是完全相关,而是高度相关时, 接近于零.这时 B表现出不确定性. 多重共线性的存在,改变了回归系数b,并因此使其标准差增大,以致使该参数的t检验通不过. 有兴趣参阅p57 2-D 当多重共线性存在时,任何一个自变量的回归系数,依赖于包括在模型中的其他自变量.所以,回归系数并不反映方程中任何一具体自变量对因变量的影响. 2、不降低模型的拟合能力 回归方程的F检验和拟合优度R2,在某种意义上都反映变量Y与诸X之间的线性回归关系,或者说反映回归模型对因变量实际观测值的拟合能力. 多重共线性的存在不妨碍这种拟合能力. 3、对回归平方和的影响 存在多重共线性时,一个自变量引起总离差的减少必须看作是与包括在同一方程中的其他自变量相关连. 因此,没有一个唯一的平方和能属于某一自变量作为反映Y总离差的减少. 同一回归方程中,二个自变量不相关时,一个自变量在降低剩余平方和中的边际作用和它单独在该方程中的作用完全相等. 三、多重共线性的识别和消除 预测时,遇到下列情况往往表明有多重共线性的存在. 1、回归模型的F检验通过,而有的回归系数的t检验未通过. 2、模型中增加或删除一个自变量,回归系数的估计值有较大的变化. 3、回归系数估计值的符号与实际经验判断的相反. 4、简单相关系数矩阵中,两个自变量之间的相关系数值较大.通常,简单相关系数r>0.7,应考虑有多重共线性存在. 消除共线性最简单的办法是:删除共线性组中自变量与因变量的简单相关系数最小者. 消除多重共线性是采用最小二乘估计所必须得. 2.6 预测实例 影响因素: 预测对象:蔬菜销售量 消费人口 蔬菜年平均价格 瓜果年人均消费量 副食年人均消费量 粮食年人均消费量 人均月生活费收入