统计 : 物理学类 : 地质 : 统计学 : 农业 : 财经 : 财会 : 应用社会学 > 回归分析
目录
No. 1
  回归分析
  regression analysis
  方差齐性
  线性关系
  效应累加
  变量无测量误差
  变量服从多元正态分布
  观察独立
  模型完整(没有包含不该进入的变量、也没有漏掉应该进入的变量)
  误差项独立且服从(0,1)正态分布。
  现实数据常常不能完全符合上述假定。因此,统计学家发展出许多的回归模型来解决线性回归模型假定过强的约束。
  研究一 个或多个随机变量y1 ,y2 ,…,yi与另一些变量x1、x2,…,xk之间的关系的统计方法。又称多重回归分析。通常称y1,y2,…,yi为因变量,x1、x2,…,xk为自变量。回归分析是一类数学模型,特别当因变量和自变量为线性关系时,它是一种特殊的线性模型。最简单的情形是一个自变量和一个因变量,且它们大体上有线性关系,这叫一元线性回归,即模型为y=a+bx+ε,这里x是自变量,y是因变量,ε是随机误差,通常假定随机误差的均值为0,方差为σ^2(σ^2大于0)σ2与x的值无关。若进一步假定随机误差遵从正态分布,就叫做正态线性模型。一般的情形,差有k个自变量和一个因变量,因变量的值可以分解为两部分:一部分是由于自变量的影响,即表为自变量的函数,其中函数形式已知,但含一些未知参数;另一部分是由于其他未被考虑的因素和随机性的影响,即随机误差。当函数形式为未知参数的线性函数时,称线性回归分析模型;当函数形式为未知参数的非线性函数时,称为非线性回归分析模型。当自变量的个数大于1时称为多元回归,当因变量个数大于1时称为多重回归。
  回归分析的主要内容为:①从一组数据出发确定某些变量之间的定量关系式,即建立数学模型并估计其中的未知参数。估计参数的常用方法是最小二乘法。②对这些关系式的可信程度进行检验。③在许多自变量共同影响着一个因变量的关系中,判断哪个(或哪些)自变量的影响是显著的,哪些自变量的影响是不显著的,将影响显著的自变量选入模型中,而剔除影响不显著的变量,通常用逐步回归、向前回归和向后回归等方法。④利用所求的关系式对某一生产过程进行预测或控制。回归分析的应用是非常广泛的,统计软件包使各种回归方法计算十分方便。
回归分析
  回归分析(regression analysis)是确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法。运用十分广泛,回归分析按照涉及的自变量的多少,可分为一元回归分析和多元回归分析;按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。如果在回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析
  方差齐性
  线性关系
  效应累加
  变量无测量误差
  变量服从多元正态分布
  观察独立
  模型完整(没有包含不该进入的变量、也没有漏掉应该进入的变量)
  误差项独立且服从(0,1)正态分布。
  现实数据常常不能完全符合上述假定。因此,统计学家研究出许多的回归模型来解决线性回归模型假定过程的约束。
  研究一 个或多个随机变量Y1 ,Y2 ,…,Yi与另一些变量X1、X2,…,Xk之间的关系的统计方法。又称多重回归分析。通常称Y1,Y2,…,Yi为因变量,X1、X2,…,Xk为自变量。回归分析是一类数学模型,特别当因变量和自变量为线性关系时,它是一种特殊的线性模型。最简单的情形是一个自变量和一个因变量,且它们大体上有线性关系,这叫一元线性回归,即模型为Y=a+bX+ε,这里X是自变量,Y是因变量,ε是随机误差,通常假定随机误差的均值为0,方差为σ^2(σ^2大于0)σ2与X的值无关。若进一步假定随机误差遵从正态分布,就叫做正态线性模型。一般的情形,差有k个自变量和一个因变量,因变量的值可以分解为两部分:一部分是由自变量的影响,即表示为自变量的函数,其中函数形式已知,但含一些未知参数;另一部分是由于其他未被考虑的因素和随机性的影响,即随机误差。当函数形式为未知参数的线性函数时,称线性回归分析模型;当函数形式为未知参数的非线性函数时,称为非线性回归分析模型。当自变量的个数大于1时称为多元回归,当因变量个数大于1时称为多重回归。
  回归分析的主要内容为:①从一组数据出发确定某些变量之间的定量关系式,即建立数学模型并估计其中的未知参数。估计参数的常用方法是最小二乘法。②对这些关系式的可信程度进行检验。③在许多自变量共同影响着一个因变量的关系中,判断哪个(或哪些)自变量的影响是显著的,哪些自变量的影响是不显著的,将影响显著的自变量选入模型中,而剔除影响不显著的变量,通常用逐步回归、向前回归和向后回归等方法。④利用所求的关系式对某一生产过程进行预测或控制。回归分析的应用是非常广泛的,统计软件包使各种回归方法计算十分方便。
回归分析的应用
  相关分析研究的是现象之间是否相关、相关的方向和密切程度,一般不区别自变量或因变量。而回归分析则要分析现象之间相关的具体形式,确定其因果关系,并用数学模型来表现其具体关系。比如说,从相关分析中我们可以得知“质量”和“用户满意度”变量密切相关,但是这两个变量之间到底是哪个变量受哪个变量的影响,影响程度如何,则需要通过回归分析方法来确定。
  一般来说,回归分析是通过规定因变量和自变量来确定变量之间的因果关系,建立回归模型,并根据实测数据来求解模型的各个参数,然后评价回归模型是否能够很好的拟合实测数据;如果能够很好的拟合,则可以根据自变量作进一步预测。
  例如,如果要研究质量和用户满意度之间的因果关系,从实践意义上讲,产品质量会影响用户的满意情况,因此设用户满意度为因变量,记为Y;质量为自变量,记为X。根据图8-3的散点图,可以建立下面的线性关系:
  Y=A+BX+§
  式中:A和B为待定参数,A为回归直线的截距;B为回归直线的斜率,表示X变化一个单位时,Y的平均变化情况;§为依赖于用户满意度的随机误差项。
  在SPSS软件里可以很容易地实现线性回归,回归方程如下:
  y=0.857+0.836x
  回归直线在y轴上的截距为0.857、斜率0.836,即质量每提高一分,用户满意度平均上升0.836分;或者说质量每提高1分对用户满意度的贡献是0.836分。
  740)this.width=740">
  上面所示的例子是简单的一个自变量的线性回归问题,在数据分析的时候,也可以将此推广到多个自变量的多元回归,具体的回归过程和意义请参考相关的统计学书籍。此外,在SPSS的结果输出里,还可以汇报R2,F检验值和T检验值。R2又称为方程的确定性系数(coefficient of determination),表示方程中变量X对Y的解释程度。R2取值在0到1之间,越接近1,表明方程中X对Y的解释能力越强。通常将R2乘以100%来表示回归方程解释Y变化的百分比。F检验是通过方差分析表输出的,通过显著性水平(significant level)检验回归方程的线性关系是否显著。一般来说,显著性水平在0.05以下,均有意义。当F检验通过时,意味着方程中至少有一个回归系数是显著的,但是并不一定所有的回归系数都是显著的,这样就需要通过T检验来验证回归系数的显著性。同样地,T检验可以通过显著性水平或查表来确定。在上面所示的例子中,各参数的意义如表8-2所示。
  表8-2 线性回归方程检验指标
  显著性水平
  意义
  R
  0.89
  “质量”解释了89%的“用户满意度”的变化程度
  F
  276.82
  0.001
  回归方程的线性关系显著
  T
  16.64
  0.001
  回归方程的系数显著
  示例 SIM手机用户满意度与相关变量线性回归分析
  我们以SIM手机的用户满意度与相关变量的线性回归分析为例,来进一步说明线性回归的应用。从实践意义讲上,手机的用户满意度应该与产品的质量、价格和形象有关,因此我们以“用户满意度”为因变量,“质量”、“形象”和“价格”为自变量,作线性回归分析。利用SPSS软件的回归分析,得到回归方程如下:
  用户满意度=0.008×形象+0.645×质量+0.221×价格
  对于SIM手机来说,质量对其用户满意度的贡献比较大,质量每提高1分,用户满意度将提高0.645分;其次是价格,用户对价格的评价每提高1分,其满意度将提高0.221分;而形象对产品用户满意度的贡献相对较小,形象每提高1分,用户满意度仅提高0.008分。
  方程各检验指标及含义如下:
  指标
  显著性水平
  意义
  R2
  0.89
  “质量”和“形象”解释了89%的“用户满意度”的变化程度
  F
  248.53
  0.001
  回归方程的线性关系显著
  T(形象)
  0.00
  1.000
  “形象”变量对回归方程几乎没有贡献
  T(质量)
  13.93
  0.001
  “质量”对回归方程有很大贡献
  T(价格)
  5.00
  0.001
  “价格”对回归方程有很大贡献
  从方程的检验指标来看,“形象”对整个回归方程的贡献不大,应予以删除。所以重新做“用户满意度”与“质量”、“价格”的回归方程如下:
  用户满意度=0.645×质量+0.221×价格
  对于SIM手机来说,质量对其用户满意度的贡献比较大,质量每提高1分,用户满意度将提高0.645分;用户对价格的评价每提高1分,其满意度将提高0.221分(在本示例中,因为“形象”对方程几乎没有贡献,所以得到的方程与前面的回归方程系数差不多)。
  方程各检验指标及含义如下:
  指标
  显著性水平
  意义
  R
  0.89
  “质量”和“形象”解释了89%的“用户满意度”的变化程度
  F
  374.69
  0.001
  回归方程的线性关系显著
  T(质量)
  15.15
  0.001
  “质量”对回归方程有很大贡献
  T(价格)
  5.06
  0.001
  “价格”对回归方程有很大贡献
经济百科
  由一个或一组非随机变量来估计或预测某一个随机变量的观察值所建立的数学模型及所进行的统计分析,称为回归分析
百科辞典
  huigui fenxi
  回归分析
  regression analysis
  研究一个或多个随机变量□1,□2,…,□□与另一些变量□1,□2,…,□□(普通变量或随机变量)关系的统计方法。在某些问题中,诸□带有“原因”的性质,故称之为自变量;诸□带有“结果”的性质,称之为因变量。有时□与□之间并无明显的因果关系,但仍沿用“自变量”、“因变量”的名称,有时也称诸□为“因素”,诸□为“指标”或“响应”。  
  最简单的情况是□=□=1,且□1与□1大体上有线性关系,这叫做一元线性回归(一元是指只有一个自变量)。例如,以□记每亩的肥料施用量,□记小麦的每亩产量,在一定范围内,可认为□与□之间大体上有线性关系。由于□还受到其他大量的可预见和不可预见的因素的影响,更确切的是把Y 表为 Y=□+□□+□,这里□是一随机变量,常称为随机误差。它反映了除肥料外,其他不可控制或未加控制的因素(如土壤肥力的不均匀、种田者在操作中的各种微小的差异等)的影响。通常假定随机误差的均值为0,方差□2>0,□2与□ 的值无关。若进一步假定□遵从正态分布□(0,□2),就叫做正态线性回归模型。在上述模型中□、□都是未知参数,□ 称为(Y 对□ 的)回归系数,而□称为常数项,它们的值由观测样本去估计。
  一般,设有□个自变量□1,□2,…,□□和因变量□。例如,□1,□2,…,□□分别代表每亩施肥量、每亩播种量等,□代表每亩产量。则□的值可以分解为两部分:一部分是由于□1,□2,…,□□的影响,表为□(□1,□2,…,□□;□1,□2,…,□□),□为已知函数,称它为回归函数。其中□1,□2,…,□□是由观测数据估计的未知参数,如上例中的□与□。另一部分是由于其他未被考虑的因素和随机性的影响,记为□,即随机误差。故一般的回归模型有形式
   □=□(□1,□2,…,□□;□1,□2,…,□□)+□。方程□=□(□1,□2,…,□□;□1,□2,…,□□),称为理论回归方程。通常,回归方程可由所研究的问题的有关理论给出,也可以根据经验数据和数学处理上的方便去选择。最常用的形式是
   □它是未知参数□0,…,□□的线性函数,故称为线性回归,□□称为□□对□的线性回归系数,□=1,2,…,□。有些回归方程可通过引进新自变量化为上述形式。例如,在回归方程□=□+blog□中令 □□=log□,则方程化为□=□+□□□形式。另一类重要例子是多项式回归。当不易从理论上确定回归函数□的具体形式时,常采用 □1,□2,…,□□的多项式作为近似, 如□若引进新的自变量 □可把它化为如上的线性回归形式。因此线性回归是一类包罗很广的模型。
  当自变量的个数□>1时,称为多元回归;当因变量的个数□>1时,称为多重回归(见多元统计分析)。
  回归分析要解决的问题,一是根据试验或观测数据选定适当的回归函数,或检验某种选定的回归函数是否合用。二是对回归函数中的未知参数□0,□1,…,□□进行估计。三是检验有关这些参数的假设。四是对随机误差□的影响程度进行估计,最常用的是估计□ 的方差□2。五是利用已建立的回归方程进行预测和控制。
  为估计未知参数,常用最小二乘法。设□与诸□的□组观测值为
     □作平方和
  □找出□1,□2,…,□□的值□使 □ 达到极小,□□就是□□的最小二乘估计(□=1,2,…,□)。在模型为线性时,使用□作为□2的估计,在□的情况下,最小二乘估计的表达式很容易求出。特别当□=1时,有
  □
  □式中 □ □
  假设检验对线性回归□0 + □1□1 + □2□2 + … +□□□□最常考虑的检验问题是某些回归系数为0,例如,对假设□进行检验。若□0
英文解释
  1. :  regression analysis
  2. n.:  Analysis of regression
相关词
术语直线数学分析学定义应用数学经济百科数学模型
统计测定方法统计学方法百科大全更多结果...
包含词
回归分析法复回归分析回归分析模型
多元回归分析多重回归分析相关回归分析
线性回归分析逐步回归分析回归分析预测法
非线性回归分析多元线性回归分析多元线性回归分析预测法