| | 回歸分析
regression analysis
方差齊性
綫性關係
效應纍加
變量無測量誤差
變量服從多元正態分佈
觀察獨立
模型完整(沒有包含不該進入的變量、也沒有漏掉應該進入的變量)
誤差項獨立且服從(0,1)正態分佈。
現實數據常常不能完全符合上述假定。因此,統計學家發展出許多的回歸模型來解决綫性回歸模型假定過強的約束。
研究一 個或多個隨機變量y1 ,y2 ,…,yi與另一些變量x1、x2,…,xk之間的關係的統計方法。又稱多重回歸分析。通常稱y1,y2,…,yi為因變量,x1、x2,…,xk為自變量。回歸分析是一類數學模型,特別當因變量和自變量為綫性關係時,它是一種特殊的綫性模型。最簡單的情形是一個自變量和一個因變量,且它們大體上有綫性關係,這叫一元綫性回歸,即模型為y=a+bx+ε,這裏x是自變量,y是因變量,ε是隨機誤差,通常假定隨機誤差的均值為0,方差為σ^2(σ^2大於0)σ2與x的值無關。若進一步假定隨機誤差遵從正態分佈,就叫做正態綫性模型。一般的情形,差有k個自變量和一個因變量,因變量的值可以分解為兩部分:一部分是由於自變量的影響,即表為自變量的函數,其中函數形式已知,但含一些未知參數;另一部分是由於其他未被考慮的因素和隨機性的影響,即隨機誤差。當函數形式為未知參數的綫性函數時,稱綫性回歸分析模型;當函數形式為未知參數的非綫性函數時,稱為非綫性回歸分析模型。當自變量的個數大於1時稱為多元回歸,當因變量個數大於1時稱為多重回歸。
回歸分析的主要內容為:①從一組數據出發確定某些變量之間的定量關係式,即建立數學模型並估計其中的未知參數。估計參數的常用方法是最小二乘法。②對這些關係式的可信程度進行檢驗。③在許多自變量共同影響着一個因變量的關係中,判斷哪個(或哪些)自變量的影響是顯著的,哪些自變量的影響是不顯著的,將影響顯著的自變量選入模型中,而剔除影響不顯著的變量,通常用逐步回歸、嚮前回歸和嚮後回歸等方法。④利用所求的關係式對某一生産過程進行預測或控製。回歸分析的應用是非常廣泛的,統計軟件包使各種回歸方法計算十分方便。 | | 回歸分析(regression analysis)是確定兩種或兩種以上變數間相互依賴的定量關係的一種統計分析方法。運用十分廣泛,回歸分析按照涉及的自變量的多少,可分為一元回歸分析和多元回歸分析;按照自變量和因變量之間的關係類型,可分為綫性回歸分析和非綫性回歸分析。如果在回歸分析中,衹包括一個自變量和一個因變量,且二者的關係可用一條直綫近似表示,這種回歸分析稱為一元綫性回歸分析。如果回歸分析中包括兩個或兩個以上的自變量,且因變量和自變量之間是綫性關係,則稱為多元綫性回歸分析。
方差齊性
綫性關係
效應纍加
變量無測量誤差
變量服從多元正態分佈
觀察獨立
模型完整(沒有包含不該進入的變量、也沒有漏掉應該進入的變量)
誤差項獨立且服從(0,1)正態分佈。
現實數據常常不能完全符合上述假定。因此,統計學家研究出許多的回歸模型來解决綫性回歸模型假定過程的約束。
研究一 個或多個隨機變量Y1 ,Y2 ,…,Yi與另一些變量X1、X2,…,Xk之間的關係的統計方法。又稱多重回歸分析。通常稱Y1,Y2,…,Yi為因變量,X1、X2,…,Xk為自變量。回歸分析是一類數學模型,特別當因變量和自變量為綫性關係時,它是一種特殊的綫性模型。最簡單的情形是一個自變量和一個因變量,且它們大體上有綫性關係,這叫一元綫性回歸,即模型為Y=a+bX+ε,這裏X是自變量,Y是因變量,ε是隨機誤差,通常假定隨機誤差的均值為0,方差為σ^2(σ^2大於0)σ2與X的值無關。若進一步假定隨機誤差遵從正態分佈,就叫做正態綫性模型。一般的情形,差有k個自變量和一個因變量,因變量的值可以分解為兩部分:一部分是由自變量的影響,即表示為自變量的函數,其中函數形式已知,但含一些未知參數;另一部分是由於其他未被考慮的因素和隨機性的影響,即隨機誤差。當函數形式為未知參數的綫性函數時,稱綫性回歸分析模型;當函數形式為未知參數的非綫性函數時,稱為非綫性回歸分析模型。當自變量的個數大於1時稱為多元回歸,當因變量個數大於1時稱為多重回歸。
回歸分析的主要內容為:①從一組數據出發確定某些變量之間的定量關係式,即建立數學模型並估計其中的未知參數。估計參數的常用方法是最小二乘法。②對這些關係式的可信程度進行檢驗。③在許多自變量共同影響着一個因變量的關係中,判斷哪個(或哪些)自變量的影響是顯著的,哪些自變量的影響是不顯著的,將影響顯著的自變量選入模型中,而剔除影響不顯著的變量,通常用逐步回歸、嚮前回歸和嚮後回歸等方法。④利用所求的關係式對某一生産過程進行預測或控製。回歸分析的應用是非常廣泛的,統計軟件包使各種回歸方法計算十分方便。 | | 相關分析研究的是現象之間是否相關、相關的方向和密切程度,一般不區別自變量或因變量。而回歸分析則要分析現象之間相關的具體形式,確定其因果關係,並用數學模型來表現其具體關係。比如說,從相關分析中我們可以得知“質量”和“用戶滿意度”變量密切相關,但是這兩個變量之間到底是哪個變量受哪個變量的影響,影響程度如何,則需要通過回歸分析方法來確定。
一般來說,回歸分析是通過規定因變量和自變量來確定變量之間的因果關係,建立回歸模型,並根據實測數據來求解模型的各個參數,然後評價回歸模型是否能夠很好的擬合實測數據;如果能夠很好的擬合,則可以根據自變量作進一步預測。
例如,如果要研究質量和用戶滿意度之間的因果關係,從實踐意義上講,産品質量會影響用戶的滿意情況,因此設用戶滿意度為因變量,記為Y;質量為自變量,記為X。根據圖8-3的散點圖,可以建立下面的綫性關係:
Y=A+BX+§
式中:A和B為待定參數,A為回歸直綫的截距;B為回歸直綫的斜率,表示X變化一個單位時,Y的平均變化情況;§為依賴於用戶滿意度的隨機誤差項。
在SPSS軟件裏可以很容易地實現綫性回歸,回歸方程如下:
y=0.857+0.836x
回歸直綫在y軸上的截距為0.857、斜率0.836,即質量每提高一分,用戶滿意度平均上升0.836分;或者說質量每提高1分對用戶滿意度的貢獻是0.836分。
740)this.width=740">
上面所示的例子是簡單的一個自變量的綫性回歸問題,在數據分析的時候,也可以將此推廣到多個自變量的多元回歸,具體的回歸過程和意義請參考相關的統計學書籍。此外,在SPSS的結果輸出裏,還可以匯報R2,F檢驗值和T檢驗值。R2又稱為方程的確定性係數(coefficient of determination),表示方程中變量X對Y的解釋程度。R2取值在0到1之間,越接近1,表明方程中X對Y的解釋能力越強。通常將R2乘以100%來表示回歸方程解釋Y變化的百分比。F檢驗是通過方差分析表輸出的,通過顯著性水平(significant level)檢驗回歸方程的綫性關係是否顯著。一般來說,顯著性水平在0.05以下,均有意義。當F檢驗通過時,意味着方程中至少有一個回歸係數是顯著的,但是並不一定所有的回歸係數都是顯著的,這樣就需要通過T檢驗來驗證回歸係數的顯著性。同樣地,T檢驗可以通過顯著性水平或查表來確定。在上面所示的例子中,各參數的意義如表8-2所示。
8-2 綫性回歸方程檢驗指標
顯著性水平
意義
R
0.89
“質量”解釋了89%的“用戶滿意度”的變化程度
F
276.82
0.001
回歸方程的綫性關係顯著
T
16.64
0.001
回歸方程的係數顯著
示例 SIM手機用戶滿意度與相關變量綫性回歸分析
我們以SIM手機的用戶滿意度與相關變量的綫性回歸分析為例,來進一步說明綫性回歸的應用。從實踐意義講上,手機的用戶滿意度應該與産品的質量、價格和形象有關,因此我們以“用戶滿意度”為因變量,“質量”、“形象”和“價格”為自變量,作綫性回歸分析。利用SPSS軟件的回歸分析,得到回歸方程如下:
用戶滿意度=0.008×形象+0.645×質量+0.221×價格
對於SIM手機來說,質量對其用戶滿意度的貢獻比較大,質量每提高1分,用戶滿意度將提高0.645分;其次是價格,用戶對價格的評價每提高1分,其滿意度將提高0.221分;而形象對産品用戶滿意度的貢獻相對較小,形象每提高1分,用戶滿意度僅提高0.008分。
方程各檢驗指標及含義如下:
指標
顯著性水平
意義
R2
0.89
“質量”和“形象”解釋了89%的“用戶滿意度”的變化程度
F
248.53
0.001
回歸方程的綫性關係顯著
T(形象)
0.00
1.000
“形象”變量對回歸方程幾乎沒有貢獻
T(質量)
13.93
0.001
“質量”對回歸方程有很大貢獻
T(價格)
5.00
0.001
“價格”對回歸方程有很大貢獻
從方程的檢驗指標來看,“形象”對整個回歸方程的貢獻不大,應予以刪除。所以重新做“用戶滿意度”與“質量”、“價格”的回歸方程如下:
用戶滿意度=0.645×質量+0.221×價格
對於SIM手機來說,質量對其用戶滿意度的貢獻比較大,質量每提高1分,用戶滿意度將提高0.645分;用戶對價格的評價每提高1分,其滿意度將提高0.221分(在本示例中,因為“形象”對方程幾乎沒有貢獻,所以得到的方程與前面的回歸方程係數差不多)。
方程各檢驗指標及含義如下:
指標
顯著性水平
意義
R
0.89
“質量”和“形象”解釋了89%的“用戶滿意度”的變化程度
F
374.69
0.001
回歸方程的綫性關係顯著
T(質量)
15.15
0.001
“質量”對回歸方程有很大貢獻
T(價格)
5.06
0.001
“價格”對回歸方程有很大貢獻 | | 由一個或一組非隨機變量來估計或預測某一個隨機變量的觀察值所建立的數學模型及所進行的統計分析,稱為回歸分析。 | | huigui fenxi
回歸分析
regression analysis
研究一個或多個隨機變量□1,□2,…,□□與另一些變量□1,□2,…,□□(普通變量或隨機變量)關係的統計方法。在某些問題中,諸□帶有“原因”的性質,故稱之為自變量;諸□帶有“結果”的性質,稱之為因變量。有時□與□之間並無明顯的因果關係,但仍沿用“自變量”、“因變量”的名稱,有時也稱諸□為“因素”,諸□為“指標”或“響應”。
最簡單的情況是□=□=1,且□1與□1大體上有綫性關係,這叫做一元綫性回歸(一元是指衹有一個自變量)。例如,以□記每畝的肥料施用量,□記小麥的每畝産量,在一定範圍內,可認為□與□之間大體上有綫性關係。由於□還受到其他大量的可預見和不可預見的因素的影響,更確切的是把Y 表為 Y=□+□□+□,這裏□是一隨機變量,常稱為隨機誤差。它反映了除肥料外,其他不可控製或未加控製的因素(如土壤肥力的不均勻、種田者在操作中的各種微小的差異等)的影響。通常假定隨機誤差的均值為0,方差□2>0,□2與□ 的值無關。若進一步假定□遵從正態分佈□(0,□2),就叫做正態綫性回歸模型。在上述模型中□、□都是未知參數,□ 稱為(Y 對□ 的)回歸係數,而□稱為常數項,它們的值由觀測樣本去估計。
一般,設有□個自變量□1,□2,…,□□和因變量□。例如,□1,□2,…,□□分別代表每畝施肥量、每畝播種量等,□代表每畝産量。則□的值可以分解為兩部分:一部分是由於□1,□2,…,□□的影響,表為□(□1,□2,…,□□;□1,□2,…,□□),□為已知函數,稱它為回歸函數。其中□1,□2,…,□□是由觀測數據估計的未知參數,如上例中的□與□。另一部分是由於其他未被考慮的因素和隨機性的影響,記為□,即隨機誤差。故一般的回歸模型有形式
□=□(□1,□2,…,□□;□1,□2,…,□□)+□。方程□=□(□1,□2,…,□□;□1,□2,…,□□),稱為理論回歸方程。通常,回歸方程可由所研究的問題的有關理論給出,也可以根據經驗數據和數學處理上的方便去選擇。最常用的形式是
□它是未知參數□0,…,□□的綫性函數,故稱為綫性回歸,□□稱為□□對□的綫性回歸係數,□=1,2,…,□。有些回歸方程可通過引進新自變量化為上述形式。例如,在回歸方程□=□+blog□中令 □□=log□,則方程化為□=□+□□□形式。另一類重要例子是多項式回歸。當不易從理論上確定回歸函數□的具體形式時,常采用 □1,□2,…,□□的多項式作為近似, 如□若引進新的自變量 □可把它化為如上的綫性回歸形式。因此綫性回歸是一類包羅很廣的模型。
當自變量的個數□>1時,稱為多元回歸;當因變量的個數□>1時,稱為多重回歸(見多元統計分析)。
回歸分析要解决的問題,一是根據試驗或觀測數據選定適當的回歸函數,或檢驗某種選定的回歸函數是否合用。二是對回歸函數中的未知參數□0,□1,…,□□進行估計。三是檢驗有關這些參數的假設。四是對隨機誤差□的影響程度進行估計,最常用的是估計□ 的方差□2。五是利用已建立的回歸方程進行預測和控製。
為估計未知參數,常用最小二乘法。設□與諸□的□組觀測值為
□作平方和
□找出□1,□2,…,□□的值□使 □ 達到極小,□□就是□□的最小二乘估計(□=1,2,…,□)。在模型為綫性時,使用□作為□2的估計,在□的情況下,最小二乘估計的表達式很容易求出。特別當□=1時,有
□
□式中 □ □
假設檢驗對綫性回歸□0 + □1□1 + □2□2 + … +□□□□最常考慮的檢驗問題是某些回歸係數為0,例如,對假設□進行檢驗。若□0 | | - : regression analysis
- n.: Analysis of regression
| | 術語 | 直綫 | 數學 | 分析學 | 定義 | 應用數學 | 經濟百科 | 數學模型 | 統計 | 測定方法 | 統計學 | 方法 | 百科大全 | 更多結果... |
| | 回歸分析法 | 復回歸分析 | 回歸分析模型 | 多元回歸分析 | 多重回歸分析 | 相關回歸分析 | 綫性回歸分析 | 逐步回歸分析 | 回歸分析預測法 | 非綫性回歸分析 | 多元綫性回歸分析 | 多元綫性回歸分析預測法 | |
|
|
|