誤差
統計學系列條目 |
迴歸分析 |
---|
模型 |
估計 |
背景 |
統計學和最佳化中,誤差(error)和殘差(residual)是兩個相近但有區別的概念,二者均是統計樣本中某一元素的觀測值與其「真值」(未必可直接觀測得到)之間的離差的度量。觀察的誤差是觀測值與相關量(例如總體平均值)的真值之間的差值。殘差是觀測值與統計量的估計值(例如樣本均值)之間的差值。這種區別在迴歸分析中至關重要,迴歸分析中,這些概念有時稱為迴歸誤差(regression errors)和迴歸殘差(regression residuals),它們引出了學生化殘差的概念。
計量經濟學中,誤差也稱為擾動(disturbances)。[1][2][3]
簡介
[編輯]假設有一系列取自單變量分佈的觀察結果,我們想要估計該分佈的平均值。此時,誤差是觀測值與總體均值的偏差,而殘差是觀測值與樣本均值的偏差。
統計誤差(statistical error)是觀察值與其期望值的差異程度,而期望值基於隨機選擇統計單位的總體。例如,如果21歲男性的平均身高為1.75米,而隨機選出的一名男性身高為1.80米,則「誤差」為0.05米;如果隨機選出男性人身高1.70米,則「誤差」為-0.05 米。期望值是整個總體的均值,通常是無法觀測的,因此統計誤差也無從知曉。
而殘差(residual)是對無法觀測的統計誤差的可觀測估計。在上述的男性身高的例子中,假設我們隨機抽取n個人作為樣本。樣本均值可以很好地估計總體均值。此時:
- 樣本中每個人的身高與無法觀測的總體均值之間的差值是統計誤差,
- 樣本中每個人的身高與可觀測的樣本均值之間的差值是殘差。
注意,由於樣本均值的定義,隨機樣本內的殘差之和必然為零,因此殘差必然不是相互獨立的。而統計誤差是獨立的,它們在隨機樣本中的總和幾乎肯定不為零。
統計誤差(尤其是正態分佈的)的數值可以用標準分數(或「z分數」)來標準化,而殘差可以用t統計量,或更一般的學生化殘差來標準化。
單變量分佈
[編輯]假定有一個均值為μ、標準差為σ的正態分佈總體,從中隨機選擇個體,得到樣本:
其樣本均值為
它是一個隨機變量分佈,服從:
其統計誤差為:
統計誤差的平方和除以σ2,得到自由度為n的卡方分佈:
然而,因為總體均值未知,這個數量是不可觀測的。但是,殘差的平方和是可觀測的。該總和除以σ2的商是n - 1自由度的卡方分佈:
自由度為n和n - 1之間的區別是對總體(均值、方差未知)的方差估計值的貝塞爾校正。若總體均值已知,則無需進行校正。
參見
[編輯]參考文獻
[編輯]- ^ Kennedy, P. A Guide to Econometrics. Wiley. 2008: 576 [2022-05-13]. ISBN 978-1-4051-8257-7. (原始內容存檔於2022-07-12).
- ^ Wooldridge, J.M. Introductory Econometrics: A Modern Approach. Cengage Learning. 2019: 57 [2022-05-13]. ISBN 978-1-337-67133-0. (原始內容存檔於2022-07-12).
- ^ Das, P. Econometrics in Theory and Practice: Analysis of Cross Section, Time Series and Panel Data with Stata 15.1. Springer Singapore. 2019: 7 [2022-05-13]. ISBN 978-981-329-019-8. (原始內容存檔於2022-07-12).
- ^ Wetherill, G. Barrie. Intermediate statistical methods. London: Chapman and Hall. 1981. ISBN 0-412-16440-X. OCLC 7779780.
- Cook, R. Dennis; Weisberg, Sanford. Residuals and Influence in Regression. Repr. New York: Chapman and Hall. 1982 [23 February 2013]. ISBN 041224280X. (原始內容存檔於2022-04-06).
- Cox, David R.; Snell, E. Joyce. A general definition of residuals. Journal of the Royal Statistical Society, Series B. 1968, 30 (2): 248–275. JSTOR 2984505.
- Weisberg, Sanford. Applied Linear Regression 2nd. New York: Wiley. 1985 [23 February 2013]. ISBN 9780471879572. (原始內容存檔於2022-07-12).
- Hazewinkel, Michiel (編), Errors, theory of, 数学百科全书, Springer, 2001, ISBN 978-1-55608-010-4