誤差

維基百科，自由的百科全書

迴歸分析
統計學系列條目

模型
線性迴歸簡單線性迴歸普通最小平方法（OLS）多項式迴歸一般線性模型
廣義線性模式離散選擇（英語：Discrete choice）對數機率迴歸多項羅吉特（英語：Multinomial logit）混合羅吉特波比（英語：Probit model）多項式波比（英語：Multinomial probit）排序性模型（英語：Ordered logit）有序波比（英語：Ordered probit）卜瓦松迴歸
等級線性模型固定效應（英語：Fixed effects model）隨機效應（英語：Random effects model）混合模型（英語：Mixed model）
非線性迴歸非母數半母數穩健分位數迴歸保序迴歸主成分最小角局部（英語：Local regression）分段
含誤差變量（英語：Errors-in-variables models）
估計
最小平方法普通最小平方法線性偏最小平方迴歸母體（英語：Total least squares）廣義加權非線性非負（英語：Non-negative least squares）重複再加權（英語：Iteratively reweighted least squares）脊迴歸（嶺迴歸） LASSO
最小絕對值導數法（英語：Least absolute deviations）貝葉斯（英語：Bayesian linear regression）貝葉斯多元
背景
迴歸模型驗證（英語：Regression model validation）平均響應和預測響應（英語：Mean and predicted response）誤差和殘差適合度學生化殘差（英語：Studentized residual）高斯-馬可夫定理
機率與統計主題
閱論編

統計學和最佳化中，誤差（error）和殘差（residual）是兩個相近但有區別的概念，二者均是統計樣本中某一元素的觀測值（英語：observed value）與其「真值」（未必可直接觀測得到）之間的離差的度量。觀察的誤差是觀測值與相關量（例如母體平均值）的真值之間的差值。殘差是觀測值與統計量的估計值（例如樣本均值）之間的差值。這種區別在迴歸分析中至關重要，迴歸分析中，這些概念有時稱為迴歸誤差（regression errors）和迴歸殘差（regression residuals），它們引出了學生化殘差（英語：studentized residual）的概念。

計量經濟學中，誤差也稱為擾動（disturbances）。^[1]^[2]^[3]

簡介

假設有一系列取自單變量分布（英語：univariate distribution）的觀察結果，我們想要估計該分布的平均值。此時，誤差是觀測值與母體均值的偏差，而殘差是觀測值與樣本均值的偏差。

統計誤差（statistical error）是觀察值與其期望值的差異程度，而期望值基於隨機選擇統計單位的母體。例如，如果21歲男性的平均身高為1.75米，而隨機選出的一名男性身高為1.80米，則「誤差」為0.05米；如果隨機選出男性人身高1.70米，則「誤差」為-0.05 米。期望值是整個母體的均值，通常是無法觀測的，因此統計誤差也無從知曉。

而殘差（residual）是對無法觀測的統計誤差的可觀測估計。在上述的男性身高的例子中，假設我們隨機抽取n個人作為樣本。樣本均值可以很好地估計母體均值。此時：

樣本中每個人的身高與無法觀測的母體均值之間的差值是統計誤差，
樣本中每個人的身高與可觀測的樣本均值之間的差值是殘差。

注意，由於樣本均值的定義，隨機樣本內的殘差之和必然為零，因此殘差必然不是相互獨立的。而統計誤差是獨立的，它們在隨機樣本中的總和幾乎肯定不為零。

統計誤差（尤其是常態分布的）的數值可以用標準分數（或「z分數」）來標準化，而殘差可以用t統計量（英語：t-statistic），或更一般的學生化殘差（英語：studentized residuals）來標準化。

單變量分布

假定有一個均值為 $μ$ 、標準差為 $σ$ 的常態分布母體，從中隨機選擇個體，得到樣本：

X_{1},\dots ,X_{n}\sim N\left(\mu ,\sigma ^{2}\right)\,

其樣本均值為

{\overline {X}}={X_{1}+\cdots +X_{n} \over n}

它是一個隨機變數分布，服從：

{\overline {X}}\sim N\left(\mu ,{\frac {\sigma ^{2}}{n}}\right).

其統計誤差為：

e_{i}=X_{i}-\mu ,\,

其期望值為0，^[4]而殘差為：

r_{i}=X_{i}-{\overline {X}}.

統計誤差的平方和除以 $σ 2$ ，得到自由度為 $n$ 的卡方分布：

{\frac {1}{\sigma ^{2}}}\sum _{i=1}^{n}e_{i}^{2}\sim \chi _{n}^{2}.

然而，因為母體均值未知，這個數量是不可觀測的。但是，殘差的平方和是可觀測的。該總和除以 $σ 2$ 的商是 $n - 1$ 自由度的卡方分布：

{\frac {1}{\sigma ^{2}}}\sum _{i=1}^{n}r_{i}^{2}\sim \chi _{n-1}^{2}.

自由度為 $n$ 和 $n - 1$ 之間的區別是對母體（均值、變異數未知）的變異數估計值的貝塞爾校正（英語：Bessel's correction）。若母體均值已知，則無需進行校正。

參見

參考文獻

^ Kennedy, P. A Guide to Econometrics. Wiley. 2008: 576 [2022-05-13]. ISBN 978-1-4051-8257-7. （原始內容存檔於2022-07-12）.
^ Wooldridge, J.M. Introductory Econometrics: A Modern Approach. Cengage Learning. 2019: 57 [2022-05-13]. ISBN 978-1-337-67133-0. （原始內容存檔於2022-07-12）.
^ Das, P. Econometrics in Theory and Practice: Analysis of Cross Section, Time Series and Panel Data with Stata 15.1. Springer Singapore. 2019: 7 [2022-05-13]. ISBN 978-981-329-019-8. （原始內容存檔於2022-07-12）.
^ Wetherill, G. Barrie. Intermediate statistical methods. London: Chapman and Hall. 1981. ISBN 0-412-16440-X. OCLC 7779780.

Cook, R. Dennis; Weisberg, Sanford. Residuals and Influence in Regression. Repr. New York: Chapman and Hall. 1982 [23 February 2013]. ISBN 041224280X. （原始內容存檔於2022-04-06）.
Cox, David R.; Snell, E. Joyce. A general definition of residuals. Journal of the Royal Statistical Society, Series B. 1968, 30 (2): 248–275. JSTOR 2984505.
Weisberg, Sanford. Applied Linear Regression 2nd. New York: Wiley. 1985 [23 February 2013]. ISBN 9780471879572. （原始內容存檔於2022-07-12）.
Hazewinkel, Michiel (編), Errors, theory of, 数学百科全书, Springer, 2001, ISBN 978-1-55608-010-4

外部連結

維基共享資源上的相關多媒體資源：誤差

敘述統計學

連續變數機率分布

集中趨勢	平均數平方算術幾何調和算術-幾何幾何-調和希羅／平均數不等式中位數眾數
離散程度	全距變異係數百分位數四分位距四分位數標準差變異數平均差標準分數柴比雪夫不等式吉尼係數
分布形態（英語：Shape of the distribution）	中央極限定理動差偏態峰態

離散變數機率

次數（英語：Count data）
列聯表（英語：Contingency table）

推論統計學
和假說檢定

推論統計學	信賴區間區間估計顯著性差異元分析貝氏推論
實驗設計	母體抽樣重抽樣刀切法自助法交叉驗證重複（英語：Replication (statistics)）阻礙靈敏度和特異度區集（英語：Blocking (statistics)）缺失數據
樣本量（英語：Sample size）	標準誤虛無假說對立假說型一錯誤與型二錯誤檢定力效應值
常規估計	貝氏推論區間估計最大概似估計最小距離估計（英語：Minimum distance estimation）動差估計最大間距
假說檢定	Z檢定司徒頓t檢定 F檢定卡方檢定 Wald檢定（英語：Wald test）曼-惠特尼檢定（英語：Mann–Whitney U test）秩和檢定
生存分析	生存函數乘積極限估計量對數秩和檢定失效率危險比例模式

相關及
迴歸分析

相關性	干擾因素皮爾森積動差相關係數等級相關（英語：Rank correlation） (斯皮爾曼等級相關係數肯德等級相關係數（英語：Kendall tau rank correlation coefficient）) 自由度誤差和殘差
線性迴歸	線性模型（英語：Linear model）一般線性模型廣義線性模型簡單線性迴歸普通最小平方法貝葉斯迴歸（英語：Bayesian linear regression）變異數分析共變異數分析（英語：Analysis of covariance）
非線性迴歸	無母數迴歸模型（英語：Nonparametric regression）半參數迴歸模型（英語：Semiparametric regression）邏輯斯諦迴歸

其他

取自「https://zh.wikipedia.org/w/index.php?title=误差&oldid=78677250」

分類：

隱藏分類：