過適

在統計學中，過適（英語：overfitting，或稱擬合過度）是指過於緊密或精確地匹配特定資料集，以致於無法良好地擬合其他資料或預測未來的觀察結果的現象。^[1]過擬合模型指的是相較有限的數據而言，參數過多或者結構過於複雜的統計模型。^[2]發生過擬合時，模型的偏差小而方差大。過擬合的本質是訓練算法從統計噪聲中不自覺獲取了信息並表達在了模型結構的參數當中。^[3]^:45相較用於訓練的資料總量來說，一個模型只要結構足夠複雜或參數足夠多，就總是可以完美地適應資料的。過適一般可以視為違反奧卡姆剃刀原則。

與過擬合相對應的概念是欠擬合（英語：underfitting，或稱：擬合不足）；它是指相較於數據而言，模型參數過少或者模型結構過於簡單，以至於無法捕捉到數據中的規律的現象。發生欠擬合時，模型的偏差大而方差小。

在機器學習或人工神經網路中，過擬合與欠擬合有時也被稱為「過訓練（英語：overtraining）」和「欠訓練（英語：undertraining）」。

之所以存在過擬合的可能，是因為選擇模型的標準和評價模型的標準是不一致的。舉例來說，選擇模型時往往是選取在訓練數據上表現最好的模型；但評價模型時則是觀察模型在訓練過程中不可見數據上的表現。當模型嘗試「記住」訓練數據而非從訓練數據中學習規律時，就可能發生過擬合。一般來說，當參數的自由度或模型結構的複雜度超過資料所包含資訊內容時，擬合後的模型可能使用任意多的參數，這會降低或破壞模型泛化的能力。

在統計學習和機器學習中，為了避免或減輕過適現象，須要使用額外的技巧（如模型選擇、交叉驗證、提前停止、正則化、剪枝、貝葉斯信息量準則、赤池信息量準則或dropout）。在treatment learning中，使用最小最佳支援值（英語：minimum best support value）來避免過適。^{[來源請求]}這些方法大致可分為兩類：1. 對模型的複雜度進行懲罰，從而避免產生過於複雜的模型；2. 在驗證數據上測試模型的效果，從而模擬模型在實際工作環境的數據上的表現。

機器學習

機器學習模型的典型產出過程是由機器學習算法在訓練集上進行訓練，希望得到的模型能夠在訓練過程中不可見的驗證集上表現良好。過擬合現象發生在使用違反奧卡姆剃刀原則的模型或算法時：當引入相較數據集而言過多的參數時，或使用相較數據集而言過於複雜的模型時。

假設有一個訓練集，其基準真相 $y$ 可以用一個二元線性函數很好地預測出來。顯而易見，該函數只有3個參數：一個截距，兩個斜率。將該函數替換成更為複雜的二次函數或更多元的線性函數的風險在於：奧卡姆剃刀表明，相較於給定的簡單函數，任何給定的複雜函數的預測都更不可靠。^[4]^:358如果最終選擇了複雜函數而非簡單函數；並且在擬合訓練數據時相較簡單函數，複雜函數帶來的收益沒有抵消模型複雜度的增加，那麼複雜函數就過擬合了數據。此時，儘管複雜函數在訓練集上的表現與簡單函數相同甚至更好，但在訓練數據之外的驗證數據上的表現，複雜函數可能會更糟糕。^[5]

在確定模型複雜度時，簡單地計算各模型中參數的數量是不可靠的，還需要考慮參數的表達方式。舉例來說，直接比較帶有 $m$ 個參數的神經網絡（它能夠跟蹤非線性關係）和帶有 $n$ 個參數的回歸模型是非平凡的。^[5]

過擬合尤其容易在訓練迭代次數相對有限訓練樣本過多的時候。此時，模型會擬合訓練數據中特徵的隨機噪聲，而這些與目標函數之間並無因果關係。在這種過擬合的過程中，模型在訓練樣本上的效果會持續提升，但在訓練中不可見的數據（通常是驗證集）上的效果會變得更差。舉個簡單的例子：假設有一個數據集，其中包含了零售的物品、買家、購買日期、購買時間。人們很容易在這個數據集上構造模型，來根據購買日期和購買時間預測其他屬性；但該模型在新數據上沒有任何泛化性能，因為過去的時間再也不會出現了。

概括地說，機器學習算法在已知數據上很精確但在新數據上不精確的情形，可以稱之為過擬合。人們可以這樣在直覺上理解過擬合：「過去的經驗可被分為兩個部分：與將來有關的數據、與將來無關的數據（噪聲）」。在其他條件都相同的情況下，預測的難度越大（不確定性越高），則過去信息中需要被當做噪聲忽略的部分就越多。問題的難點在於，如何確定哪些數據應當被忽略。

能夠避免擬合噪聲的機器學習算法是健壯的算法。

後果

過擬合最顯著的後果就是在驗證集上的效果很差；其他後果羅列如下：^[5]

相較擬合恰當的模型而言，擬合過度的模型傾向於從驗證集的每個樣本中獲取更多信息；收集這些不必要的信息可能代價是高昂的，或者具有錯誤傾向的。當這些信息需要人工觀察或者標註時，這種代價尤其明顯。
擬合過度的複雜模型相較簡單模型的可移植性更差。極端地說，一元線性回歸模型可移植性非常好，甚至，但凡必要時，甚至可以用徒手進行計算。另一方面，極端複雜的模型只能在原始數據集上復現，這給模型的重用和理論研究的復現帶來了困難。

擴展閱讀

偏差-方差權衡（英語：Bias–variance tradeoff）
曲線擬合
數據清洗
特徵選擇
Freedman悖論（英語：Freedman's paradox）
泛化誤差
擬合程度（英語：Goodness of fit）
Life-time of correlation（英語：Life-time of correlation）
模型選擇
奧卡姆剃刀
VC dimension（英語：VC dimension）

參考文獻

^ OxfordDictionaries.com中overfitting （頁面存檔備份，存於網際網路檔案館）的統計學定義。
^ Everitt B.S., Skrondal A. (2010), Cambridge Dictionary of Statistics, Cambridge University Press.
^ Burnham, K. P.; Anderson, D. R., Model Selection and Multimodel Inference 2nd, Springer-Verlag, 2002 . (This has over 44000 citations on Google Scholar.)
^ Francesco Pezzella， Mahvash Tavassoli， David Kerr. Oxford Textbook of Cancer Biology. Oxford University Press.
^ ^5.0 ^5.1 ^5.2 Hawkins, Douglas M. (2004), "The problem of overfitting", Journal of Chemical Information and Modeling, 44.1: 1–12.

外部連結

http://www.cs.sunysb.edu/~skiena/jaialai/excerpts/node16.html （頁面存檔備份，存於網際網路檔案館）
過度訓練（頁面存檔備份，存於網際網路檔案館）（英文）
偏差方差權衡與過擬合（頁面存檔備份，存於網際網路檔案館）（中文）

[1] OxfordDictionaries.com中overfitting （頁面存檔備份，存於網際網路檔案館）的統計學定義。

[CDS-2] Everitt B.S., Skrondal A. (2010), Cambridge Dictionary of Statistics, Cambridge University Press.

[BA2002-3] Burnham, K. P.; Anderson, D. R., Model Selection and Multimodel Inference 2nd, Springer-Verlag, 2002 . (This has over 44000 citations on Google Scholar.)

[OTCB-4] Francesco Pezzella， Mahvash Tavassoli， David Kerr. Oxford Textbook of Cancer Biology. Oxford University Press.

[hawkins-5] 5.0 ^5.1 ^5.2 Hawkins, Douglas M. (2004), "The problem of overfitting", Journal of Chemical Information and Modeling, 44.1: 1–12.

[1]

[2]

[3]

[4]

[5]