全參考圖像質量評估

全參考圖像質量評估（英語：Full Reference Image Quality Assessment, FR-IQA）是一種圖像質量評估的方法，是指在擁有理想質量的參考圖像的情況下，和測試圖像進行比較，分析測試圖像的失真程度，從而獲得測試圖像的質量評估結果。常用的評估方法主要基於像素統計、信號、結構。例如比較原始圖像和經由JPEG壓縮後圖像的失真程度。

基於圖像像素統計

基於圖像像素統計的基礎上，均方誤差和峰值信噪比為兩種較常使用的圖像質量評估方法。

均方誤差（MSE）

均方誤差是去計算預測值和實際觀測值間差的平方的均值。它只考慮誤差的平均大小，不考慮其方向，其被定義為:

MSE={\frac {1}{mn}}\sum _{i=0}^{m-1}\sum _{j=0}^{n-1}{[I(i,j)-K(i,j)]^{2}}

I

為測試圖像、

K

為參考圖像，

I(i,j)

為測試圖像中

pixel(i,j)

的值、

K(i,j)

為參考圖像中

pixel(i,j)

的值，

m

、

n

為圖像長寬的值

MSE 是衡量平均誤差的簡單方法， MSE 可以評估測試圖像和參考圖像的變化程度，MSE 的值越小，說明測試圖像失真程度較低。

峰值信噪比（PSNR）

峰值信噪比是一個表示信號最大可能功率和影響它的表示精度的破壞性雜訊功率的比值的工程術語。由於許多信號都有非常寬的動態範圍，峰值信噪比常用對數分貝單位來表示。其利用均方誤差進行定義:

PSNR=10\log _{10}{({\frac {{\rm {MAX}}_{I}^{2}}{MSE}})}=20\log _{10}{({\frac {{\rm {MAX}}_{I}}{\sqrt {MSE}}})}

其中的

MAX_{i}

為訊號的最大強度，在圖像中，若每個 pixel 以 8 為表示，則最大強度即為 255。

圖像壓縮中典型的峰值信噪比值在 30 到 40dB 之間，PSNR 的值愈高，表示 MSE 的值愈小，說明測試圖像失真程度較低。

基於信號基礎

由於 MSE 和 PSNR 在某些情況下不能精確地表示圖像質量，故Hamid R Sheikh和Alan Bovik等人提出了信號保真度和視覺信號保真度兩種基於信號基礎的算法

信號保真度（IFC）

信號保真度通過多尺度高斯混合模型（英語：Gaussian Scale Mixtures）對參考圖像進行統計所得，由於參考圖像在GSM模型中的系數有一定的特徵，所以只需要比較測試圖像在GSM模型中與參考圖樣在GSM模型中的共同信號，就可以得出圖像質量。

IFC 主要是針對高頻信號的波形特徵，而人眼對高頻信號敏感，對低頻較不敏感。經過實驗後發現 IFC 和人眼的結果非常相近

視覺信號保真度（VIF）

三維視覺環境的圖像和視頻都來自於自然場景（natural scene）。自然場景在所有可能的信號空間形成一個微小的子空間。VIF假設測試和參考圖像之間的共享訊息與視覺品質高度相關，並採用自然場景統計（NSS）模型結合失真模型來量化這種共享訊息。與基於人類視覺系統（HVS）錯誤敏感度和結構測量的先前方法相比，VIF在消息理論中被使用，且不需要任何HVS或其他觀察幾何參數，就能產生完全參考（FR）質量評估（QA）方法；VIF也不需要任何需要優化的常數，就能與現有的QA方法相競爭。

具體來說，參考圖像被建模後通過HVS通道，接着由大腦處理的隨機「自然」源輸出。參考圖像的資訊被量化為HVS頻道的輸入和輸出之間的相互資訊（mutual information），這是大腦可以從HVS輸出中提取的最理想資訊。然後讓相同的參考圖像通過失真通道，並對測量進行量化。將這兩個訊息組合，形成視覺質量與相對圖像信息相關聯的視覺信息保真度。

基於結構基礎

結構相似性是一種基於結構基礎上用來判斷圖像失真程度的方法。

自然圖像是高度結構化的，也就是說在自然圖像中相鄰像素之間有很強的關聯性，而這樣的關聯性承載了場景中物體的結構資訊。人類視覺系統在觀看影像時已經很習慣抽取這樣的結構性資訊。因此，結構相似性在圖像質量評估中更符合人眼對圖像質量的判斷。給定兩張圖像 $x$ 、 $y$ ，SSIM 定義為:

SSIM(x,y)=[l(x,y)]^{\alpha }[c(x,y)]^{\beta }[s(x,y)]^{\gamma }

，其中

l(x,y)={\frac {2\mu _{x}\mu _{y}+C_{1}}{\mu _{x}^{2}+\mu _{y}^{2}+C_{1}}}

，

c(x,y)={\frac {2\sigma _{x}\sigma _{y}+C_{2}}{\sigma _{x}^{2}+\sigma _{y}^{2}+C_{2}}}

，

s(x,y)={\frac {2\sigma _{xy}+C_{3}}{\sigma _{x}\sigma _{y}+C_{3}}}

$l(x,y)$ 比較 $x$ 和 $y$ 的亮度， $c(x,y)$ 比較 $x$ 和 $y$ 的對比， $s(x,y)$ 比較 $x$ 和 $y$ 的結構。 $\alpha >0$ ， $\beta >0$ ， $\gamma >0$ ，為調整 $l(x,y)$ 、 $c(x,y)$ 、 $s(x,y)$ 的參數。

$\mu _{x}$ 和 $\mu _{y}$ 、 $\sigma _{x}$ 和 $\sigma _{y}$ 分別為 $x$ 、 $y$ 的平均值和標準差， $\sigma _{xy}$ 為 $x$ 、 $y$ 的協方差， $C_{1}$ 、 $C_{2}$ 、 $C_{3}$ 為用來維持穩定的常數

SSIM的範圍為0~1 。SSIM 的值愈趨近 1 ，表示兩張圖像愈相似，測試圖像失真程度愈低；SSIM 的值愈趨近 0，表示兩張圖像愈不相似，測試圖像失真程度愈高。當兩張圖像相同時，SSIM 的值為 1。

參考資料

參見