戴爾指數

戴爾指數（英語：Theil Index）又稱為泰爾指數^[1]，是一個衡量經濟不平等^[2]的統計量。它也曾經用來衡量其他社會不平等現象，如種族隔離^[3]^[4]^[5]。

戴爾指數主要是利用資訊理論中的資訊熵的概念導出的。戴爾指數等於資訊冗餘，也就是資料最大可能資訊熵減去觀測到的資訊熵，它是廣義熵指數（英語：generalized entropy index）的特例，可以被視為冗餘度、單樣性、不平等、非隨機性和可壓縮性的度量。^[5]

戴爾指數最早由荷蘭鹿特丹伊拉斯姆斯大學的計量經濟學家亨利·戴爾（英語：Henri Theil）（Henri Theil）所提出。^[5]

數學公式

假設一個人口為N的群體，其收入分別為x_i (i = 1,...,N)，則它的戴爾指數T定義為^[6]：

T_{T}=T_{\alpha =1}={\frac {1}{N}}\sum _{i=1}^{N}{\frac {x_{i}}{\mu }}\ln \left({\frac {x_{i}}{\mu }}\right)

而戴爾指數L則定義為

T_{L}=T_{\alpha =0}={\frac {1}{N}}\sum _{i=1}^{N}\ln \left({\frac {\mu }{x_{i}}}\right)

其中 $x_{i}$ 為第 $i$ 個人的收入， ${\mu }$ 為平均收入， $N$ 為人口數量。加總符號中的第一項可以理解為個人在總收入中所占的比例，第二項為該個人相對於均值的收入。

如果收入分布是個離散分布函數 f_k (k = 0,...,W)，其中f_k是收入為k的人口比例，而W = Nμ 代表總收入，可以得知 $\sum _{k=0}^{W}f_{k}=1$ 。它的戴爾指數T定義為：

T_{T}=\sum _{k=0}^{W}\,f_{k}\,{\frac {k}{\mu }}\ln \left({\frac {k}{\mu }}\right)

這裡的 $\mu$ 一樣是收入平均

\mu =\sum _{k=0}^{W}kf_{k}

其中應注意到收入k是一個整數，k=1代表最小收入增量（比如新台幣1元）。

如果收入分布是個連續分布函數f(k)，k取值0到無窮，其中f(k) dk 是收入為k 到 k + dk的人口數量，那戴爾指數T定義為：

T_{T}=\int _{0}^{\infty }f(k){\frac {k}{\mu }}\ln \left({\frac {k}{\mu }}\right)dk

其中平均 $\mu$ 為：

\mu =\int _{0}^{\infty }kf(k)\,dk

一些常見連續概率分佈的戴爾指數如下表所示：

收入分布函數	PDF(x) (x ≥ 0)	戴爾指數（納特）
狄拉克δ函數	$\delta (x-x_{0}),\,x_{0}>0$	0
連續型均勻分布	${\begin{cases}{\frac {1}{b-a}}&a\leq x\leq b\\0&{\text{otherwise}}\end{cases}}$	$\ln \left({\frac {2a}{(a+b){\sqrt {e}}}}\right)+{\frac {b^{2}}{b^{2}-a^{2}}}\ln(b/a)$
指數分布	$\lambda e^{-x\lambda },\,\,x>0$	$1-$ $\gamma$
對數常態分布	${\frac {1}{\sigma {\sqrt {2\pi }}}}e^{(-(\ln(x)-\mu )^{2})/\sigma ^{2}}$	${\frac {\sigma ^{2}}{2}}$
帕累托分布	${\begin{cases}{\frac {\alpha k^{\alpha }}{x^{\alpha +1}}}&x\geq k\\0&x<k\end{cases}}$	$\ln(1\!-\!1/\alpha )+{\frac {1}{\alpha -1}}$ (α>1)
卡方分布	${\frac {2^{-k/2}e^{-x/2}x^{k/2-1}}{\Gamma (k/2)}}$	$\ln(2/k)+$ $\psi ^{(0)}$ $(1\!+\!k/2)$
伽瑪分布	${\frac {e^{-x/\theta }x^{k-1}\theta ^{-k}}{\Gamma (k)}}$	$\psi ^{(0)}$ $(1+k)-\ln(k)$
韋伯分布	${\frac {k}{\lambda }}\left({\frac {x}{\lambda }}\right)^{k-1}e^{-(x/\lambda )^{k}}$	${\frac {1}{k}}$ $\psi ^{(0)}$ $(1+1/k)-\ln \left(\Gamma (1+1/k)\right)$

如果每一個人都有相同的收入，即等於均值，則指數為零。如果某個個人擁有所有的收入，則指數為 $\ln {N}$ 。T_T 除以 $\ln N$ 可以將方程歸一化到0到1的範圍，但這樣違反獨立公理（英語：Economic inequality metrics）: $T[x\cup x]\neq T[x]$ 並不符合衡量不平等的標準。

信息論推導

戴爾指數導自克勞德·夏農的信息熵，他的一般數學形式為：

S=k\sum _{i=1}^{N}\left(p_{i}\log {\frac {1}{p_{i}}}\right)=-k\sum _{i=1}^{N}\left(p_{i}\log {p_{i}}\right)

其中 $p_{i}$ 是從人群裡找到 $i$ 的機率。 $k$ 是玻爾茲曼常數。在信息論中，當信息以二進制數字給出時， $k=1$ 並且對數基底為2。在物理學和戴爾指數的計算中，選擇自然對數作為對數基底。當 $p_{i}$ 替換成人均收入 $x_{i}$ 時，需要除以總收入達到歸一化 $N{\overline {x}}$ 。那可以導出，觀察到的信息熵為：

S_{\text{Theil}}=\sum _{i=1}^{N}\left({\frac {x_{i}}{N{\overline {x}}}}\ln {\frac {N{\overline {x}}}{x_{i}}}\right)

設 $T$ 為戴爾指數， $S$ 為夏農熵，則有

$T=\ln(N)-S$

其中，ln(N)是理論最大熵。香濃根據事件發生概率導出的其熵測度。它可以用戴爾係數解釋為自某個特定個人處隨機取得一塊錢的概率。並與其第一項，即總收入中個人所占份額相同。

符號	信息論	戴爾指數 T_T
$N$	字符數	人口數
$i$	某個特定字符	某個特定人
$x_{i}$	第i個字符 character	第i個人的收入
$N{\overline {x}}$	總字符數	總收入
$T_{T}$	未被使用的資訊空間	未使用潛在價格機制

可分解性

戴爾指數的一個優點是它是某個子群體中不平等的加權和^[1]。例如，美國國內的不平等就是每個州的不平等的加權和，由該州收入相對於國家總收入的比值來加權。

如果人口被劃分為 $m$ 個子群體， $s_{k}$ 為群體 $k$ 的收入比例， $T_{k}$ 為該子群體的戴爾指數，而 ${\overline {x}}_{k}$ 為子群體 $k$ 的平均收入，則戴爾指數為

T=\sum _{k=1}^{m}s_{k}T_{T_{k}}+\sum _{k=1}^{m}s_{k}\ln {\frac {{\overline {x}}_{k}}{\overline {x}}}

因此，我們可以說某個特定群體給總體「貢獻了」一定數量的不平等。

另外一個被廣泛使用的不平等度量為基尼係數，該係數對於很多人來說由於基於勞倫茨曲線而非常直觀。但是它卻沒有戴爾指數容易分解。

參考文獻

^ ^1.0 ^1.1 徐淑娟. 中国经济发展中的行业收入差距问题研究. 西南財經大學出版社. 2018-02-01: 33–34 [2019-01-14]. ISBN 7550428530. （原始內容存檔於2019-06-05）（中文（中國大陸））.
^ Introduction to the Theil index from the University of Texas (PDF). [2006-01-15]. （原始內容存檔 (PDF)於2005-11-18）.
^ Diversity and Social Segregation. geodacenter.asu.edu. [2016-03-18]. （原始內容存檔於2012-07-10）.
^ Segregation Measures. www.urban.org. Urban Institute. [5 February 2018]. （原始內容存檔於2021-01-19）（英語）.
^ ^5.0 ^5.1 ^5.2 Parker, Lauren. Racial and Ethnic Segregation: In the News and On PolicyMap. PolicyMap. 20 July 2015 [5 February 2018]. （原始內容存檔於2019-06-08）.
^ Redundancy, Entropy and Inequality Measures. [2019-01-11]. （原始內容存檔於2020-10-23）（英語）.

外部連結

德克薩斯大學戴爾指數簡介（頁面存檔備份，存於網際網路檔案館）（英文）
試算表: 收入不平等指標#電子表格計算
免費在線計算器計算基尼係數，繪製洛倫茲曲線，並為任何數據集計算許多其他濃度測量值
Free Calculator: Online （頁面存檔備份，存於網際網路檔案館） and downloadable scripts (Python and Lua) for Atkinson, Gini, and Hoover inequalities
Users of the R （頁面存檔備份，存於網際網路檔案館） data analysis software can install the "ineq" package which allows for computation of a variety of inequality indices including Gini, Atkinson, Theil.
MATLAB 不平等包（頁面存檔備份，存於網際網路檔案館）。MATLAB不平等包，其中包括用於計算基尼，阿特金森，泰爾指數和標繪洛倫茨曲線的代碼

[中国经济发展中-1] 1.0 ^1.1 徐淑娟. 中国经济发展中的行业收入差距问题研究. 西南財經大學出版社. 2018-02-01: 33–34 [2019-01-14]. ISBN 7550428530. （原始內容存檔於2019-06-05）（中文（中國大陸））.

[2] Introduction to the Theil index from the University of Texas (PDF). [2006-01-15]. （原始內容存檔 (PDF)於2005-11-18）.

[3] Diversity and Social Segregation. geodacenter.asu.edu. [2016-03-18]. （原始內容存檔於2012-07-10）.

[4] Segregation Measures. www.urban.org. Urban Institute. [5 February 2018]. （原始內容存檔於2021-01-19）（英語）.

[policymap-5] 5.0 ^5.1 ^5.2 Parker, Lauren. Racial and Ethnic Segregation: In the News and On PolicyMap. PolicyMap. 20 July 2015 [5 February 2018]. （原始內容存檔於2019-06-08）.

[Formulas-6] Redundancy, Entropy and Inequality Measures. [2019-01-11]. （原始內容存檔於2020-10-23）（英語）.

[1]

[2]

[3]

[4]

[5]

[6]