戴尔指数

戴尔指数（英語：Theil Index）又稱為泰爾指數^[1]，是一个衡量经济不平等^[2]的统计量。它也曾經用來衡量其他社會不平等現象，如種族隔離^[3]^[4]^[5]。

戴尔指数主要是利用資訊理論中的資訊熵的概念導出的。戴尔指数等於資訊冗餘，也就是資料最大可能資訊熵減去觀測到的資訊熵，它是广义熵指数（英语：generalized entropy index）的特例，可以被視為冗餘度、單樣性、不平等、非隨機性和可壓縮性的度量。^[5]

戴尔指数最早由荷兰鹿特丹伊拉斯姆斯大學的计量经济学家亨利·戴尔（英语：Henri Theil）（Henri Theil）所提出。^[5]

数学公式

假設一個人口為N的群體，其收入分別為x_i (i = 1,...,N)，則它的戴爾指數T定義為^[6]：

T_{T}=T_{\alpha =1}={\frac {1}{N}}\sum _{i=1}^{N}{\frac {x_{i}}{\mu }}\ln \left({\frac {x_{i}}{\mu }}\right)

而戴爾指數L則定義為

T_{L}=T_{\alpha =0}={\frac {1}{N}}\sum _{i=1}^{N}\ln \left({\frac {\mu }{x_{i}}}\right)

其中 $x_{i}$ 为第 $i$ 个人的收入， ${\mu }$ 为平均收入， $N$ 为人口数量。加总符号中的第一项可以理解为个人在总收入中所占的比例，第二项为该个人相对于均值的收入。

如果收入分布是個離散分布函數 f_k (k = 0,...,W)，其中f_k是收入為k的人口比例，而W = Nμ 代表總收入，可以得知 $\sum _{k=0}^{W}f_{k}=1$ 。它的戴爾指數T定義為：

T_{T}=\sum _{k=0}^{W}\,f_{k}\,{\frac {k}{\mu }}\ln \left({\frac {k}{\mu }}\right)

這裡的 $\mu$ 一樣是收入平均

\mu =\sum _{k=0}^{W}kf_{k}

其中應注意到收入k是一個整數，k=1代表最小收入增量（比如新台幣1元）。

如果收入分布是個連續分布函數f(k)，k取值0到無窮，其中f(k) dk 是收入為k 到 k + dk的人口數量，那戴爾指數T定義為：

T_{T}=\int _{0}^{\infty }f(k){\frac {k}{\mu }}\ln \left({\frac {k}{\mu }}\right)dk

其中平均 $\mu$ 為：

\mu =\int _{0}^{\infty }kf(k)\,dk

一些常見連續概率分佈的戴尔指數如下表所示：

收入分布函數	PDF(x) (x ≥ 0)	戴尔指数（納特）
狄拉克δ函數	$\delta (x-x_{0}),\,x_{0}>0$	0
連續型均勻分布	${\begin{cases}{\frac {1}{b-a}}&a\leq x\leq b\\0&{\text{otherwise}}\end{cases}}$	$\ln \left({\frac {2a}{(a+b){\sqrt {e}}}}\right)+{\frac {b^{2}}{b^{2}-a^{2}}}\ln(b/a)$
指數分布	$\lambda e^{-x\lambda },\,\,x>0$	$1-$ $\gamma$
對數常態分布	${\frac {1}{\sigma {\sqrt {2\pi }}}}e^{(-(\ln(x)-\mu )^{2})/\sigma ^{2}}$	${\frac {\sigma ^{2}}{2}}$
帕累托分布	${\begin{cases}{\frac {\alpha k^{\alpha }}{x^{\alpha +1}}}&x\geq k\\0&x<k\end{cases}}$	$\ln(1\!-\!1/\alpha )+{\frac {1}{\alpha -1}}$ (α>1)
卡方分布	${\frac {2^{-k/2}e^{-x/2}x^{k/2-1}}{\Gamma (k/2)}}$	$\ln(2/k)+$ $\psi ^{(0)}$ $(1\!+\!k/2)$
伽瑪分布	${\frac {e^{-x/\theta }x^{k-1}\theta ^{-k}}{\Gamma (k)}}$	$\psi ^{(0)}$ $(1+k)-\ln(k)$
韋伯分布	${\frac {k}{\lambda }}\left({\frac {x}{\lambda }}\right)^{k-1}e^{-(x/\lambda )^{k}}$	${\frac {1}{k}}$ $\psi ^{(0)}$ $(1+1/k)-\ln \left(\Gamma (1+1/k)\right)$

如果每一个人都有相同的收入，即等于均值，则指数为零。如果某个个人拥有所有的收入，则指数为 $\ln {N}$ 。T_T 除以 $\ln N$ 可以將方程歸一化到0到1的範圍，但這樣違反獨立公理（英语：Economic inequality metrics）: $T[x\cup x]\neq T[x]$ 並不符合衡量不平等的標準。

信息論推導

戴尔指数导自克勞德·夏農的信息熵，他的一般數學形式為：

S=k\sum _{i=1}^{N}\left(p_{i}\log {\frac {1}{p_{i}}}\right)=-k\sum _{i=1}^{N}\left(p_{i}\log {p_{i}}\right)

其中 $p_{i}$ 是從人群裡找到 $i$ 的機率。 $k$ 是玻爾茲曼常數。在信息論中，當信息以二進制數字給出時， $k=1$ 並且對數基底為2。在物理學和戴爾指數的計算中，選擇自然對數作為對數基底。當 $p_{i}$ 替換成人均收入 $x_{i}$ 時，需要除以總收入達到歸一化 $N{\overline {x}}$ 。那可以導出，觀察到的信息熵為：

S_{\text{Theil}}=\sum _{i=1}^{N}\left({\frac {x_{i}}{N{\overline {x}}}}\ln {\frac {N{\overline {x}}}{x_{i}}}\right)

设 $T$ 为戴尔指数， $S$ 为夏農熵，则有

$T=\ln(N)-S$

其中，ln(N)是理論最大熵。香濃根据事件发生概率导出的其熵测度。它可以用戴尔系数解释为自某个特定个人处随机取得一块钱的概率。并与其第一项，即总收入中个人所占份额相同。

符號	信息論	戴爾指數 T_T
$N$	字符數	人口數
$i$	某個特定字符	某個特定人
$x_{i}$	第i個字符 character	第i個人的收入
$N{\overline {x}}$	總字符數	總收入
$T_{T}$	未被使用的資訊空間	未使用潛在價格機制

可分解性

戴尔指数的一个优点是它是某个子群体中不平等的加权和^[1]。例如，美国国内的不平等就是每个州的不平等的加权和，由该州收入相对于国家总收入的比值来加权。

如果人口被划分为 $m$ 个子群体， $s_{k}$ 为群体 $k$ 的收入比例， $T_{k}$ 为该子群体的戴尔指数，而 ${\overline {x}}_{k}$ 为子群体 $k$ 的平均收入，则戴尔指数为

T=\sum _{k=1}^{m}s_{k}T_{T_{k}}+\sum _{k=1}^{m}s_{k}\ln {\frac {{\overline {x}}_{k}}{\overline {x}}}

因此，我们可以说某个特定群体给总体“贡献了”一定数量的不平等。

另外一个被广泛使用的不平等度量为基尼系数，该系数对于很多人来说由于基于劳伦茨曲线而非常直观。但是它却没有戴尔指数容易分解。

參考文獻

^ ^1.0 ^1.1 徐淑娟. 中国经济发展中的行业收入差距问题研究. 西南財經大學出版社. 2018-02-01: 33–34 [2019-01-14]. ISBN 7550428530. （原始内容存档于2019-06-05）（中文（中国大陆））.
^ Introduction to the Theil index from the University of Texas (PDF). [2006-01-15]. （原始内容存档 (PDF)于2005-11-18）.
^ Diversity and Social Segregation. geodacenter.asu.edu. [2016-03-18]. （原始内容存档于2012-07-10）.
^ Segregation Measures. www.urban.org. Urban Institute. [5 February 2018]. （原始内容存档于2021-01-19）（英语）.
^ ^5.0 ^5.1 ^5.2 Parker, Lauren. Racial and Ethnic Segregation: In the News and On PolicyMap. PolicyMap. 20 July 2015 [5 February 2018]. （原始内容存档于2019-06-08）.
^ Redundancy, Entropy and Inequality Measures. [2019-01-11]. （原始内容存档于2020-10-23）（英语）.

外部連結

德克萨斯大学戴尔指数简介（页面存档备份，存于互联网档案馆）（英文）
試算表: 收入不平等指标#电子表格计算
免費在線計算器計算基尼係數，繪製洛倫茲曲線，並為任何數據集計算許多其他濃度測量值
Free Calculator: Online （页面存档备份，存于互联网档案馆） and downloadable scripts (Python and Lua) for Atkinson, Gini, and Hoover inequalities
Users of the R （页面存档备份，存于互联网档案馆） data analysis software can install the "ineq" package which allows for computation of a variety of inequality indices including Gini, Atkinson, Theil.
MATLAB 不平等包（页面存档备份，存于互联网档案馆）。MATLAB不平等包，其中包括用於計算基尼，阿特金森，泰爾指數和標繪洛倫茨曲線的代碼

[中国经济发展中-1] 1.0 ^1.1 徐淑娟. 中国经济发展中的行业收入差距问题研究. 西南財經大學出版社. 2018-02-01: 33–34 [2019-01-14]. ISBN 7550428530. （原始内容存档于2019-06-05）（中文（中国大陆））.

[2] Introduction to the Theil index from the University of Texas (PDF). [2006-01-15]. （原始内容存档 (PDF)于2005-11-18）.

[3] Diversity and Social Segregation. geodacenter.asu.edu. [2016-03-18]. （原始内容存档于2012-07-10）.

[4] Segregation Measures. www.urban.org. Urban Institute. [5 February 2018]. （原始内容存档于2021-01-19）（英语）.

[policymap-5] 5.0 ^5.1 ^5.2 Parker, Lauren. Racial and Ethnic Segregation: In the News and On PolicyMap. PolicyMap. 20 July 2015 [5 February 2018]. （原始内容存档于2019-06-08）.

[Formulas-6] Redundancy, Entropy and Inequality Measures. [2019-01-11]. （原始内容存档于2020-10-23）（英语）.

[1]

[2]

[3]

[4]

[5]

[6]