可对角化矩阵

线性代数
	向量 · 向量空间 · 基底 · 行列式 · 矩阵
向量
	标量 · 向量 · 向量空间 · 向量投影 · 外积（向量积 · 七维向量积） · 内积（数量积） · 二重向量
矩阵与行列式
	矩阵 · 行列式 · 线性方程组 · 秩 · 核 · 跡 · 單位矩陣 · 初等矩阵 · 方块矩阵 · 分块矩阵 · 三角矩阵 · 非奇异方阵 · 转置矩阵 · 逆矩阵 · 对角矩阵 · 可对角化矩阵 · 对称矩阵 · 反對稱矩陣 · 正交矩阵 · 幺正矩阵 · 埃尔米特矩阵 · 反埃尔米特矩阵 · 正规矩阵 · 伴随矩阵 · 余因子矩阵 · 共轭转置 · 正定矩阵 · 幂零矩阵 · 矩阵分解（LU分解 · 奇异值分解 · QR分解 · 极分解 · 特征分解） · 子式和余子式 · 拉普拉斯展開 · 克罗内克积
线性空间与线性变换
	线性空间 · 线性变换 · 线性子空间 · 线性生成空间 · 基 · 线性映射 · 线性投影 · 線性無關 · 线性组合 · 线性泛函 · 行空间与列空间 · 对偶空间 · 正交 · 特征向量 · 最小二乘法 · 格拉姆-施密特正交化
	查; 论; 编;

可对角化矩阵是可化簡為对角矩阵的方阵。矩阵對角化后大幅降低了某些属性的計算難度，比如其行列式就是对角線上所有數字的乘積，而对角線上的數字就是其特征值。

可對角化也使该线性变换的几何意义更直觀，因為每個线性变换都可以對應到一個矩陣，所以将矩阵对角化等價於找到一组基底，使的线性变换的作用僅僅是伸缩基底向量而已。類似的，若用对角矩阵表示差分方程组或者微分方程组的係數的話，這樣每條等式只含有一個未知函数，這樣也大幅度了化簡了方程式的難度。

若尔当-谢瓦莱分解表达一个算子为它的对角部分与它的幂零部分的和。

正式定義

定義 — $A\in K^{n\times n}$ 是一個定義在标量域 $K$ 上的 $n$ 階方阵，若存在一个 $n$ 階的可逆方阵 $P\in K^{n\times n}$ 使得

P^{-1}AP

是对角矩阵，则 $A$ 就被称为可对角化的。

可對角化的線性映射

定義 — $V$ 與 $W$ 是定義在同個标量域 $K$ 上，且維度相等的向量空间，若存在 $V$ 的某基底 ${\mathfrak {B}}_{V}$ 和 $W$ 的某基底 ${\mathfrak {B}}_{W}$ ，使线性映射 $T:V\to W$ 對應的矩阵 $\mathbf {T} ={[T]}_{{\mathfrak {B}}_{W}}^{{\mathfrak {B}}_{V}}$ 是對角的，那线性映射 $T$ 也會被稱為可对角化的。

特征化

关于可对角化映射和矩阵的基本事实可表达为如下:

在域 F 上的 n × n 矩阵 A 是可对角化的，当且仅当它的特征空间的和的维度等于 n，它为真当且仅当存在由 A 的特征向量组成的 Fⁿ 的基。如果找到了这样的基，可以形成有基向量作为纵列的矩阵 P，而 P^-1AP 将是对角矩阵。这个矩阵的对角元素是 A 的特征值。
线性映射 T : V → V 是可对角化的，当且仅当它的特征空间的维度等于 dim(V)，它为真当且仅当存在由 T 的特征向量组成的 V 的基。T 关于这个基将表示为对角矩阵。这个矩阵的对角元素是 T 的特征值。

另一个特征化: 矩阵或线性映射在域 F 上可对角化的，当且仅当它的极小多项式在 F 上有不同的线性因子。

下列充分(但非必要)条件经常是有用的。

n × n 矩阵 A 只在域 F 上可对角化的，如果它在 F 中有 n 个不同的特征值，就是说，如果它的特征多项式在 F 中有 n 个不同的根。
线性映射 T : V → V 带有 n=dim(V) 是可对角化的，如果它有 n 个不同的特征值，就是说它的特征多项式在 F 中有 n 个不同的根。

作为经验规则，在复数域 C 上几乎所有矩阵都是可对角化的。更精确地说: 在 C 上不可对角化的复数 n × n 矩阵的集合被当作 C^n×n 的子集，它是关于勒贝格测度的零集。也可以说可对角化矩阵形成了关于扎里斯基拓扑的稠密子集 : 补位于特征多项式的判别式变为零的集合内，後者是超平面。从中得出的还有在平常的(强拓扑)中密度由范数给出。

对于 R 域就不是这样了。随着 n 增长，随机选择的实数矩阵是在 R 上可对角化的可能性越来越小。

例子

可对角化矩阵

对合在实数上(甚至特征不是 2 的任何域)是可对角化的，带有 1 和 -1 在对角线上。
有限阶自同态(包括对合)是在复数，或域的特征不整除自同态的阶的任何代数闭合域(因为单位一的根是不同的)是可对角化的，带有单位根在对角线上。这是循环群的表示理论的一部分。
投影是可对角化的，带有 0 和 1 在对角线上。

非可对角化的矩阵

某些矩阵在任何域上都是不可对角化的，最著名的是幂零矩阵。如果特征值的几何重次和代数重次不一致，这会更一般的出现。例如考虑

C={\begin{bmatrix}0&1\\0&0\end{bmatrix}}

这个矩阵是不可对角化的: 没有矩阵 U 使得 $U^{-1}CU$ 是对角矩阵。实际上，C 有一个特征值(就是零)而这个特征值有代数重次 2 和几何重次 1。

某些实数矩阵在实数上是不可对角化的。例如考虑

B={\begin{bmatrix}0&1\\-1&0\end{bmatrix}}

矩阵 B 没有任何实数特征值，所以没有实数矩阵 Q 使得 $Q^{-1}BQ$ 是对角矩阵。但是如果允許複數的話， $B$ 仍可以对角化。实际上，如果我们取

Q={\begin{bmatrix}1&{\textrm {i}}\\{\textrm {i}}&1\end{bmatrix}}

则 $Q^{-1}BQ$ 是对角的。

矩阵对角化的方法

考虑矩阵

A={\begin{bmatrix}1&2&0\\0&3&0\\2&-4&2\end{bmatrix}}

这个矩阵有特征值

\lambda _{1}=3,\quad \lambda _{2}=2,\quad \lambda _{3}=1

所以 A 是有三个不同特征值的 3 × 3 矩阵，所以它是可对角化的。

如果我们要对角化 A，我们需要计算对应的特征向量。它们是

v_{1}={\begin{bmatrix}-1\\-1\\2\end{bmatrix}}\quad v_{2}={\begin{bmatrix}0\\0\\1\end{bmatrix}}\quad v_{3}={\begin{bmatrix}-1\\0\\2\end{bmatrix}}

我们可以轻易的验证 $Av_{k}=\lambda _{k}v_{k}$ 。

现在，设 P 是由这些特征向量作为纵列的矩阵:

P={\begin{bmatrix}-1&0&-1\\-1&0&0\\2&1&2\end{bmatrix}}

则 P 对角化了 A，简单的计算可验证:

P^{-1}AP={\begin{bmatrix}0&-1&0\\2&0&1\\-1&1&0\end{bmatrix}}{\begin{bmatrix}1&2&0\\0&3&0\\2&-4&2\end{bmatrix}}{\begin{bmatrix}-1&0&-1\\-1&0&0\\2&1&2\end{bmatrix}}={\begin{bmatrix}3&0&0\\0&2&0\\0&0&1\end{bmatrix}}

注意特征值 $\lambda _{k}$ 出现在对角矩阵中。

应用

对角化可被用来有效的计算矩阵 A 的幂，假如矩阵是可对角化的。比如我们找到了

P^{-1}AP=D\

是对角矩阵，因为矩阵的积是结合的，

{\begin{aligned}A^{k}&=(PDP^{-1})^{k}=(PDP^{-1})\cdot (PDP^{-1})\cdots (PDP^{-1})\\&=PD(P^{-1}P)D(P^{-1}P)\cdots (P^{-1}P)DP^{-1}=PD^{k}P^{-1}\end{aligned}}

而后者容易计算，因为它只涉及对角矩阵的幂。

在找到线性递归序列比如斐波那契数列的项的闭合形式的表达中这是非常有用的。

特定应用

例如，考虑下列矩阵:

M={\begin{bmatrix}a&b-a\\0&b\end{bmatrix}}

计算 M 个各次幂揭示了一个惊人的模式:

M^{2}={\begin{bmatrix}a^{2}&b^{2}-a^{2}\\0&b^{2}\end{bmatrix}},\quad M^{3}={\begin{bmatrix}a^{3}&b^{3}-a^{3}\\0&b^{3}\end{bmatrix}},\quad M^{4}={\begin{bmatrix}a^{4}&b^{4}-a^{4}\\0&b^{4}\end{bmatrix}},\quad \ldots

上面的现象可以通过对角化 M 来解释。要如此我们需要由 M 的特征向量组成的 R² 的基。一个这样的特征向量基给出自

\mathbf {u} ={\begin{bmatrix}1\\0\end{bmatrix}}=\mathbf {e} _{1},\quad \mathbf {v} ={\begin{bmatrix}1\\1\end{bmatrix}}=\mathbf {e} _{1}+\mathbf {e} _{2}

这里的 e_i 指示 Rⁿ 的标准基。逆的基变更给出自

\mathbf {e} _{1}=\mathbf {u} ,\qquad \mathbf {e} _{2}=\mathbf {v} -\mathbf {u}

直接计算证实

M\mathbf {u} =a\mathbf {u} ,\qquad M\mathbf {v} =b\mathbf {v}

所以，a 和 b 是分别是对应于 u 和 v 的特征值。根据矩阵乘法的线性，我们有

M^{n}\mathbf {u} =a^{n}\,\mathbf {u} ,\qquad M^{n}\mathbf {v} =b^{n}\,\mathbf {v}

切换回标准基，我们有

M^{n}\mathbf {e} _{1}=M^{n}\mathbf {u} =a^{n}\mathbf {e} _{1}

M^{n}\mathbf {e} _{2}=M^{n}(\mathbf {v} -\mathbf {u} )=b^{n}\mathbf {v} -a^{n}\mathbf {u} =(b^{n}-a^{n})\mathbf {e} _{1}+b^{n}\mathbf {e} _{2}

前面的关系用矩阵形式表达为

M^{n}={\begin{bmatrix}a^{n}&b^{n}-a^{n}\\0&b^{n}\end{bmatrix}}

因此解释了上述现象。

参见

外部链接

Diagonalization. PlanetMath.

引用

Roger A. Horn and Charles R. Johnson, Matrix Analysis, Chapter 1, Cambridge University Press, 1985. ISBN 0-521-30586-1 (hardback), ISBN 0-521-38632-2 (paperback).