相似变换是矩阵的一种重要的变换,本章研究矩阵在相似变换下的简化问题,这是矩阵理论的基本问题之一。这种分解简介形式在许多领域中都有重要的作用。

  在开始之前说一下矩阵的一些基本概念,设矩阵A=(a_{ij})_{n \times n},将矩阵A的元素a_{ij}所在的第i行第j列划去后,剩余的各元素按原来的排列顺序组成的n-1阶矩阵所确定的行列式称为元素a_{ij}余子式,记为M_{ij},称A_{ij}=(-1)^{i+j}M_{ij}为元素a_{ij}代数余子式

  方阵A=(a_{ij})_{n \times n}的各元素的代数余子式A_{ij}所构成的如下矩阵A^{*}

\begin{array}{cccc}{A_{11}} & {A_{21}} & {\cdots} & {A_{n 1}} \\ {A_{12}} & {A_{22}} & {\cdots} & {x} \\ {\vdots} & {\vdots} & {} & {\vdots} \\ {A_{1 n}} & {A_{2 n}} & {\cdots} & {A_{n n}}\end{array}

  该矩阵A^{*}称为A的伴随矩阵。具有以下性质:A^{*}A=|A|E

哈密顿-凯莱定理以及矩阵的最小多项式

  本节讨论特征多项式的性质,并讨论另一种重要的多项式-最小多项式

哈密顿-凯莱定理

  • 定理3.1:(哈密顿-凯莱定理)每个n阶矩阵都是它的特征多项式的根,设An阶矩阵,

f(\lambda)=|\lambda E - A|

= \lambda^{n} + a_{n-1} \lambda^{n-1} + \cdots +a_{1} \lambda +a_{0}

  则

f(A)=A^{n} + a_{n-1}A^{n-1} + \cdots + a_{1}A + a_{0} E =O

  • 例1 :设矩阵:

A=\left(\begin{array}{ccc} {1} & {0} & {2} \\ {0} & {-1} & {1} \\ {0} & {1} & {0} \end{array}\right)

  试计算:

\varphi(A)=2A^{8}-3A^{5}+A^{4}+A^{2}+2E

   因为多项式为:

f(\lambda)=|\lambda E- A| =\lambda^{3}-2\lambda+1

  再取多项式:

\varphi(\lambda)=2\lambda^{8} -3 \lambda^{5}+\lambda^{4}+\lambda^{2}-4

计算过程

  以f(\lambda)去除\varphi(\lambda)可得余式:

r(\lambda)=24\lambda^{2}-37\lambda+10

  由哈密顿-凯莱定理,f(A)=O,所以:

\varphi(A)=r(A)=24A^{2}-37A+10E

= \left(\begin{array}{ccc} {-3} & {48} & {-26} \\ {0} & {95} & {-6} \\ {0} & {-61} & {34} \end{array}\right)

最小多项式

  一般地说,若A是一个方阵,\varphi(A)是一个多项式,\varphi(A)=O,这种多项式叫作矩阵A零化多项式,可见每一个矩阵都有零化多项式,并且零化多项式一定有无穷多个,因为特征多项式乘以任何一个多项式还是零化多项式。

  那有没有一个次数最低的零化多项式呢?

  • 定义3.1:设A \in C^{n \times n},在A的零化多项式中,次数最低的首项系数为1的多项式,称为矩阵A最小多项式,记作m(\lambda)

  • 定理3.2:矩阵A的任何零化多项式都能被它的最小多项式整除。

  • 定理3.3:矩阵A的最小多项式唯一。

  • 定理3.4 :矩阵A的特征多项式的根一定是最小多项式的根,反过来,最小多项式的根也一定是特征多项式的根。

  设矩阵A\in C^{n\times n}的所有特征值为\lambda_{1},\cdots,\lambda_{s},又A的特征多项式为:

f(\lambda)=|\lambda E-A|

=(\lambda-\lambda_{1})^{k_{1}}(\lambda-\lambda_{2})^{k_{2}} \cdots (\lambda-\lambda_{s})^{k_{s}}

  则A的最小多项式一定具有如下形式:

m(\lambda)=(\lambda-\lambda_{1})^{n_{1}}(\lambda-\lambda_{2})^{n_{2}}\cdots(\lambda-\lambda_{s})^{n_{s}}

  这里n_{i} \leq k_{i}

矩阵的相似对角

  把矩阵化为对角形对于解决很多问题都有帮助,如解微分方程组:

\left.\begin{array}{l} {\frac{\mathrm{d} x_{1}}{\mathrm{d} t}=\lambda_{1} x_{1}} \\ {\frac{\mathrm{d} x_{2}}{\mathrm{d} t}=\lambda_{2} x_{2}} \end{array}\right\}

  容易解出:

x_{1}=C_{1}e^{\lambda_{1}t},x_{2}=C_{2}e^{\lambda_{2}t}

  而

\left\{\begin{array}{l} {\frac{\mathrm{d} x_{1}}{\mathrm{d} t}=a_{11} x_{1}+a_{12} x_{2}} \\ {\frac{\mathrm{d} x_{2}}{\mathrm{d} t}=a_{21} x_{1}+a_{22} x_{2}} \end{array}\right.

  如果能化为上一个计算的形式,就很方便求解。

  • 定理3.5:设A\in C^{n \times n},则A可以对角化的充要条件An个线性无关的特征向量。

  • 例6:矩阵

A=\left(\begin{array}{ccc} {0} & {1} & {0} \\ {0} & {0} & {1} \\ {-6} & {-11} & {-6} \end{array}\right)

  是否可以对角化?

   因为:

f(\lambda)=|\lambda E-A|=(\lambda+1)(\lambda+2)(\lambda+3)

  矩阵A的特征值为-1,-2,-3。

  由于A的三个特征值互不相同,固A有三个线性无关的特征向量,A可以对角化,进一步可以得到特征向量:

P_{1}=\left(\begin{array}{ccc} {1} \\{-1} \\{1} \end{array}\right), P_{2}=\left(\begin{array}{ccc} {1} \\{-2} \\{4} \end{array}\right), P_{3}=\left(\begin{array}{ccc} {1} \\{-3} \\{9} \end{array}\right)

P=\left(\begin{array}{ccc} {1} & {1} & {1} \\ {-1} & {-2} & {-3} \\ {1} & {4} & {9} \end{array}\right),

P^{-1}AP=\left(\begin{array}{ccc} {-1} \\ & {-2} \\ & & {-3} \end{array}\right)

约当标准形

  并不是每个方阵都能够相似于对角矩阵,如果矩阵不能对角化,矩阵总可以通过相似变换化为约当标准形。

  • 定义3.2:形如:

J_{i}=\left(\begin{array}{cccc} {\lambda_{i}} & {} & {} & {} \\ {1} & {\lambda_{i}} & {} & {} \\ {} & {} & {\ddots} & {} \\ {} & {} & {} & {1} & {\lambda_{i}} \end{array}\right)_{r_{i} \times r_{i}}

  的矩阵称为r_{i}阶约当块,由若干个约当块构成的分块对角矩阵:

J=\left(\begin{array}{cccc} {J_{1}} & {} & {} & {} \\ {} & {J_{2}} & {} & {} \\ {} & {} & {\ddots} & {} \\ {} & {} & {} & {J_{s}} \end{array}\right)

  称为约当标准形

  • 定理3.6 :设A \in C^{n \times n},则A与一个约当矩阵J相似,即存在P \in C^{n \times n}使得P^{-1}AP=J这个约当矩阵J除了约当块的排列次序外由矩阵A唯一确定,称JA的约当标准形。

求解约当标准形

  下面我们介绍用行列式因子法确定约当标准形的方法:

  设矩阵A的元素都是\lambda的多项式,则A称为\lambda矩阵,记作A(\lambda),特殊地,A \in C^{n \times n}\lambda E - AA的特征矩阵,这也是\lambda矩阵。

  公因式:一个多项式中每一项都含有的相同的因式,叫做这个多项式各项的公因式。

  • 定义3.3A(\lambda)中所有非零的k阶子式的首项系数为1的最大公因式D_{k}(\lambda)称为A的一个k行列式因子

  由定义D_{n}(\lambda)=|\lambda E-A|,又因为D_{k-1}(\lambda)能够整除每一个k-1级子式,而每一个k级子式可以展开为k-1级子式的线性组合,所以D_{k-1}能够整除D_{k},即D_{k-1}|D_{k}

  • 定义3.4:下列n个多项式

d_{1}=D_{1},d_{2}=\frac{D_{2}}{D_{1}},\cdots , d_{n}=\frac{D_{n}}{D_{n-1}}

  称为A(\lambda)不变因子。把每个次数大于零的不变因子分解为互不相同的一次因子的方幂的乘积,所有这些一次因子的方幂(相同的必须按出现次数计算)称为A初级因子

  • 例9:求下列矩阵的不变因子及初级因子。

A=\left(\begin{array}{ccc} {-1} & & &\\ & {-2} & &\\ & & {1}&\\ &&&{2}& \end{array}\right)

  1. f(\lambda)=|\lambda E - A| = (\lambda+1)(\lambda+2)(\lambda-1)(\lambda-2)

  行列式因子

D_{3}=D_{2}=D_{1}=1, D_{4}=f(\lambda)

  不变因子

d_{1}=d_{2}=d_{3}=1,d_{4}=f(\lambda)

  初级因子

\lambda+1,\lambda+2,\lambda-1,\lambda-2

  有了上述概念,就可以求得矩阵A的约当标准形。设A的全部初级因子是:

(\lambda-\lambda_{1})^{k_{1}},(\lambda-\lambda_{2})^{k_{2}},\cdots , (\lambda-\lambda_{s})^{k_{s}}

  这里\lambda_{1}\lambda_{2},\cdots,\lambda_{s}可能有相同的,指数k_{1},k_{2},\cdots,k_{s}也可能有相同的,对每个初级因子(\lambda-\lambda_{i})^{k_{i}}构成一个k_{i}阶约当块:

J_{i}=\left(\begin{array}{cccc} {\lambda_{i}} & {} & {} & {} \\ {1} & {\lambda_{i}} & {} & {} \\ {} & {\ddots} & {\ddots} & {} \\ {} & {} & {1} & {\lambda_{i}} \end{array}\right) \quad(i=1,2, \cdots, 3)

  由所有这些约当块构成的分块对角矩阵:

J=\left(\begin{array}{cccc} {J_{1}} & {} & {} & {} \\ {} & {J_{2}} & {} & {} \\ {} & {} & {\ddots} & {} \\ {} & {} & {} & {J_{1}} \end{array}\right)

称为矩阵A的约当标准形。

  • 定理3.7:每个n阶复数矩阵A都与一个约当标准形J相似,即存在矩阵P使得:

P^{-1}AP=J

  除去约当块的排列次序外,约当形矩阵由矩阵A唯一确定。

史密斯标准形

  从上一节可以看到,求出矩阵的行列式因子、不变因子以及初级因子,就可以求出矩阵的约当标准形。而当矩阵阶数比较高时,求它的行列式因子比较麻烦。如果矩阵比较特殊,比方说是对角矩阵,就可以比较方便地求出行列式因子。所以考虑先把矩阵对角化,就可以比较方便地求出行列式因子。所以考虑先把矩阵化为对角形,问题是在把矩阵化为对角形时,矩阵的行列式因子是否改变。

  • 定义3.5:下列变换称为矩阵A的初等变换:
  1. 互换矩阵A的任意两行(两列);
  2. 以非零的数kA的某一行(列);
  3. 以多项式\varphi(\lambda)乘以A的某一行(列)加到另一行(列)上。

  可以看出,这三种变换不会改变行列式因子

  • 定义3.6:下面形式的矩阵:

A(\lambda)=\left(\begin{array}{ccccc} {d_{1}(\lambda)} & {} & {} & {} & {} \\ {} & {} & {d_{2}(\lambda)} & {} & {} \\ {} & {} & {} & {\ddots} & {} \\ {} & {} & {} & {} & {d_{r}(\lambda)} \\ {} & {} & {} & {} & {} & {0} \\ {} & {} & {} & {} & {} & {} & {\ddots} \\ {} & {} & {} & {} & {} & {} & {} & {0} \end{array}\right)

  称为矩阵A的史密斯标准形,其中:

d_{i}|d_{i+1} (i=1,2,\cdots,r-1)

  我们有下面的结论。

  • 定理3.8:任何一个非零多项式矩阵A都可以经过初等变化为史密斯标准形。

  下面讨论怎么把一个矩阵A化为史密斯标准形。假设一个矩阵经过初等变换化为如下形式的标准形:

\left(\begin{array}{cccccc} {d_{1}} \\ {} & {d_{2}} \\ {} & {} & {\ddots} \\ {} & {} & {} & {d_{r}} \\ {} & {} & {} & {} & {d_{r+1}} \\ {} & {} & {} & {} & {} & {\ddots} \\ {} & {} & {} & {} & {} & {}& {d_{n}} \end{array}\right)

  其中d_{i}|d_{i+1}

  由上面所述,在这个过程中,行列式因子不变,所以变换后的矩阵与原来的矩阵有相同的行列式因子。而这个矩阵的行列式因子很容易得出:

D_{1}=d_{1},D_{2}=d_{1}d_{2},\cdots ,D_{n}=d_{1}d_{2}\cdots d_{n}

  由此可以得出,对角线上的元素正好是矩阵的不变因子

  特殊地,左上角的元素为一阶行列式因子,即矩阵的所有元素的公因子。这个公因子可以很容易求出。我们之后就可以利用这个结论求出史密斯标准形。

  现在设矩阵A(\lambda)是一个\lambda矩阵

  首先通过观察确定左上角第一个元素,如果矩阵中有这一项,就把它挪到左上角上去,如果没有这一项,可以通过初等变换得出这一项。因为它是所有元素的公因子,能够整除所有元素,也一定能够整除它们的组合,所以可以通过初等变换得到。

  左上角的元素得到以后,可以利用初等变换把它所在的行和列的其他元素都消成零,矩阵变成如下形式:

\left(\begin{array}{cccccc} {d_{1}} & {0} \\ {0} & {B_{1}(\lambda)} \\ \end{array}\right)

  这时对于矩阵B_{1}来说,相当于一个新的矩阵,如果把它化成史密斯标准形,则左上角第一个元素仍然是B_{1}的一阶行列式因子,可以用同样的方法求出,在这个过程中,使用的是初等变换,而d_{1}能够整除所有元素,当然能够整除它们的组合,所以d_{1}|d_{2},这时矩阵可以通过初等变换化为下面的形式:

\left(\begin{array}{cccccc} {d_{1}} \\ {} &{d_{1}} & {} \\ {} & {} & {B_{2}(\lambda)} \\ \end{array}\right)

  重复这个过程,即可得到史密斯标准形:

\left(\begin{array}{cccccc} {d_{1}} \\ {} & {d_{2}} \\ {} & {} & {\ddots} \\ {} & {} & {} & {d_{r}} \\ {} & {} & {} & {} & {0} \\ {} & {} & {} & {} & {} & {\ddots} \\ {} & {} & {} & {} & {} & {}& {0} \end{array}\right)

我的微信公众号名称:深度学习与先进智能决策
微信公众号ID:MultiAgent1024
公众号介绍:主要研究分享深度学习、机器博弈、强化学习等相关内容!期待您的关注,欢迎一起学习交流进步!