矩阵论:向量范数与矩阵范数

向量范数与矩阵范数

向量范数介绍

我们知道,对于数列极限,我们有

$$
\lim_{n \to \infty} a_n = M \iff \forall \epsilon > 0,\exists N > 0,s.t. \forall n>N,\left | {a_n - M} \right | < \epsilon.
$$

在 $n$ 维向量空间 $R^n$ 内,我们希望对于一个向量序列 ${x^{(k)}}$,其中 $x^{(k)}= (\xi_1^{(k)},\xi_2^{(k)},\dots, \xi_n^{(k)})(k = 1,2,3,\dots)$。如果对于每一个分量 $\xi_i^{(k)}$,都有 $\lim_{k \to \infty} \xi_i^{(k)} = \xi_i$,即

$$
\lim_{k \to \infty} x^{(k)} = (\xi_1, \xi_2, \dots, \xi_n) = x
$$

则称向量序列 ${x^{(k)}}$ 收敛于 $x$。

但是,我们还是无法解决 $\left| x^{(k)} - x\right|$ 该如何定义和计算,显然它不能用向量 $x^{(k)} - x$ 的长度来刻画。为此,我们定义向量范数如下。

定义 2.1

如果 $V$ 是数域 $K$ 上的线性空间,且对于 $\forall x \in V$,定义一个实值函数 $\Vert x \Vert $,它满足以下三个条件:

  1. 非负性: 当 $x \ne 0$ 时,$\Vert x \Vert > 0$,当且仅当 $x = 0$ 时为 $0$;
  2. 齐次性: $\forall a \in K, \forall x \in V, \Vert ax \Vert = \left| a \right| \Vert x \Vert$;
  3. 三角不等式: $\forall x, y \in V, \Vert x + y \Vert \leq \Vert x \Vert + \Vert y \Vert$;

则称 $\Vert x \Vert$ 为向量 $x$ 的范数。

我们要判断某个实值函数 $\Vert x \Vert$ 是否是范数,即验证其是否满足上述三条性质即可。以下列举几种常见的范数(在线性空间 $\mathbb{C}^n$,即酉空间中):

  • 1-范数: $\Vert x \Vert = \sum \left| \xi_i \right|$
  • 2-范数: $\Vert x \Vert = \sqrt{(x,x)}$
  • $\infty$-范数: $\Vert x \Vert = \max \left| x_i\right|$
  • p-范数: $\Vert x \Vert p = (\sum{i = 1}^{n} {\left|x_i\right|}^p)^{\frac{1}{p}}, (1 \leq p < \infty)$

定理 2.1

设有限维线性空间 $V^n$ 中任意两个向量范数 $\Vert x_\alpha \Vert ,\Vert x_\beta \Vert$,如果 $\exists c_1, c_2,s.t.$

$$
{c_1\Vert x_\beta \Vert \leq \Vert x_\alpha \Vert < c_2\Vert x_\beta \Vert }
$$

则称向量范数 $\Vert x_\alpha \Vert ,\Vert x_\beta \Vert$ 等价。

矩阵范数介绍

对于矩阵空间 $\mathbb{C}^{m\times n}$,如果类似地将矩阵 $A_{m\times n}$ 看作“向量”,可以类似向量范数定义矩阵范数。但矩阵之间还有乘法运算,需要补充定义如下:

定义 2.3

设 $A \in \mathbb{C}^{m\times n}$,定义一个实值函数 $\Vert A \Vert$,它满足以下四个条件:

  1. 非负性: 当 $A \ne 0$ 时,$\Vert A \Vert > 0$,当且仅当 $A = 0$ 时为 $0$;
  2. 齐次性: $\forall \alpha \in C, \Vert {\alpha A} \Vert = \left| {\alpha} \right| \Vert A \Vert$;
  3. 三角不等式: $\Vert A + B \Vert \leq \Vert A \Vert + \Vert B \Vert$;
  4. 相容性: $\Vert AB \Vert \leq \Vert A \Vert \Vert B \Vert$ (对于 $B \in \mathbb{C}^{n\times l}$)。

则称 $\Vert A \Vert$ 为矩阵 $A$ 的范数。

在数值方法中进行某种估计时,多数情况下,矩阵范数与向量范数常混合使用,而矩阵经常是作为两个线性空间上的线性变换出现的,为此引入矩阵范数和向量范数相容的概念如下:

定理2.2

对于$\mathbb{C}^{m \times n}$的矩阵范数$\Vert {\cdot} \Vert _M$和$\mathbb{C}^m,\mathbb{C}^n$上的同类向量范数$\Vert {\cdot} \Vert _V$,如果有

$$

\Vert Ax \Vert _V \leq \Vert A \Vert _M \Vert x \Vert _V(\forall A \in \mathbb{C}^{m \times n}, \forall x \in \mathbb{C}^n)

$$

则称矩阵范数$\Vert {\cdot} \Vert _M$与向量范数$\Vert {\cdot} \Vert _V$是相容的。

以下列举几种常用的矩阵范数:

  • F-范数: $\Vert A \Vert F = (\sum{i = 1}^{m}\sum_{j = 1}^{n}\left|a_{ij}\right|^2)^{\frac{1}{2}} = (tr(A^H A))^{\frac{1}{2}}$

其中,F-范数有一定理如下:

定理 2.3

设 $A \in \mathbb{C}^{m \times n}$,且 $P \in \mathbb{C}^{m\times m}, Q\in \mathbb{C}^{n \times n}$ 都是酉矩阵,则有

$$
\Vert PA \Vert _F = \Vert A \Vert _F = \Vert AQ \Vert _F
$$

即 $A$ 左乘或右乘酉矩阵后,其 $\Vert {\cdot} \Vert$ 不变。

矩阵函数可以通过如下方法进行定义,并且定义的矩阵函数与已知的向量范数相容。

定理2.4

已知$\mathbb{C}^{m},\mathbb{C}^{n}$上的同类向量范数$\Vert {\cdot} \Vert$。设$A\in \mathbb{C}^{m\times n}$,则函数
$$
\Vert {A} \Vert = \max\limits_{\Vert x \Vert = 1}{\Vert {Ax} \Vert }
$$

是$\mathbb{C}^{m\times n}$上的矩阵范数,且与已知的向量范数相容。

分别取向量$x$的范数为$\Vert x \Vert _1,\Vert x \Vert _2,\Vert x \Vert _{\infty}$时,就可以得到以下三种矩阵范数:

定理 2.5

设 $A = (a_{ij})_{m\times n} \in \mathbb{C}^{m\times n}$,可以得到以下三种矩阵范数的计算公式分别为:

  1. 列和范数: $\Vert A \Vert 1 = \max\limits{j} \sum_{i = 1}^{m}\left|a_{ij}\right|$;
  2. 谱范数: $\Vert A \Vert _2 = \sqrt{\max{\lambda(A^HA)}}$;
  3. 行和范数: $\Vert A \Vert {\infty} = \max\limits{i} \sum_{j=1}^{n}\left|a_{ij}\right|$;

在机器学习中,范数作为数学优化的重要工具,广泛应用于高维优化问题中,其具体表现和影响在模型的性能、计算复杂度、正则化等方面有重要体现。

在高维优化中,目标函数往往包含范数,用于度量模型参数或残差的大小;在机器学习模型训练中,损失函数通常衡量预测值与真实值之间的差距,而范数决定了误差的度量方式,例如L-1损失、L-2损失;正则化通过添加范数约束减少模型复杂度,缓解高维数据中的过拟合问题,例如L-1正则化,L-2正则化。

以上应用场景中,范数的引入通过度量大小、限制复杂性和提升泛化能力,影响了模型的性能和稳定性。选择合适的范数类型能有效在稀疏性、平滑性和数值稳定性之间实现权衡。


矩阵论:向量范数与矩阵范数
https://blog.yokumi.cn/2025/01/13/矩阵论:向量范数与矩阵范数/
作者
Yokumi
发布于
2025年1月13日
许可协议
CC BY-NC-SA 4.0