Posted 2026-03-30深度学习基础15 minutes read (About 2230 words)0 visits

数学基础

一、线性代数

1、标量(Scalar)：

实数，只有大小，没有方向。

2、向量(Vector)：

向量：一组实数组成的有序数组，同时具有大小和方向。
点积： $\boldsymbol{a}^{T} \boldsymbol{b}=\sum_{i} a_{i} b_{i}$ 。

3、范数

满足以下条件的函数 $f: \mathbb{R}^{n} \rightarrow \mathbb{R}$ , $\operatorname{dom} f=\mathbb{R}^{n}$ 称为范数：

$f$ 是非负的：对所有的 $\boldsymbol{x} \in \mathbb{R}^{n}$ 成立 $f(\boldsymbol{x}) \geq 0$ ；
$f$ 是正定的：仅对 $\boldsymbol{x}=\mathbf{0}$ 成立 $f(\boldsymbol{x})=0$ ；
$f$ 是齐次的：对所有的 $\boldsymbol{x} \in \mathbb{R}^{n}$ 和 $t \in \mathbb{R}$ 成立 $f(t \boldsymbol{x})=|t| f(\boldsymbol{x})$ ；
$f$ 满足三角不等式：对所有的 $\boldsymbol{x}, \boldsymbol{y} \in \mathbb{R}^{n}$ 成立 $f(\boldsymbol{x}+\boldsymbol{y}) \leq f(\boldsymbol{x})+f(\boldsymbol{y})$ ；
$\ell_{\infty}$ －范数： $\|\boldsymbol{x}\|_{\infty}=\max \left\{\left|x_{1}\right|, \ldots,\left|x_{n}\right|\right\}$ ；
更一般地： $\|x\|_{p}=\left(\left|x_{1}\right|^{p}+\cdots+\left|x_{n}\right|^{p}\right)^{\frac{1}{p}}$ 。

4、矩阵（Matrix）

\boldsymbol{A}=\left[\begin{array}{cccc}a_{11} & a_{12} & \cdots & a_{1 N} \\ a_{21} & a_{22} & \cdots & a_{2 N} \\ \vdots & \vdots & \ddots & \vdots \\ a_{M 1} & a_{M 2} & \cdots & a_{M N}\end{array}\right]

$\boldsymbol{A}$ 是一个由 $M$ 行 $N$ 列个元素排列成的矩形阵列，称为 $M \times N$ 的矩阵。

5、线性变换

矩阵 $\boldsymbol{A}$ 定义了一个从空间 $\mathbb{R}^{N}$ 到空间 $\mathbb{R}^{M}$ 的线性映射（线性变换）。

两个有限维欧氏空间的映射函数 $f:\mathbb{R}^{N} \rightarrow \mathbb{R}^{M}$ 可以表示为：

\boldsymbol{y}=\boldsymbol{A} \boldsymbol{x} \triangleq\left[\begin{array}{c} a_{11} x_{1}+a_{12} x_{2}+\cdots+a_{1 N} x_{N} \\ a_{21} x_{1}+a_{22} x_{2}+\cdots+a_{2 N} x_{N} \\ \vdots \\ a_{M 1} x_{1}+a_{M 2} x_{2}+\cdots+a_{M N} x_{N} \end{array}\right]

6、Hadamard积

矩阵 $\boldsymbol{A}$ 和矩阵 $\boldsymbol{B}$ 的Hadamard积也称为逐点乘积，为 $\boldsymbol{A}$ 和 $\boldsymbol{B}$ 中对应的元素相乘。

[\boldsymbol{A} \odot \boldsymbol{B}]_{m n}=a_{m n} b_{m n}

7、矩阵范数

算子范数：算子范数是衡量线性算子或矩阵对向量放大作用的最大倍数的范数。$$|A|=\max \left{\frac{|A x|}{|x|}: x \in \mathbb{R}^{n}, x \neq \mathbf{0}\right}=\max \left{|A x|: x \in \mathbb{R}^{n},|x|=1\right}$$

常见算子范数：

\|\boldsymbol{A}\|_{p}=\max _{\boldsymbol{x} \neq \mathbf{0}} \frac{\|\boldsymbol{A} \boldsymbol{x}\|_{p}}{\|\boldsymbol{x}\|_{p}}

最大绝对列和： $\|\boldsymbol{A}\|_{1}=\max _{1 \leq j \leq n} \sum_{i=1}^{m}\left|a_{i j}\right|$ ；
$\boldsymbol{A}$ 的最大奇异值： $\|\boldsymbol{A}\|_{2}=\sqrt{\lambda_{\max }\left(\boldsymbol{A}^{T} \boldsymbol{A}\right)}$ ；
最大绝对行和： $\|\boldsymbol{A}\|_{\infty}=\max _{1 \leq i \leq m} \sum_{j=1}^{n}\left|a_{i j}\right|$ ；
Frobenius 范数： $\|A\|_{\text {Frob }}=\left[\sum_{i j} A_{i j}^{2}\right]^{\frac{1}{2}}$ 。

8、特征值和特征向量

对于一个给定的线性变换 $\boldsymbol{A}$ ，它的特征向量 $\boldsymbol{x}$ ，经过这个线性变换之后，得到的新向量仍然与原来的 $\boldsymbol{x}$ 保持在同一条直线上，但其长度或方向也许会改变。 $\boldsymbol{A} x=\lambda x$ ， $\lambda$ 为特征值。对称矩阵总会有相应的特征向量和特征值。

正定性： $$|x|^{2}=x{T} x \geq 0$$
一般化： $\forall x \neq 0, x^{T} A x>0$ ，称 $\boldsymbol{A}$ 为正定矩阵。设 $\boldsymbol{A}$ 是 $n \times n$ 对称矩阵，当且仅当 $\boldsymbol{A}$ 的特征值均为非负数，称 $\boldsymbol{A}$ 为半正定矩阵。

正交矩阵：

所有的列向量都是单位正交向量
所有的行向量都是单位正交向量
可以写为： $\boldsymbol{U} \boldsymbol{U}^{T}=\boldsymbol{I}$

置换矩阵：

矩阵的每一行和每一列的元素中只有一个 1 ，其余元素都为 0。置换矩阵是正交矩阵。

9、张量（Tensor）

一个数组中的元素分布在若干维坐标的规则网格中。

二、微积分

1、标量求导

$y$	$a$	$x^{n}$	$e^x$	$\log (x)$	$\sin (x)$
$\frac{d y}{d x}$	$0$	$n x^{n-1}$	$e^x$	$\frac{1}{x}$	$\cos (x)$

$y$	$u+v$	$u v$	$y=f(u), u=g(x)$
$\frac{d y}{d x}$	$\frac{d u}{d x}+\frac{d v}{d x}$	$\frac{d u}{d x} v+\frac{d v}{d x} u$	$\frac{d y}{d u} \frac{d u}{d x}$

2、矢量求导

若 $\boldsymbol{x}=\left[\begin{array}{c}x_{1} \\x_{2} \\\vdots \\x_{n}\end{array}\right]$ ，则 $\frac{\partial y}{\partial \boldsymbol{x}}=\left[\frac{\partial y}{\partial x_{1}}, \frac{\partial y}{\partial x_{2}}, \ldots, \frac{\partial y}{\partial x_{n}}\right]$
若 $\boldsymbol{y}=\left[\begin{array}{c}y_{1} \\y_{2} \\\vdots \\y_{n}\end{array}\right]$ ，则 $\frac{\partial \boldsymbol{y}}{\partial x}=\left[\begin{array}{c}\frac{\partial y_{1}}{\partial x} \\\frac{\partial y_{2}}{\partial x} \\\vdots \\\frac{\partial y_{m}}{\partial x}\end{array}\right]$
若 $\boldsymbol{x}=\left[\begin{array}{c}x_{1} \\x_{2} \\\vdots \\x_{n}\end{array}\right]$ ， $\boldsymbol{y}=\left[\begin{array}{c}y_{1} \\y_{2} \\\vdots \\y_{n}\end{array}\right]$ ，则 $\frac{\partial \boldsymbol{y}}{\partial \boldsymbol{x}}=\left[\begin{array}{c}\frac{\partial y_{1}}{\partial \boldsymbol{x}} \\\frac{\partial y_{2}}{\partial \boldsymbol{x}} \\\vdots \\\frac{\partial y_{m}}{\partial \boldsymbol{x}}\end{array}\right]=\left[\begin{array}{c}\frac{\partial y_{1}}{\partial x_{1}}, \frac{\partial y_{1}}{\partial x_{2}}, \ldots, \frac{\partial y_{1}}{\partial x_{n}} \\\frac{\partial y_{2}}{\partial x_{1}}, \frac{\partial y_{2}}{\partial x_{2}}, \ldots, \frac{\partial y_{2}}{\partial x_{n}} \\\vdots \\\frac{\partial y_{m}}{\partial x_{1}}, \frac{\partial y_{m}}{\partial x_{2}}, \ldots, \frac{\partial y_{m}}{\partial x_{n}}\end{array}\right]_{m \times n}$

3、矢量和矩阵求导

求导的分母形状不变，分子的形状变成倒数，最后形状按照分子加分母的形状拼接，将形状为1的部分舍弃。

	$x(1,)$	$\boldsymbol{x}(n,1)$	$\boldsymbol{X}(n,k)$
$y(1,)$	$\frac{\partial y}{\partial x}(1,)$	$\frac{\partial y}{\partial \boldsymbol{x}}(1, n)$	$\frac{\partial y}{\partial \boldsymbol{X}}(k, n)$
$\boldsymbol{y}(m,1)$	$\frac{\partial \boldsymbol{y}}{\partial x}(m, 1)$	$\frac{\partial \boldsymbol{y}}{\partial \boldsymbol{x}}(m, n)$	$\frac{\partial \boldsymbol{y}}{\partial \boldsymbol{X}}(m, k, n)$
$\boldsymbol{Y}(m,l)$	$\frac{\partial \boldsymbol{Y}}{\partial x}(m, l)$	$\frac{\partial \boldsymbol{Y}}{\partial \boldsymbol{x}}(m, l, n)$	$\frac{\partial \boldsymbol{Y}}{\partial \boldsymbol{X}}(m, l, k, n)$

4、自动微分

深度学习框架通过自动计算导数，即自动微分（automatic differentiation）来加快求导。根据设计好的模型，系统会构建⼀个计算图（computational graph），来跟踪计算是哪些数据通过哪些操作组合起来产生输出。

import torch
x=torch.arange(4.0)
x.requires_grad_(True)
y=2*torch.dot(x,x)
y.backward()
x.grad

正向传播

\frac{\partial y}{\partial x}=\frac{\partial y}{\partial u_{n}}\left(\frac{\partial u_{n}}{\partial u_{n-1}}\left(\ldots\left(\frac{\partial u_{2}}{\partial u_{1}} \frac{\partial u_{1}}{\partial x}\right)\right)\right)

反向传播

\frac{\partial y}{\partial x}=\left(\left(\left(\frac{\partial y}{\partial u_{n}} \frac{\partial u_{n}}{\partial u_{n-1}}\right) \ldots\right) \frac{\partial u_{2}}{\partial u_{1}}\right) \frac{\partial u_{1}}{\partial x}

三、信息论

1、熵

信息论的核心思想是量化数据中的信息内容。在信息论中，该数值被称为分布 $P$ 的熵（entropy）。可以通过以下方程得到：

H[P]=\sum_{j}-P(j) \log P(j)

信息论的基本定理之一指出，为了对从分布 $p$ 中随机抽取的数据进行编码，我们至少需要 $H[P]$ ＂纳特（nat）＂对其进行编码。＂纳特＂相当于比特（bit），但是对数底为 $e$ 而不是 $2$ 。因此，一个纳特是 $\frac{1}{\log (2)} \approx 1.44$ 比特。

2、交叉熵

交叉熵是按照概率分布 $q$ 的最优编码对真实分布为 $p$ 的信息进行编码的长度。

H(p, q) =E_{p}[-\log q(x)] =-\sum_{x} p(x) \log q(x)$$在给定 $q$ 的情况下，如果 $p$ 和 $q$ 越接近，交叉熵越小；如果 $p$ 和 $q$ 越远，交叉熵就越大。 ##### 3、KL散度 KL散度是用概率分布 $q$ 来近似 $p$ 时所造成的信息损失量。 KL散度是按照概率分布 $q$ 的最优编码对真实分布为 $p$ 的信息进行编码，其平均编码长度（即交叉熵） $H(p, q)$ 和 $p$ 的最优平均编码长度（即熵） $H(p)$ 之间的差异。 $$\operatorname{KL}(p, q)= H(p, q)-H(p) = \sum_{x} p(x) \log \frac{p(x)}{q(x)}

\operatorname{KL}(p, q)= H(p, q)-H(p) =\int p(x) \log \frac{p(x)}{q(x)} d x

4、交叉熵损失

在分类任务中，最小化 KL 散度等价于最小化交叉熵，而当真实标签是 one-hot 时，交叉熵进一步简化为负对数似然。
KL 散度衡量两个分布的差异，最小化 KL 散度等价于让模型分布逼近真实分布。

\mathrm{D}_{K L}\left(p_{r}(y \mid x)| | p_{\theta}(y \mid x)\right) =\sum_{y=0}^{k} p_{r}(y \mid x) \log \frac{p_{r}(y \mid x)}{p_{\theta}(y \mid x)} =\sum_{y} p_{r}(y \mid x) \log p_{r}(y \mid x)-\sum_{y} p_{r}(y \mid x) \log p_{\theta}(y \mid x)

化简后第一项为常数，第二项为交叉熵，即 KL 散度正比于交叉熵，最小化 KL 散度等价于最小化交叉熵。

$p_{r}(y \mid x)$ ：真实的条件分布（ground truth），给定输入 $x$ 时，输出为 $y$ 的真实概率。
$p_{\theta}(y \mid x)$ ：模型预测的条件分布，由参数 $\theta$ 决定。

数学基础

https://waternorth.cn/2026/03/30/数学基础/

Author

秦宇春

Posted on

2026-03-30

Updated on

2026-03-30

Licensed under

#深度学习基础 Notes

数学基础

一、线性代数

1、标量(Scalar)：

2、向量(Vector)：

3、范数

4、矩阵（Matrix）

5、线性变换

6、Hadamard积

7、矩阵范数

8、特征值和特征向量

9、张量（Tensor）

二、微积分

1、标量求导

2、矢量求导

3、矢量和矩阵求导

4、自动微分

三、信息论

1、熵

2、交叉熵

4、交叉熵损失

Author

Posted on

Updated on

Licensed under

Like this article? Support the author with

Catalogue

Links

Categories

Archives

Tags