Vanson's Eternal Blog

AI数学内容之学习路线

Math for ai.png
Published on
/5 mins read/---

AI必学的数学内容

微积分

导数与基本求导法则

常见函数:多项式、指数、对数、sigmoid/tanh、ReLU(分段函数的导数/次梯度)

乘积法则、商法则、复合函数求导

用途:理解“参数变化一点,损失怎么变”,是梯度下降的基础。

多元微积分

偏导数、梯度(gradient)

链式法则在多元情形的使用

方向导数、梯度的几何意义(梯度指向函数上升最快方向)

用途:神经网络的反向传播本质就是“多元链式法则”。

常见优化

极值点:一阶必要条件(梯度为 0)、二阶条件(Hessian 的正定/负定)

凸性直觉:凸函数、局部最小与全局最小的区别(不必很严谨,但要懂概念)

用途:理解为什么线性回归能“好解”,深度网络通常是“非凸”的。

泰勒展开

一阶近似 二阶近似与曲率

积分的基础概念

概率论里期望、连续分布、归一化常数等都可以写成积分。

进阶

拉格朗日乘子法、约束优化:SVM 的推导、一些带约束的最优化问题。 数值优化与稳定性:

  • 梯度消失/爆炸直觉、学习率调度、动量、Adam 的思想
  • 不要求严格证明,但理解“为什么这样做更稳”。

线性代数

向量与矩阵运算

  • 向量加法、数乘、点积(内积)、矩阵乘法
  • 转置、逆(知道何时不可逆)、单位矩阵
  • 用途:几乎所有模型(线性回归、逻辑回归、神经网络)都是矩阵形式实现的。

向量空间

  • 线性组合、线性无关、张成空间(span)、基、维度
  • 用途:理解特征表达、冗余、以及降维方法的核心思想。

范数与距离

  • L1、𝐿2 范数,向量长度、夹角、余弦相似度
  • 用途:正则化(L1/L2)、度量相似度、最近邻、embedding 的比较。

矩阵的秩、列空间、零空间

  • 秩(rank)直觉:信息量/自由度
  • 用途:理解欠定/超定线性系统,理解为什么某些问题会病态。

特征值与特征向量的直觉

  • 特征向量是“变换后方向不变”的方向
  • 特征值反映“在该方向放大/缩小多少”
  • 理解收敛性、理解二次型曲率、理解 PCA 的基础。

正交、投影

  • 奇异值分解 SVD:用途:PCA、低秩近似、推荐系统、理解“矩阵的主要能量在哪些方向”。
  • 二次型与正定矩阵:优化中的曲率、协方差矩阵、核方法等。
  • 矩阵微积分常见规则:读论文/推导更顺畅(尤其是向量化推导梯度)。

概率论

随机变量与分布

  • 离散/连续随机变量
  • 常见分布:Bernoulli、Binomial、Categorical、Gaussian(正态)、Uniform
  • 用途:分类/回归常用的噪声假设与损失函数解释。

期望、方差、协方差

理解“平均风险/期望损失”、理解特征相关性、理解不确定性。

条件概率与贝叶斯公式

生成模型、朴素贝叶斯、贝叶斯视角的正则化(先验/后验)。

似然、最大似然估计 MLE、最大后验 MAP

很多损失函数可以从 MLE 推出来

信息论在 ML 里的常用量

分类训练的交叉熵损失、变分推断、生成模型(VAE 等)。

采样与大数定律的直觉

mini-batch SGD 为什么能工作、Monte Carlo 估计为何有效。

偏差-方差分解、泛化误差直觉

理解过拟合、模型复杂度、正则化为什么能提升泛化。

中心极限定理、置信区间、假设检验

更偏统计推断、实验分析、A/B test。

概率图模型、马尔可夫链、MCMC

更深的概率建模与贝叶斯方法。