AI必学的数学内容
微积分
导数与基本求导法则
常见函数:多项式、指数、对数、sigmoid/tanh、ReLU(分段函数的导数/次梯度)
乘积法则、商法则、复合函数求导
用途:理解“参数变化一点,损失怎么变”,是梯度下降的基础。
多元微积分
偏导数、梯度(gradient)
链式法则在多元情形的使用
方向导数、梯度的几何意义(梯度指向函数上升最快方向)
用途:神经网络的反向传播本质就是“多元链式法则”。
常见优化
极值点:一阶必要条件(梯度为 0)、二阶条件(Hessian 的正定/负定)
凸性直觉:凸函数、局部最小与全局最小的区别(不必很严谨,但要懂概念)
用途:理解为什么线性回归能“好解”,深度网络通常是“非凸”的。
泰勒展开
一阶近似 二阶近似与曲率
积分的基础概念
概率论里期望、连续分布、归一化常数等都可以写成积分。
进阶
拉格朗日乘子法、约束优化:SVM 的推导、一些带约束的最优化问题。 数值优化与稳定性:
- 梯度消失/爆炸直觉、学习率调度、动量、Adam 的思想
- 不要求严格证明,但理解“为什么这样做更稳”。
线性代数
向量与矩阵运算
- 向量加法、数乘、点积(内积)、矩阵乘法
- 转置、逆(知道何时不可逆)、单位矩阵
- 用途:几乎所有模型(线性回归、逻辑回归、神经网络)都是矩阵形式实现的。
向量空间
- 线性组合、线性无关、张成空间(span)、基、维度
- 用途:理解特征表达、冗余、以及降维方法的核心思想。
范数与距离
- L1、𝐿2 范数,向量长度、夹角、余弦相似度
- 用途:正则化(L1/L2)、度量相似度、最近邻、embedding 的比较。
矩阵的秩、列空间、零空间
- 秩(rank)直觉:信息量/自由度
- 用途:理解欠定/超定线性系统,理解为什么某些问题会病态。
特征值与特征向量的直觉
- 特征向量是“变换后方向不变”的方向
- 特征值反映“在该方向放大/缩小多少”
- 理解收敛性、理解二次型曲率、理解 PCA 的基础。
正交、投影
- 奇异值分解 SVD:用途:PCA、低秩近似、推荐系统、理解“矩阵的主要能量在哪些方向”。
- 二次型与正定矩阵:优化中的曲率、协方差矩阵、核方法等。
- 矩阵微积分常见规则:读论文/推导更顺畅(尤其是向量化推导梯度)。
概率论
随机变量与分布
- 离散/连续随机变量
- 常见分布:Bernoulli、Binomial、Categorical、Gaussian(正态)、Uniform
- 用途:分类/回归常用的噪声假设与损失函数解释。
期望、方差、协方差
理解“平均风险/期望损失”、理解特征相关性、理解不确定性。
条件概率与贝叶斯公式
生成模型、朴素贝叶斯、贝叶斯视角的正则化(先验/后验)。
似然、最大似然估计 MLE、最大后验 MAP
很多损失函数可以从 MLE 推出来
信息论在 ML 里的常用量
分类训练的交叉熵损失、变分推断、生成模型(VAE 等)。
采样与大数定律的直觉
mini-batch SGD 为什么能工作、Monte Carlo 估计为何有效。
偏差-方差分解、泛化误差直觉
理解过拟合、模型复杂度、正则化为什么能提升泛化。
中心极限定理、置信区间、假设检验
更偏统计推断、实验分析、A/B test。
概率图模型、马尔可夫链、MCMC
更深的概率建模与贝叶斯方法。
← Previous postClaude Code深度使用技巧

