AI课程笔记-1

杂记

记录比较不熟悉, 或者比较直观的理解


关于不熟的损失函数

1. Focal Loss (类不平衡场景)

直观理解

在目标检测(如检测图中的大楼)时,背景(负样本)的数量远多于目标(正样本)。传统的交叉熵损失中,大量简单的背景样本虽然单个损失小,但累加起来会淹没少量的困难样本。Focal Loss 通过给损失加一个“调节开关”:如果样本容易分类(预测概率 pp 接近 1),就大幅降低它的权重;如果样本难分类,权重相对保持。

数学推导

标准的二分类交叉熵(Binary Cross Entropy, BCE)定义为:

CE(p,y)={log(p)if y=1log(1p)if y=0CE(p, y) = \begin{cases} -\log(p) & \text{if } y=1 \\ -\log(1-p) & \text{if } y=0 \end{cases}

定义 ptp_t 简化表达:

pt={pif y=11pif y=0    CE(p,y)=log(pt)p_t = \begin{cases} p & \text{if } y=1 \\ 1-p & \text{if } y=0 \end{cases} \implies CE(p, y) = -\log(p_t)

Focal Loss 在此基础上引入了调制因子 (1pt)γ(1-p_t)^\gamma

FL(pt)=(1pt)γlog(pt)FL(p_t) = -(1-p_t)^\gamma \log(p_t)

  • 当样本易分类时pt1p_t \to 1,则 (1pt)γ0(1-p_t)^\gamma \to 0,损失被显著抑制。
  • 当样本难分类时pt0p_t \to 0,则 (1pt)γ1(1-p_t)^\gamma \to 1,损失几乎不受影响。
  • 常数 α\alpha 用于进一步平衡正负样本比例。

2. Dice Loss (图像分割场景)

直观理解

图像分割本质上是像素级的分类。如果目标只占图像的 1%,即使模型预测全是背景,准确率也有 99%,但这对分割毫无意义。Dice Loss 直接优化预测区域与真实区域的相交程度。它只关心“对上的部分”,不关心“背景有多大”。

数学推导

Dice 系数(Dice Coefficient)源于集合论,用于衡量两个集合的相似度:

DSC(A,B)=2ABA+BDSC(A, B) = \frac{2|A \cap B|}{|A| + |B|}

在计算机视觉中,设 xix_i 为预测概率,yiy_i 为真实标签(0 或 1):

  1. AB|A \cap B| 对应元素相乘求和:xiyi\sum x_i y_i
  2. A+B|A| + |B| 对应元素各自求和:xi+yi\sum x_i + \sum y_i

得到 Dice 系数公式:

Dice(X,Y)=2ixiyiixi+iyiDice(X, Y) = \frac{2\sum_i x_i y_i}{\sum_i x_i + \sum_i y_i}

由于我们要最小化损失,而 DiceDice 越大越好(最大为 1),因此定义 Dice Loss 为:

DiceLoss(X,Y)=12ixiyiixi+iyiDiceLoss(X, Y) = 1 - \frac{2\sum_i x_i y_i}{\sum_i x_i + \sum_i y_i}


3. Hinge Loss (支持向量机)

直观理解

Hinge Loss(合页损失)是一种“不满足就惩罚”的策略。它不仅要求你分类正确,还要求你分类得足够自信(超过一个安全边际 Margin)。如果分类正确但离边界太近(不够自信),它依然会给你微小的惩罚;一旦分类错误,惩罚随距离线性增加。

数学推导

在 SVM 中,我们希望 yif(xi)1y_i \cdot f(x_i) \geq 1(这里 yi{+1,1}y_i \in \{+1, -1\})。

  • 情况 1:分类正确且信心十足

    如果 yif(xi)1y_i \cdot f(x_i) \geq 1,说明预测值与真实值同号且绝对值大,此时损失应为 00

  • 情况 2:分类错误或离边界太近

    如果 yif(xi)<1y_i \cdot f(x_i) < 1,此时损失为距离目标边界的差值,即 1yif(xi)1 - y_i f(x_i)

综合上述两种情况,得到:

HingeLoss=max(0,1yif(xi))HingeLoss = \max(0, 1 - y_i f(x_i))

严谨性注记

这个函数在 yif(xi)=1y_i f(x_i) = 1 处是不可导的(转折点),在实际工程中通常使用次梯度(Sub-gradient)或其平滑变体进行优化。

关于目标


1. 期望风险:机器学习的理想目标

直观理解

假设你有一台能预知未来的机器,它知道世界上所有可能出现的 XX(特征)和 YY(标签)的组合及其出现的概率。期望风险就是这台模型在无穷多未来预测中产生的“平均损失”。

数学背景

机器学习的目标是找到一个函数 ff,使得在联合概率分布 P(X,Y)P(X, Y) 下的损失期望达到最小:

Rexp(f)=EXY[loss(Y,f(X))]=loss(y,f(x))dP(x,y)R_{exp}(f) = \mathbb{E}_{XY}[\text{loss}(Y, f(X))] = \int \text{loss}(y, f(x)) dP(x, y)

  • 局限性:在现实中,联合分布 P(X,Y)P(X, Y)未知的,我们无法直接计算这个积分。

2. 经验风险:务实的近似

直观理解

既然不知道整体分布,我们只能基于手头已有的 nn 个“经验数据”(训练集)来评估模型。经验风险就是模型在nn 个已知样本上的平均损失。

数学背景

利用训练数据集 {(X(j),Y(j))}j=1n\{(X^{(j)}, Y^{(j)})\}_{j=1}^n 计算均值:

Remp(f)=1nj=1nloss(Y(j),f(X(j)))R_{emp}(f) = \frac{1}{n} \sum_{j=1}^n \text{loss}(Y^{(j)}, f(X^{(j)}))

机器学习的实际操作通常是去寻找最小化该值的函数 minfRemp(f)\min_f R_{emp}(f)


3. 数学连接:为什么可以这样做?

这种近似的严谨性建立在大数定律 (Law of Large Numbers) 之上:

当样本量 nn \to \infty 时,样本均值(经验风险)以概率 11 收敛于其数学期望(期望风险):

P(limnRemp(f)=Rexp(f))=1P\left( \lim_{n \to \infty} R_{emp}(f) = R_{exp}(f) \right) = 1

这意味着:只要数据量足够大,你在训练集上优化的目标函数,在逻辑上是趋近于理想目标的。


4. 经验风险最小化的局限(ERM 的陷阱)

虽然数学上收敛,但在实际有限样本(nn 为常数)的情况下,ERM 存在核心矛盾:

  • 过拟合 (Overfitting):如果模型 ff 的复杂度过高,它可能仅仅为了让 RempR_{emp} 趋近于 00 而记住了噪声,但这并不能保证 RexpR_{exp} 同样小。
  • 结构风险最小化 (SRM):为了防止 ERM 失效,通常会在公式后面加上正则化项 (Regularization) λΩ(f)\lambda \Omega(f),从而平衡“经验误差”与“模型复杂度”。

f=argminf(1nj=1nloss(Y(j),f(X(j)))+λΩ(f))f^* = \arg\min_f \left( \frac{1}{n} \sum_{j=1}^n \text{loss}(Y^{(j)}, f(X^{(j)})) + \lambda \Omega(f) \right)

以下内容估计无法在期中考试前理解,遂先存放于此:

关于正则化与贝叶斯解释


1. 直观理解

几何视角:给不稳定的空间“加点刚度”

在线性代数中,ATA\mathbf{A}^T\mathbf{A} 不可逆意味着特征空间中存在冗余,导致投影方向不唯一。从几何上看,岭回归(Ridge Regression)通过在对角线上加上 λ\lambda,相当于在损失函数的等高线上施加了一个圆形的约束。这迫使解不能无限延伸,从而在损失一点点训练集精度(Bias)的代价下,极大增强了模型在面对扰动时的稳定性(Variance)。

贝叶斯视角:我有“先验”偏见

之前我们默认参数 β\beta 取任何值概率都一样,但现在我们增加了一个先验假设:我们认为 β\beta 不应该太大。引入 βN(0,τ2I)\beta \sim \mathcal{N}(0, \tau^2 I) 意味着我们倾向于让模型权重趋向于 0,除非数据给出了极强的证据证明某项特征非常重要。


2. 严谨数学推导:从贝叶斯到 MAP

我们要证明:对权重施加高斯先验的最大后验估计(MAP),等价于 L2 正则化的最小二乘法。

步骤 1:贝叶斯公式

根据贝叶斯定理,后验概率正比于似然函数与先验概率的乘积:

P(βY,X)P(YX,β)P(β)P(\beta | Y, X) \propto P(Y | X, \beta) \cdot P(\beta)

步骤 2:定义概率分布

  1. 似然函数 P(YX,β)P(Y | X, \beta):假设噪声服从高斯分布 ϵN(0,σ2)\epsilon \sim \mathcal{N}(0, \sigma^2),则样本似然为:

    P(YX,β)exp(12σ2i=1n(YiXiβ)2)P(Y | X, \beta) \propto \exp\left( -\frac{1}{2\sigma^2} \sum_{i=1}^n (Y_i - X_i \beta)^2 \right)

  2. 先验分布 P(β)P(\beta):图片给定 βN(0,τ2I)\beta \sim \mathcal{N}(0, \tau^2 I),即:

    P(β)exp(12τ2β22)P(\beta) \propto \exp\left( -\frac{1}{2\tau^2} \|\beta\|_2^2 \right)

步骤 3:取对数并最大化后验 (MAP)

最大化后验概率等价于最小化负对数后验:

logP(βY,X)12σ2i=1n(YiXiβ)2+12τ2β22-\log P(\beta | Y, X) \propto \frac{1}{2\sigma^2} \sum_{i=1}^n (Y_i - X_i \beta)^2 + \frac{1}{2\tau^2} \|\beta\|_2^2

提取系数 12σ2\frac{1}{2\sigma^2},令 λ=σ2τ2\lambda = \frac{\sigma^2}{\tau^2},目标函数变为:

minβi=1n(YiXiβ)2+λβ22\min_\beta \sum_{i=1}^n (Y_i - X_i \beta)^2 + \lambda \|\beta\|_2^2

这正是图片中给出的岭回归目标函数。


3. 闭式解的推导

利用矩阵微积分对目标函数 J(β)=(YAβ)T(YAβ)+λβTβJ(\beta) = (\mathbf{Y} - \mathbf{A}\beta)^T(\mathbf{Y} - \mathbf{A}\beta) + \lambda \beta^T \beta 求导:

  1. 展开梯度

    Jβ=2AT(YAβ)+2λβ\frac{\partial J}{\partial \beta} = -2\mathbf{A}^T(\mathbf{Y} - \mathbf{A}\beta) + 2\lambda\beta

  2. 令梯度为零

    ATAβ+λβ=ATY\mathbf{A}^T\mathbf{A}\beta + \lambda\beta = \mathbf{A}^T\mathbf{Y}

    (ATA+λI)β=ATY(\mathbf{A}^T\mathbf{A} + \lambda\mathbf{I})\beta = \mathbf{A}^T\mathbf{Y}

  3. 求得闭式解

    β^=(ATA+λI)1ATY\hat{\beta} = (\mathbf{A}^T\mathbf{A} + \lambda\mathbf{I})^{-1}\mathbf{A}^T\mathbf{Y} \text{}


4. 性质深度解析

  • 应对共线性ATA\mathbf{A}^T\mathbf{A} 若不满秩,其特征值中会有 0。加上 λI\lambda \mathbf{I} 后,矩阵的所有特征值至少为 λ>0\lambda > 0,从而保证了矩阵严格可逆。
  • 平滑压缩权重:L2 范数(βj2\sum \beta_j^2)对大权重的惩罚极重,对小权重的惩罚逐渐变轻,因此它会倾向于让所有权重都变小,但通常不会像 L1(Lasso)那样将其直接压缩到 0。
  • 泛化能力:通过引入 λ\lambda(正则化系数),我们在训练集误差和模型复杂度之间做了权衡(Bias-Variance Tradeoff),有效抑制了过拟合。