在机器学习和概率统计学中,$logit$ 是一个与概率、逻辑回归密切相关的概念,其核心是将概率值映射到实数域,以便进行线性建模和数学运算. 在深度学习语境中, $logit$ 则通常指神经网络模型的输出. $logit$ 也称为对数几率, 是对二分类概率的一种变换, 用于将取值范围为 $[0, 1]$ 的概率 $p$ 映射到 $(- \infty, + \infty)$ 的实数域.

定义

\[logit(p) = \ln(\frac {p} {1-p})\]

其中, $p$ 表示事件发生的概率, $\frac {p} {1-p}$ 称为几率 (odds, 表示事件发生与不发生的概率比值, 取值范围为 $(0, + \infty)$. 例如, $p=0.8$ 则几率为 $\frac {0.8} {0.2} = 4$, 即事件发生的可能性是不发生的 4 倍), $\ln(\cdot)$ 是自然对数.

意义

$logit$ 的作用是打破概率的取值范围限制, 概率 $p$ 只能在 $[0, 1]$ 之间, 无法直接作为线性模型的输出, 而 $logit$ 将概率转换为无界实数后, 就可以构建逻辑回归模型.

$Logit$ 和 逻辑回归 ($Sigmoid$ + 线性模型) 的区别

$Logit$ 函数将概率 $p$ 映射到实数域, 而 $Sigmoid$ 函数将实数 $z$ 映射到概率域.

逻辑回归是一种用于二分类或多标签分类的模型, 其核心是通过 $logit$ 的反函数 ($Sigmoid$ 函数) 将线性回归的输出映射到概率阈.

$\because$ 线性回归的输出为: $z = w^Tx + b$

$\because$ 通过 $Sigmoid$ 函数对 $z$ 进行转换: $p = Sigmoid(z) = \frac {1} {1 + e^{-z}}$

$\because$ 对等式两边取 $logit$ 变换得: $logit(p) = z = w^Tx + b$

$\therefore$ 逻辑回归本质上是对概率的 $logit$ 进行线性建模, 即事件发生的对数几率与输入特征成线性关系.

$Logit$ 的优势

  1. 数学形式简单, 仅涉及自然对数, 计算方便.

  2. 一阶导数为 $\frac {d \cdot logit(p)} {dp} = \frac {1} {p(1-p)}$, 其导数形式简洁, 便于在梯度下降法中计算.

  3. 反函数 ($Sigmoid$ 函数) 易于推导, 同样适合在梯度下降法中应用.