【机器学习】逻辑回归为什么叫\"回归\",sigmoid又是怎么来的

作者:LogM

文章中的数学公式若无法正确显示,请参见:正确显示数学公式的小技巧

1. 逻辑回归模型

逻辑回归模型的公式可以写作:

$$P(Y=1|x) = \frac{1}{1+e^{-wx}}$$

$$P(Y=0|x) = \frac{e^{-wx}}{1+e^{-wx}}$$

2. 逻辑回归的几率

事件的几率(odd)被定义为:

$$odd = \frac{p}{1-p}$$

所以,对数几率(log odds)或称 logit 函数为:

$$logit(p) = log \frac{p}{1-p}$$

带入逻辑回归模型后,有:

$$log \frac{P(Y=1|x)}{1-P(Y=1|x)} = w \cdot x$$

可以发现,对数几率 $logit(p)$ 与 $x$ 是线性关系,所以可以称作"回归"。

3. sigmoid 函数是怎么来的

逻辑回归需要解决的二分类问题,实际上是要建模:

$$P(Y=1|x) = f(wx)$$

$Y|x$ 的分布是伯努利分布,$wx$ 的分布是正态分布,函数 $f(x)$ 需要将正态分布映射到伯努利分布。什么样的函数具有这样的性质呢?数学家找到了 $f(x) = sigmoid(x)$。

4. 最准确的解释

其实上面解释"逻辑回归为什么叫回归"和"逻辑回归为什么使用sigmoid"的过程是不太准确的,是为了方便读者理解。对大多数同学来说,理解上面的解释就足够了。

如果要准确理解"逻辑回归"的话,需要读者事先知道广义线性模型,这需要比较深的数学基础。

这块涉及的知识太多,我这边就简单提一下,需要读者自己去看PRML这本书。

线性回归是"广义线性模型"的一种,逻辑回归也是"广义线性模型"的一种。线性回归的联结函数是恒等函数,所以线性回归不需要激活函数;逻辑回归的联结函数是sigmoid函数,所以逻辑回归的激活函数是sigmoid函数。

相关推荐