逻辑回归分类

考虑二分类问题，其中每个样本由一个特征向量表示。

直观理解：将特征向量 $\text{x}$ 映射到一个实数 $\text{w}^T\text{x}$

概率解释：在这里插入图片描述

注意：在逻辑回归中通常使用的变换函数是sigmoid函数。

Logistic Regression Classification

条件概率：

逻辑函数 / sigmoid函数：

当 z 趋近正无穷时，逻辑函数趋近于1。
当 z 趋近负无穷时，逻辑函数趋近于0。
当 z = 0 时，逻辑函数等于0.5，表示两个类别的概率相等。
给定输入 x，正类的概率表示为：
$\,|\, x) =\sigma(w^Tx) = \cfrac{1}{1 + e^{-w^T x}} = \cfrac{e^{w^T x}}{1 + e^{w^T x}}$
给定输入 x，负类的概率表示为：
$\,|\, x) = 1 - p(y = 1 \,|\, x) = \cfrac{1}{1 + e^{w^T x}}$

在逻辑回归中，我们使用log odds（对数几率）来建模。
一个事件的几率(odds)：该事件发生的概率与不发生的概率的比值， $\cfrac{p}{1-p}$ 。
log odds / logit function: $\log\left(\cfrac{p}{1-p}\right)$ 。
Log odds for logistic regression: $\log\left(\cfrac{p(y=1|x)}{1-p(y=1|x)}\right) = w^Tx$ 。

在逻辑回归中，我们通过学习适当的权重 $w$ 来建立一个线性模型，该模型可以将输入特征 $x$ 映射到对数几率(log odds)上。然后，通过对对数几率应用逻辑函数（sigmoid函数）来得到分类概率。

决策边界：在这里插入图片描述

决策规则：

对于线性逻辑回归，决策边界是一个线性函数，用于将特征空间划分为两个不同的类别区域。

在逻辑回归中，我们观察标签并测量它们在模型下的概率。在这里插入图片描述

给定参数 $w$ ，样本的条件对数似然函数为：
在这里插入图片描述

对数似然函数的表达式为：
在这里插入图片描述

其中， $N$ 是样本数量， $x_i$ 是第 $i$ 个样本的特征向量， $y_i$ 是第 $i$ 个样本的标签。

通过最大化对数似然函数来估计参数 $w$ ，可以找到最佳的参数值，使得模型的概率预测与观察到的标签尽可能一致。

训练逻辑回归模型（即找到参数 $w$ ）可以通过最大化训练数据的条件对数似然函数或最小化损失函数来完成。在这里插入图片描述

最大化条件对数似然函数 or 最小化损失函数：
在这里插入图片描述

其中， $N$ 是训练数据的样本数量， $x_i$ 是第 $i$ 个样本的特征向量， $y_i$ 是第 $i$ 个样本的标签。

通过最大化条件对数似然函数或最小化损失函数，我们可以找到最优的参数 $w$ ，使得模型能够最好地拟合训练数据，并能够准确地预测新的样本标签。常用的优化算法，如梯度下降法或牛顿法，可以用于求解最优参数。

梯度下降是一种常用的优化算法，用于求解最小化损失函数的问题。
在这里插入图片描述

梯度下降的步骤如下：

初始化参数 $w$ 的值。
重复以下步骤直到满足停止条件：
- 计算损失函数 $J (w)$ 对参数 $w$ 的梯度，即 $\cfrac{\partial J(w)}{\partial w}$ 。
- 根据学习率 $\alpha$ ，更新参数 $w$ 的值： $w_j := w_j - \alpha \cfrac{\partial J(w)}{\partial w_j}$ ，对所有参数 $w_j$ 同时进行更新。