3.逻辑回归：从分类到正则化-EW帮帮网

一.分类：

1.概念：

分类中，输出变量y只能取少数几个可能值中的一个。

2.构建分类算法：

回答结果值只有两种：yes或者no，如以下图中所示。

其中，也可以用0或1，false或true表示结果值，其中0、no、false表示负例，而1，true和yes就是正例。

（1）线性回归：

不可取

如图所示为分类肿瘤是否为恶性的训练集示例，若在图中出现一个最右边的样本点，注意这个训练样本实际上不应该改变如何分类数据点，蓝色的垂直分界线任然合理，若一旦最右边添加额外的训练样本，线性回归的最佳拟合线将会像绿色线一样，若继续使用0.5阈值，则会将绿色垂直线左边预测为0，这不是合理的。

决策边界：线性回归导致最佳拟合线，当我们在右边添加一个样本时，向右移动从而分割线。

（2）逻辑回归：

<1>Sigmoid/逻辑函数：

逻辑回归模型作用：输入一个特征或一组特征x，输出一个在[0,1]之间的值

如图所示仍然以分类肿瘤为例，在<1>中线性回归不大合适，所以采用sigmoid函数，若一名患者由算法输出0.7，则偏向于恶性；这里机器所认为占恶性的比例70%，不是绝对的1或0。

如图所示为sigmoid函数的推导过程。

<2>决策边界：

如图所示，上述例子中，如何判断肿瘤占1的比例大，还是占0的比例大，我们将以预测值y=0.5为分割，什么时候是f>=0.5?（当g(z)>=0.5,z>=0）如图中推导：

如图所示，图一中有两个特征，所示式子是z=w1x1+w2x2+b，要求决策边界，所以令z=0，去求特征值，蓝色区域是好类，黄色区域是差类，决策边界是紫色的线；图二比较复杂，采用多项式进行运算决策边界，紫色内区域是预测值为1；反之是预测值为正类；图三表示更复杂的模型，可能需要更复杂的多项式去求解，只是比了个例子而已。

<3>代价函数：

<3.1>损失与代价区分：

<3.2>推导过程：

成本函数提供了一种衡量特定参数集与训练数据适合度的方法，进而可以选择一个更好参数的方法。接下来将重点讨论为什么平方误差成本函数不是逻辑回归理想成本函数？并介绍一种可以帮助我们为逻辑回归选择更好参数的不同成本函数：

下图是可以逻辑回归模型的训练集，这里每一行可能对应一个患者，

该图中L是学习算法预测f(x)的函数以及真实值y，因此给定预测f（x）和真实值y的损失，在这种情况下等于1/2的平方差，选择不同的损失函数L，可以保持整体成本函数J作为一个凸函数。

损失函数衡量的是单个训练样本的表现，通过对所有训练样本损失求和，可以得到J。

如图所示为逻辑回归的损失函数定义，若y=1，则损失函数就是-log（f（x）），绘制图像，在f（x）=1时与x轴相交，因为是逻辑回归值介于[0,1]，所以函数作用范围只截取粉色段放大,；分析：若算法预测概率接近1，真实值为1时，那么损失是非常小的，几乎为0；例【若肿瘤检测预测值为0.5，真实值为1，损失在曲线中间的黄色圈圈；若预测为0.1，则损失值非常高】。