学习了线性回归,它预测了一个数字,接下来学习分类,输入变量y只能接收少数几个可能的值中的一个,而不是无限范围内的任何数字。事实证明,线性回归不是分类问题的好算法。这将引入一种不同的算法,叫做Logistic回归。它是当今最流行和使用最广泛的学习算法之一。
下面是一些分类问题的例子,回想一下试图弄清楚电子邮件是否是垃圾邮件的例子,所以你想要输出的答案要么否定的,要么是肯定的;另有一个例子是弄清楚在线金融交易是否是欺诈性的,所以问题是给一个金融交易,你的学习算法能计算出这笔交易时欺诈性的吗?比如这张信用卡被偷了吗?我们之前提到的另一个例子,试图将肿瘤归类为恶性肿瘤,而不是这些问题中的每一个,要预测的变量只能是两个可能值之一,这种只有两个可能输出的分类问题称为二进制分类。其中二进制一词指的是在这些问题中只有两种可能的类别或两种可能的类别,我将相对互换地使用术语类别,它们意思基本上是一样的,按惯例,我们可以用几种常见的方法来引用这两个类或范畴,我们经常将类指定为“否”或“是”,或者有时等价的假的或真的,或者通常使用数字零或一,遵循计算机科学的共同惯例,零表示假,一表示真,通常用数字0和1来表示答案,因为这将最容易适应我们想要实现的学习算法类型,但当我们谈论它的时候,我们经常说“不”或“是”,或假或真,常用的术语之一是调用false或zero类型,消极阶级和真正的或唯一的阶级,积极的阶级。例如,用于垃圾邮件分类,不是垃圾邮件的电子邮件可能被称为负面例子,因为问题的输出是垃圾邮件,输出为no或零。相比之下,一封垃圾邮件可以被称为一个积极的训练例子,因为答案是垃圾邮件是肯定的还是正确的,或者是一个明确的,消极和积极并不一定意味着好与坏,只是用否定的和肯定的例子来表达缺席的概念 ,或零或假,与存在或真实你可能在寻找的东西之一,例如垃圾邮件的不存在或存在,或电子邮件的垃圾邮件属性或者不存在欺诈活动。你说哪个是假的还是零的,你说哪个是真的还是有点武断,通常任何一种选择都可能奏效,所以一个不同的工程师可能会把它调换一下,有一个积极的类,有一封好的电子邮件,或者积极的阶级是真实地金融交易或健康的病人的存在。
如何构建分类算法
下面是一个用于分类的训练集的示例,如果肿瘤是恶性的,一级,正类,或良性类零或负类,在第一周的垂直轴上还有标签Y,当我们第一次谈到分类时,这就是我们之前在数字线上可视化它的方式,除了现在我们把这类称为0和1,把它们画在垂直轴上,现在,你可以在这个训练集上尝试的一件事是应用算法,即线性回归,试着把一条直线拟合到数据上,如果你那样做,可能直线是这样的吧,线性回归预测的不仅仅是零和一,但是0和1之间的所有数字甚至小于0或 大于1,但这里我们想预测类别,你可以尝试的一件事是选择一个阙值,比如0.5.所以如果模型输出的值低于0.5,那么你预测y=0或者不是恶性的,如果模型输出的数字=或>0.5,然后预测y=1或恶行,注意这个0.5的阙值,此时最佳拟合直线,所以如果在这里画一条垂直线,左边的一切都以y=0的预测结束,右边的一切都以y=1的预测结束,对于这个特定的数据集,看起来线性回归可以做一些合理的事情,现在让我们看看会发生什么,如果你的数据集还有一个训练示例,在右边的这个方向,我们也把横轴延长那个,请注意,这个培训示例不应该真正更改,如何对数据点进行分类,我们刚才画的这个垂直分界线还是有意义的,因为2<这个的截止值应该被归类为零,但是一旦你在右边添加了这个额外的训练示例,线性回归的最佳拟合线就会像这样移动,如果你继续使用0.5的阙值,注意到,这一点左边的所有东西都被预测为零非恶行,在这一点右边的所有东西都被预测为一个或恶性的,这不是我们想要的,因为,将该示例添加到右侧不应该改变我们的任何结论,关于如何对恶行肿瘤和良性肿瘤进行分类,但是如果你试着用线性回归来做到这一点,加上这个例子,感觉它不应该改变任何事情,最后我们清楚的了解了这个分类问题的一个更糟糕的函数,当肿瘤很大的时候,我们想让算法把它归类为恶性,所以我们刚才看到的是线性回归导致最佳拟合线,当我们在右边增加一个例子来转移,因此,分界线也称为向右移动的决定边界。