Coursera Machine Learning 学习笔记（十三）

时间：2015-04-04 23:48:32 阅读：450 评论：0 收藏：0 [点我收藏+]

VI. Logistic Regression (Week 3)

- Classification

在分类问题中，我们所尝试预测的是结果是否属于某一类（例如正确或错误）。分类问题的例子有：判断一封电子邮件是否是垃圾邮件；判断一封电子邮件是否是垃圾邮件；判断一次金融交易是否是欺诈等等。

我们从二元的分类问题开始讨论。

我们将因变量（dependent variable）可能属于的两个类分别称为负向类（negative class）和正向类（positive class），则因变量

技术分享

- Hypothesis representation

下面，我们回顾一开始提到的乳腺癌分类问题，我们可以用线性回归的方法求出适合数据的一条直线。

技术分享

根据线性回归模型我们只能预测连续的值，然而对于分类问题，我们需要输出0或1，我们可以预测：

技术分享

对于上图所示的数据，这样的一个线性模型似乎能很好地完成分类任务。然而，假设我们又观测到一个非常大尺寸的恶性肿瘤，将其作为实例加入到我们的训练集中来，这将使得我们获得一条新的直线。

技术分享

此时，再使用0.5作为阈值来预测肿瘤是良性还是恶性便不合适了。可以看出，线性回归模型，因为其预测的值可以超越[0,1]的范围，并不适合解决这样的问题。

于是，我们引入一个新的模型，逻辑回归，该模型的输出变量范围始终在0和1之间。

技术分享

其中，技术分享的作用是，对于给定的输入变量，根据选择的参数计算输出变量=1的可能性（estimated probability），即

技术分享

例如，如果对于给定的x，通过已经确定的参数计算得出技术分享，则表示有百分之70的几率y为正向类，相应的y为负向类的几率为1 - 0.7 = 0.3。

- Decision boundary

在逻辑回归中，我们预测：

技术分享

根据之前绘制出的S形函数图像，我们知道当：

技术分享

又技术分享，即：

技术分享

举个例子，假设我们有一个模型：技术分享并且参数是向量[-3 1 1]。

则当技术分享大于等于0，即大于等于3时，模型将预测y = 1。

我们可以绘制直线技术分享，这直线便是我们模型的分界线，将预测为1的区域和预测为0的区域分隔开。

技术分享

假使我们的数据呈现如下情况，究竟需要怎样的模型才合适呢？

技术分享

因为需要用曲线才能分隔开y = 0的区域和y = 1的区域，我们需要二次方特征：

技术分享

假设参数是[-1 0 0 1 1]，则我们得到的判定边界恰好是圆点在原点且半径为1的圆形。

我们可以用非常复杂的模型来适应非常复杂形状的判定边界。

原文地址：http://blog.csdn.net/jojozhangju/article/details/44877957

踩

(0)

评论一句话评论（0）

分享档案

更多>

周排行