码迷,mamicode.com
首页 > 系统相关 > 详细

Coursera Machine Learning 学习笔记(十三)

时间:2015-04-04 23:48:32      阅读:450      评论:0      收藏:0      [点我收藏+]

标签:machine learning

VI. Logistic Regression (Week 3)

- Classification

       在分类问题中,我们所尝试预测的是结果是否属于某一类(例如正确或错误)。分类问题的例子有:判断一封电子邮件是否是垃圾邮件;判断一封电子邮件是否是垃圾邮件;判断一次金融交易是否是欺诈等等。

       我们从二元的分类问题开始讨论。

       我们将因变量(dependent variable)可能属于的两个类分别称为负向类(negative class)和正向类(positive class),则因变量

       技术分享

- Hypothesis representation

       下面,我们回顾一开始提到的乳腺癌分类问题,我们可以用线性回归的方法求出适合数据的一条直线。

       技术分享

       根据线性回归模型我们只能预测连续的值,然而对于分类问题,我们需要输出0或1,我们可以预测:

       技术分享

        对于上图所示的数据,这样的一个线性模型似乎能很好地完成分类任务。然而,假设我们又观测到一个非常大尺寸的恶性肿瘤,将其作为实例加入到我们的训练集中来,这将使得我们获得一条新的直线。

       技术分享

       此时,再使用0.5作为阈值来预测肿瘤是良性还是恶性便不合适了。可以看出,线性回归模型,因为其预测的值可以超越[0,1]的范围,并不适合解决这样的问题。

       于是,我们引入一个新的模型,逻辑回归,该模型的输出变量范围始终在0和1之间。

       技术分享

       其中,技术分享的作用是,对于给定的输入变量,根据选择的参数计算输出变量=1的可能性(estimated probability),即

       技术分享

       例如,如果对于给定的x,通过已经确定的参数计算得出技术分享,则表示有百分之70的几率y为正向类,相应的y为负向类的几率为1 - 0.7 = 0.3。

- Decision boundary

       在逻辑回归中,我们预测:

       技术分享

       根据之前绘制出的S形函数图像,我们知道当:

       技术分享

        又技术分享,即:

       技术分享

       举个例子,假设我们有一个模型:技术分享并且参数技术分享是向量[-3 1 1]。

       则当技术分享大于等于0,即技术分享大于等于3时,模型将预测y = 1。

       我们可以绘制直线技术分享,这直线便是我们模型的分界线,将预测为1的区域和预测为0的区域分隔开。

       技术分享

       假使我们的数据呈现如下情况,究竟需要怎样的模型才合适呢?

       技术分享

       因为需要用曲线才能分隔开y = 0的区域和y = 1的区域,我们需要二次方特征:

       技术分享

        假设参数是[-1 0 0 1 1],则我们得到的判定边界恰好是圆点在原点且半径为1的圆形。

        我们可以用非常复杂的模型来适应非常复杂形状的判定边界。

       

Coursera Machine Learning 学习笔记(十三)

标签:machine learning

原文地址:http://blog.csdn.net/jojozhangju/article/details/44877957

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!