线性回归

时间：2019-12-08 15:31:08 阅读：181 评论：0 收藏：0 [点我收藏+]

标签：轻松成功理论 not generate advance 梯度 lua flag

单变量线性回归 (Linear Regression with One Variable)

模型表示（Model Representation）

我们的第一个学习算法是线性回归算法在这段视频中你会看到这个算法的概况更重要的是你将会了解监督学习过程完整的流程让我们通过一个例子来开始这个例子是预测住房价格的我们要使用一个数据集数据集包含俄勒冈州波特兰市的住房价格在这里我要根据不同房屋尺寸所售出的价格画出我的数据集比方说我们来看这个数据集你有一个朋友正想出售自己的房子如果你朋友的房子是1250平方尺大小你要告诉他们这房子能卖多少钱那么你可以做的一件事就是构建一个模型也许是条直线从这个数据模型上来看也许你可以告诉你的朋友他能以大约220000(美元)左右的价格卖掉这个房子那么这就是监督学习算法的一个例子它被称作监督学习是因为对于每个数据来说我们给出了 “正确的答案” 即告诉我们根据我们的数据来说房子实际的价格是多少而且更具体来说这是一个回归问题回归一词指的是我们根据之前的数据预测出一个准确的输出值对于这个例子就是价格同时还有另一种最常见的监督学习方式叫做分类问题当我们想要预测离散的输出值例如如果我们正在寻找癌症肿瘤并想要确定肿瘤是良性的还是恶性的这就是0/1离散输出的问题更进一步来说在监督学习中我们有一个数据集这个数据集被称训练集因此对于房价的例子我们有一个训练集包含不同的房屋价格我们的任务就是从这个数据中学习预测房屋价格现在我们给出这门课中经常使用的一些符号定义我们要定义颇多符号不过没关系现在你记不住所有的符号也没关系随着课程的进展你会发现记住这些符号会很有用我将在整个课程中用小写的m 来表示训练样本的数目因此在这个数据集中如果表中有47行那么我们就有47组训练样本 m就等于47 让我用小写字母x来表示输入变量往往也被称为特征量这就是用x表示输入的特征并且我们将用y来表示输出变量或者目标变量也就是我的预测结果那么这就是第二列在这里我要使用(x, y)来表示一个训练样本所以在这个表格中的单独的一行对应于一个训??练样本为了表示某个训练样本我将使用x上标(i)与y上标(i)来表示并且用这个表示第i个训练样本所以这个上标 i 看这里这不是求幂运算这个(x(i), y(i)) 括号里的上标i 只是一个索引表示我的训练集里的第i行这里不是x的i和y的i次方仅仅是指(x(i), y(i))是在此表中的第 i 行举个例子 x(1) 指的是第一个训练集里值为2104的输入值这个就是第一行里的x x(2) 等于1416吧? 这是第二个x y(1) 等于460 这是我第一个训练集样本的y值这就是(1)所代表的含义像之前一样我会问你一个问题需要几秒的时间检查一下你的理解程度在这个视频片段中有时会有视频选择题弹出当它弹出的时候请使用鼠标来选择你认为正确的答案这就是一个监督学习算法的工作方式我们可以看到这里有我们的训练集里房屋价格我们把它喂给我们的学习算法这就是学习算法的工作了然后输出一个函数按照惯例通常表示为小写h h代表hypothesis(假设) h表示一个函数输入是房屋尺寸大小就像你朋友想出售的房屋因此 h 根据输入的 x 值来得出 y 值 y值对应房子的价格因此 h是一个从x到y的函数映射人们经常问我为什么这个函数被称作假设(hypothesis) 你们中有些人可能知道hypothesis的意思从字典或者其它什么方式可以查到其实在机器学习中这是一个在早期被用于机器学习的名称它有点绕口对这类函数来说这可能不是一个很恰当的名字对表示从房屋的大小到价格的函数映射我认为这个词"hypothesis" 可能不是最好的名称但是这是人们在机器学习中使用的标准术语所以不用太纠结人们为什么这么叫它当设计学习算法的时候我们接下来需要去思考的是怎样得到这个假设h 对于这一点在接下来的几个视频中我将选择最初的使用规则 h代表hypothesis 我们把h写成hθ(x)=θ?+θ?x 有时候简单起见， hθ(x) 我就写成h(x) 这是缩写方式但一般来说我会保留这个下标θ 从这个图片中所有这一切意味着我们要预测一个关于x的线性函数 y 对吧? 所以这就是数据集和函数的作用用来预测这里是y关于x的线性函数 hθ(x)=θ0+θ1*x 那么为什么是一个线性函数呢? 有时候我们会有更复杂的函数也许是非线性函数但是由于线性方程是简单的形式我们将先从线性方程的例子入手当然最终我们将会建立更复杂的模型以及更复杂的学习算法好吧让我们也给这模型起一个名字这个模型被称为线性回归(linear regression)模型另外这实际上是关于单个变量的线性回归这个变量就是x 根据x来预测所有的价格函数同时对于这种模型有另外一个名称称作单变量线性回归单变量是对一个变量的一种特别的表述方式总而言之这就是线性回归在接下来的视频中我们将开始讨论如何去实现这种模型

代价函数（Cost Function）

在这段视频中我们将定义代价函数的概念这有助于我们弄清楚如何把最有可能的直线与我们的数据相拟合
0:10
在线性回归中我们有一个像这样的训练集记住 M代表了训练样本的数量所以比如 M = 47 而我们的假设函数也就是用来进行预测的函数是这样的线性函数形式
0:22
接下来我们会引入一些术语这些θ0和θ1
0:26
这些θi我把它们称为模型参数在这个视频中我们要做的就是谈谈如何选择这两个参数值θ0和θ1 选择不同的参数θ0和θ1 我们会得到不同的假设不同的假设函数我知道你们中的有些人可能已经知道我在这张幻灯片上要讲的但我们还是用这几个例子来复习回顾一下如果θ0是1.5 θ1是0 那么假设函数会看起来是这样是吧因为你的假设函数是h(x)=1.5+0*x 是这样一个常数函数恒等于1.5 如果θ0=0并且θ1=0.5 那么假设会看起来像这样
1:10
它会通过点(2,1) 这样你又得到了h(x) 或者hθ(x) 但是有时我们为了简洁会省略θ 因此 h(x)将等于0.5倍的x 就像这样最后如果θ0=1并且θ1=0.5 我们最后得到的假设会看起来像这样让我们来看看它应该通过点(2,2) 这是我的新的h(x)或者写作hθ(x) 对吧？你还记得之前我们提到过hθ(x)的但作为简写我们通常只把它写作h(x) 在线性回归中我们有一个训练集可能就像我在这里绘制的我们要做的就是得出θ0 θ1这两个参数的值来让假设函数表示的直线尽量地与这些数据点很好的拟合也许就像这里的这条线一样那么我们如何得出θ0 θ1的值来使它很好地拟合数据的呢？我们的想法是我们要选择
2:13
能使h(x) 也就是输入x时我们预测的值最接近该样本对应的y值的参数θ0 θ1 所以在我们的训练集中我们会得到一定数量的样本我们知道x表示卖出哪所房子并且知道这所房子的实际价格
2:34
所以我们要尽量选择参数值使得在训练集中给出训练集中的x值
2:42
我们能合理准确地预测y的值让我们给出标准的定义在线性回归中我们要解决的是一个最小化问题所以我要写出关于θ0 θ1的最小化而且我希望这个式子极其小是吧我想要h(x)和y之间的差异要小我要做的事情是尽量减少假设的输出与房子真实价格之间的差的平方明白吗？接下来我会详细的阐述别忘了我用符号( x(i),y(i) )代表第i个样本所以我想要做的是对所有训练样本进行一个求和对i=1到i=M的样本将对假设进行预测得到的结果此时的输入是第i号房子的面积对吧将第i号对应的预测结果减去第i号房子的实际价格所得的差的平方相加得到总和而我希望尽量减小这个值也就是预测值和实际值的差的平方误差和或者说预测价格和实际卖出价格的差的平方我说了这里的m指的是训练集的样本容量对吧这个井号是训练样本“个数”的缩写对吧而为了让表达式的数学意义变得容易理解一点我们实际上考虑的是这个数的1/m 因此我们要尝试尽量减少我们的平均误差也就是尽量减少其1/2m 通常是这个数的一半前面的这些只是为了使数学更直白一点因此对这个求和值的二分之一求最小值应该得出相同的θ0值和相同的θ1值来请大家一定弄清楚这个道理没问题吧？在这里hθ(x)的这种表达这是我们的假设
4:22
它等于θ0加上θ1与x(i)的乘积而这个表达表示关于θ0和θ1的最小化过程这意味着我们要找到θ0和θ1 的值来使这个表达式的值最小这个表达式因θ0和θ1的变化而变化对吧？因此简单地说我们正在把这个问题变成找到能使我的训练集中预测值和真实值的差的平方的和的1/2M最小的θ0和θ1的值因此这将是我的线性回归的整体目标函数为了使它更明确一点我们要改写这个函数按照惯例我要定义一个代价函数正如屏幕中所示这里的这个公式我们想要做的就是关于θ0和θ1 对函数J(θ0,θ1)求最小值这就是我的代价函数代价函数也被称作平方误差函数有时也被称为
5:24
平方误差代价函数事实上我们之所以要求出误差的平方和是因为误差平方代价函数对于大多数问题特别是回归问题都是一个合理的选择
5:37
还有其他的代价函数也能很好地发挥作用但是平方误差代价函数可能是解决回归问题最常用的手段了在后续课程中我们还会谈论其他的代价函数但我们刚刚讲的选择是对于大多数线性回归问题非常合理的好吧所以这是代价函数到目前为止我们已经介绍了代价函数的数学定义也许这个函数J(θ0,θ1)有点抽象可能你仍然不知道它的内涵在接下来的几个视频里我们要更进一步解释代价函数J的工作原理并尝试更直观地解释它在计算什么
6:22
以及我们使用它的目的【教育无边界字幕组】翻译: antis 校对: cheerzzh 审核: 所罗门捷列夫按照惯例, 我们通常定义一个代价函数,
6:31
正如屏幕中所示这里的这个公式
6:37
我们想要做的就是通过θ0和θ1 对函数J(θ0,θ1)求最小值这就是我的代价函数好了，写完了
6:53
这就是我们的代价函数，
6:59
这个代价函数也被叫做，平方差函数
7:06
有时也叫做，平方差代价函数为什么我们要使用平方结果表明，这些平方差代价函数是一个合理的选择适用于大多数的回归程序和问题当然，还有其它工作得相当好的代价函数但是这个平方差代价函数或许是回归问题中最常使用的一个在随后的这门课程里，我们也会谈到其它的代价函数但是这个平方差代价函数对于大多数线性回归问题来说是非常有理由，试一试的函数
7:42
好这就是代价函数
7:45
目前为止，我们对代价函数做了数学定义这个函数 J(θ0, θ1) 似乎有一点抽象你可能对它是干什么的，还是不太理解在下一个视频，以及接下来的系列视频中，我将稍微深入地介绍这个代价函数 "J" 让你对这个函数的运算机理以及我们为什么要使用它，有个更好的直观印象

代价函数的直观理解 I（Cost Function - Intuition I）

在上一个视频中我们给了代价函数一个数学上的定义在这个视频里让我们通过一些例子来获取一些直观的感受看看代价函数到底是在干什么回顾一下这是我们上次所讲过的内容我们想找一条直线来拟合我们的数据所以我们用 θ0 θ1 等参数得到了这个假设而且通过选择不同的参数我们会得到不同的直线拟合
0:31
所以拟合出的数据就像这样然后我们还有一个代价函数这就是我们的优化目标在这个视频里为了更好地将代价函数可视化我将使用一个简化的假设函数就是右边这个函数然后我将会用这个简化的假设也就是 θ1x 我们可以将这个函数看成是把 θ0 设为0 所以我只有一个参数也就是 θ1 代价函数看起来与之前的很像唯一的区别是现在 h(x) 等于 θ1x 只有一个参数 θ1 所以我的优化目标是将 J(θ1) 最小化用图形来表示就是如果 θ0 等于零也就意味这我们选择的假设函数会经过原点也就是经过坐标 (0,0) 通过利用简化的假设得到的代价函数我们可以试着更好地理解代价函数这个概念我们要理解的是这两个重要的函数第一个是假设函数第二个是代价函数注意这个假设函数 h(x) 对于一个固定的 θ1 这是一个关于 x 的函数所以这个假设函数就是一个关于 x 这个房子大小的函数与此不同的是代价函数 J 是一个关于参数 θ1 的函数而 θ1 控制着这条直线的斜率现在我们把这写函数都画出来试着更好地理解它们我们从假设函数开始比如说这里是我的训练样本它包含了三个点 (1,1) (2,2) 和 (3,3) 现在我们选择一个值 θ1 所以当 θ1 等于1 如果这是我选择的 θ1 那么我的假设函数看起来就会像是这条直线我将要指出的是当我描绘出我的假设函数 X轴我的横轴被标定为X轴 X轴是表示房子大小的量现在暂时把 θ1 定为1 我想要做的就是算出在 θ1 等于 1 的时候 J(θ1) 等于多少所以我们按照这个思路来计算代价函数的大小和之前一样代价函数定义如下是吧对这个误差平方项进行求和这就等于这样一个形式简化以后就等于三个0的平方和当然还是0 现在在代价函数里我们发现所有这些值都等于0 因为对于我所选定的这三个训练样本 ( 1 ,1 ) (2,2) 和 (3,3) 如果 θ1 等于 1 那么 h(x(i)) 就会正好等于 y(i) 让我把这个写得好一点对吧所以 h(x) - y 所有的这些值都会等于零这也就是为什么 J(1) 等于零所以我们现在知道了 J(1) 是0 让我把这个画出来我将要在屏幕右边画出我的代价函数 J 要注意的是因为我的代价函数是关于参数 θ1 的函数当我描绘我的代价函数时 X轴就是 θ1 现在我有 J(1) 等于零让我们继续把函数画出来结果我们会得到这样一个点现在我们来看其它一些样本 θ1 可以被设定为某个范围内各种可能的取值所以 θ1 可以取负数 0 或者正数所以如果 θ1 等于0.5会发生什么呢继续把它画出来现在要把 θ1 设为0.5 在这个条件下我的假设函数看起来就是这样这条线的斜率等于0.5 现在让我们计算 J(0.5) 所以这将会等于1除以2m 乘以那一块其实我们不难发现后面的求和就是这条线段的高度的平方加上这条线段高度的平方再加上这条线段高度的平方三者求和对吗？就是 y(i) 与预测值 h(x(i)) 的差对吗所以第一个样本将会是0.5减去1的平方因为我的假设函数预测的值是0.5 而实际值则是1 第二个样本我得到的是1减去2的平方因为我的假设函数预测的值是1 但是实际房价是2 最后加上 1.5减去3的平方那么这就等于1除以2乘以3 因为训练样本有三个点所以 m 等于3 对吧然后乘以括号里的内容简化后就是3.5 所以这就等于3.5除以6 也就约等于0.68 让我们把这个点画出来不好意思有一个计算错误这实际上该是0.58 所以我们把点画出来大约会是在这里对吗现在让我们再多做一个点让我们试试θ1等于0 J(0) 会等于多少呢如果θ1等于0 那么 h(x) 就会等于一条水平的线对了就会像这样是水平的所以测出这些误差我们将会得到 J(0) 等于 1除以 2m 乘以1的平方加上2的平方加上3的平方也就是 1除以6乘以14 也就是2.3左右所以让我们接着把这个点也画出来所以这个点最后是2.3 当然我们可以接着设定 θ1 等于别的值进行计算你也可以把 θ1 设定成一个负数所以如果 θ1 是负数那么 h(x) 将会等于打个比方说－0.5 乘以x 然后 θ1 就是 -0.5 那么这将会对应着一个斜率为-0.5的假设函数而且你可以继续计算这些误差结果你会发现对于0.5 结果会是非常大的误差最后会得到一个较大的数值类似于5.25 等等对于不同的 θ1 你可以计算出这些对应的值对吗结果你会发现你算出来的这些值你得到一条这样的曲线通过计算这些值你可以慢慢地得到这条线这就是 J(θ) 的样子了我们来回顾一下任何一个 θ1 的取值对应着一个不同的假设函数或者说对应着左边一条不同的拟合直线对于任意的θ1 你可以算出一个不同的 J(θ1) 的取值举个例子你知道的 θ1 等于1时对应着穿过这些数据的这条直线当 θ1 等于0.5 也就是这个玫红色的点也许对应着这条线然后 θ1 等于0 也就是蓝色的这个点对应着这条水平的线对吧所以对于任意一个 θ1 的取值我们会得到一个不同的 J(θ1) 而且我们可以利用这些来描出右边的这条曲线现在你还记得学习算法的优化目标是我们想找到一个 θ1 的值来将 J(θ1) 最小化对吗这是我们线性回归的目标函数嗯看这条曲线让 J(θ1) 最小化的值是 θ1 等于1 然后你看这个确实就对应着最佳的通过了数据点的拟合直线这条直线就是由 θ1=1 的设定而得到的然后对于这个特定的训练样本我们最后能够完美地拟合这就是为什么最小化 J(θ1) 对应着寻找一个最佳拟合直线的目标总结一下在这个视频里我们看到了一些图形来理解代价函数要做到这个我们简化了算法让这个函数只有一个参数 θ1 也就是说我们把 θ0 设定为0 在下一个视频里我们将回到原来的问题的公式然后看一些带有 θ0 和 θ1 的图形也就是说不把 θ0 设置为0了希望这会让你更好地理解在原来的线性回归公式里代价函数 J 的意义

代价函数的直观理解 II（Cost Function - Intuition II）

这节课中我们将更深入地学习代价函数的作用这段视频的内容假设你已经认识轮廓图如果你对轮廓图不太熟悉的话这段视频中的某些内容你可能会听不懂但不要紧如果你跳过这段视频的话也没什么关系不听这节课对后续课程理解影响不大和之前一样这是我们的几个重要公式包括了假设h、参数θ、代价函数J 以及优化目标跟前一节视频不同的是我还是把θ写成θ0、θ1的形式便于这里我们要对代价函数进行的可视化和上次一样首先来理解假设h和代价函数J 这是房价数据组成的训练集数据让我们来构建某种假设就像这条线一样很显然这不是一个很好的假设但不管怎样如果我假设θ0等于50 θ1等于0.06的话那么我将得到这样一个假设函数对应于这条直线给出θ0和θ1的值我们要在右边画出代价函数的图像上一次我们是只有一个θ1 也就是说画出的代价函数是关于θ1的函数但现在我们有两个参数 θ0和θ1 因此图像就会复杂一些了当只有一个参数θ1的时候我们画出来是这样一个弓形函数而现在我们有了两个参数那么代价函数仍然呈现类似的某种弓形实际上这取决于训练样本你可能会得到这样的图形因此这是一个三维曲面图两个轴分别表示θ0和θ1 随着你改变θ0和θ1的大小你便会得到不同的代价函数 J(θ0,θ1) 对于某个特定的点 (θ0,θ1) 这个曲面的高度也就是竖直方向的高度就表示代价函数 J(θ0,θ1) 的值不难发现这是一个弓形曲面我们来看看三维图这是这个曲面的三维图水平轴是θ0、θ1 竖直方向表示 J(θ0,θ1) 旋转一下这个图你就更能理解这个弓形曲面所表示的代价函数了在这段视频的后半部分为了描述方便我将不再像这样给你用三维曲面图的方式解释代价函数J 而还是用轮廓图来表示 contour plot 或 contour figure 意思一样右边就是一个轮廓图两个轴分别表示 θ0 和 θ1 而这些一圈一圈的椭圆形每一个圈就表示 J(θ0,θ1) 相同的所有点的集合具体举例来说我们选三个点出来这三个桃红色的点都表示相同的 J(θ0,θ1) 的值对吧横纵坐标分别是θ0 θ1 这三个点的 J(θ0,θ1) 值是相同的如果你之前没怎么接触轮廓图的话你就这么想你就想象一个弓形的函数从屏幕里冒出来因此最小值也就是这个弓形的最低点就是这个点对吧也就是这一系列同心椭圆的中心点想象一下这个弓形从屏幕里冒出来所以这些椭圆形都从我的屏幕上冒出相同的高度弓形的最小值点是这个位置因此轮廓图是一种很方便的方法能够直观地观察代价函数J 接下来让我们看几个例子在这里有一点这个点表示θ0等于800 θ1大概等于-0.15 那么这个红色的点代表了某个 (θ0,θ1) 组成的数值组而这个点也对应于左边这样一条线对吧 θ0等于800 也就是跟纵轴相交于大约800 斜率大概是-0.15 当然这条线并不能很好地拟合数据对吧以这组 θ0 θ1 为参数的这个假设 h(x) 并不是数据的较好拟合并且你也发现了这个代价值就是这里的这个值距离最小值点还很远也就是说这个代价值还是算比较大的因此不能很好拟合数据让我们再来看几个例子这是另一个假设你不难发现这依然不是一个好的拟合但比刚才稍微好一点这是我的 θ0 θ1 点这是 θ0 的值大约为360 θ1 的值为0 我们把它写下来 θ0=360 θ1=0 因此这组θ值对应的假设是这条水平的直线也就是h(x) = 360 + 0 × x 这就是假设这个假设同样也有某个代价值而这个代价值就对应于这个代价函数在这一点的高度让我们再来看一些例子这是另一个例子这个点这组 θ0 和 θ1 对应这样一条假设h(x) 同样地还是对数据拟合不好离最小值更远了最后一个例子这个点其实不是最小值但已经非常靠近最小值点了这个点对数据的拟合就很不错它对应这样两个θ0 和 θ1 的值同时也对应这样一个 h(x) 这个点虽然不在最小值点但非常接近了因此误差平方和或者说训练样本和假设的距离的平方和这个距离值的平方和非常接近于最小值尽管它还不是最小值好的通过这些图形我希望你能更好地理解这些代价函数 J 所表达的值它们是什么样的它们对应的假设是什么样的以及什么样的假设对应的点更接近于代价函数J的最小值当然我们真正需要的是一种有效的算法能够自动地找出这些使代价函数J取最小值的参数θ0和θ1来对吧我想我们也不希望编个程序把这些点画出来然后人工的方法来读出这些点的数值这很明显不是一个好办法事实上我们后面就会学到我们会遇到更复杂、更高维度、更多参数的情况这在我们在后面的视频中很快就会遇到而这些情况是很难画出图的因此更无法将其可视化因此我们真正需要的是编写程序来找出这些最小化代价函数的θ0和θ1的值在下一节视频中我们将介绍一种算法能够自动地找出能使代价函数 J 最小化的参数θ0和θ1的值

梯度下降（Gradient Descent）

我们已经定义了代价函数J 而在这段视频中我想向你们介绍梯度下降这种算法这种算法可以将代价函数J最小化梯度下降是很常用的算法它不仅被用在线性回归上它实际上被广泛的应用于机器学习领域中的众多领域在后面课程中为了解决其他线性回归问题我们也将使用梯度下降法最小化其他函数而不仅仅是只用在本节课的代价函数J 因此在这个视频中我将讲解用梯度下降算法最小化函数 J 在后面的视频中我们还会将此算法应用于具体的代价函数J中来解决线性回归问题下面是问题概述在这里我们有一个函数J(θ0, θ1) 也许这是一个线性回归的代价函数也许是一些其他函数要使其最小化我们需要用一个算法来最小化函数J(θ0, θ1) 就像刚才说的事实证明梯度下降算法可应用于多种多样的函数求解所以想象一下如果你有一个函数 J(θ0, θ1, θ2, ...,θn ) 你希望可以通过最小化 θ0到θn 来最小化此代价函数J(θ0 到θn) 用n个θ是为了证明梯度下降算法可以解决更一般的问题但为了简洁起见为了简化符号在接下来的视频中我只用两个参数下面就是关于梯度下降的构想我们要做的是我们要开始对θ0和θ1 进行一些初步猜测它们到底是什么其实并不重要但通常的选择是将 θ0设为0 将θ1也设为0 将它们都初始化为0 我们在梯度下降算法中要做的就是不停地一点点地改变 θ0和θ1 试图通过这种改变使得J(θ0, θ1)变小直到我们找到 J 的最小值或许是局部最小值让我们通过一些图片来看看梯度下降法是如何工作的我在试图让这个函数值最小注意坐标轴 θ0和θ1在水平轴上而函数 J在垂直坐标轴上图形表面高度则是 J的值我们希望最小化这个函数所以我们从 θ0和θ1的某个值出发所以想象一下对 θ0和θ1赋以某个初值也就是对应于从这个函数表面上的某个起始点出发对吧所以不管 θ0和θ1的取值是多少我将它们初始化为0 但有时你也可把它初始化为其他值现在我希望大家把这个图像想象为一座山想像类似这样的景色公园中有两座山想象一下你正站立在山的这一点上站立在你想象的公园这座红色山上在梯度下降算法中我们要做的就是旋转360度看看我们的周围并问自己我要在某个方向上用小碎步尽快下山如果我想要下山如果我想尽快走下山这些小碎步需要朝什么方向? 如果我们站在山坡上的这一点你看一下周围 ??你会发现最佳的下山方向大约是那个方向好的现在你在山上的新起点上你再看看周围然后再一次想想我应该从什么方向迈着小碎步下山? 然后你按照自己的判断又迈出一步往那个方向走了一步然后重复上面的步骤从这个新的点你环顾四周并决定从什么方向将会最快下山然后又迈进了一小步又是一小步并依此类推直到你接近这里直到局部最低点的位置此外这种下降有一个有趣的特点第一次我们是从这个点开始进行梯度下降算法的是吧在这一点上从这里开始现在想象一下我们在刚才的右边一些的位置对梯度下降进行初始化想象我们在右边高一些的这个点开始使用梯度下降如果你重复上述步骤停留在该点并环顾四周往下降最快的方向迈出一小步然后环顾四周又迈出一步然后如此往复如果你从右边不远处开始梯度下降算法将会带你来到这个右边的第二个局部最优处如果从刚才的第一个点出发你会得到这个局部最优解但如果你的起始点偏移了一些起始点的位置略有不同你会得到一个非常不同的局部最优解这就是梯度下降算法的一个特点我们会在之后继续探讨这个问题好的这是我们从图中得到的直观感受看看这个图这是梯度下降算法的定义我们将会反复做这些直到收敛我们要更新参数 θj 方法是用 θj 减去 α乘以这一部分让我们来看看这个公式有很多细节问题我来详细讲解一下首先注意这个符号 := 我们使用 := 表示赋值这是一个赋值运算符具体地说如果我写 a:= b 在计算机专业内这意味着不管 a的值是什么取 b的值并将其赋给a 这意味着我们让 a等于b的值这就是赋值我也可以做 a:= a+1 这意味着取出a值并将其增加1 与此不同的是如果我使用等号 = 并且写出a=b 那么这是一个判断为真的声明如果我写 a=b 就是在断言 a的值是等于 b的值的在左边这里这是计算机运算将一个值赋给 a 而在右边这里这是声明声明 a的值与b的值相同因此我可以写 a:=a+1 这意味着将 a的值再加上1 但我不会写 a=a+1 因为这本来就是错误的 a 和 a+1 永远不会是同一个值这是这个定义的第一个部分这里的α 是一个数字被称为学习速率什么是α呢? 在梯度下降算法中它控制了我们下山时会迈出多大的步子因此如果 α值很大那么相应的梯度下降过程中我们会试图用大步子下山如果α值很小那么我们会迈着很小的小碎步下山关于如何设置 α的值等内容在之后的课程中我会回到这里并且详细说明最后是公式的这一部分这是一个微分项我现在不想谈论它但我会推导出这个微分项并告诉你到底这要如何计算你们中有人大概比较熟悉微积分但即使你不熟悉微积分也不用担心我会告诉你对这一项你最后需要做什么现在在梯度下降算法中还有一个更微妙的问题在梯度下降中我们要更新 θ0和θ1 当 j=0 和 j=1 时会产生更新所以你将更新 J θ0还有θ1 实现梯度下降算法的微妙之处是在这个表达式中如果你要更新这个等式你需要同时更新 θ0和θ1 我的意思是在这个等式中我们要这样更新 θ0:=θ0 - 一些东西并更新 θ1:=θ1 - 一些东西实现方法是你应该计算公式右边的部分通过那一部分计算出θ0和θ1的值然后同时更新 θ0和θ1 让我进一步阐述这个过程在梯度下降算法中这是正确实现同时更新的方法我要设 temp0等于这些设temp1等于那些所以首先计算出公式右边这一部分然后将计算出的结果一起存入 temp0和 temp1 之中然后同时更新 θ0和θ1 因为这才是正确的实现方法与此相反下面是不正确的实现方法因为它没有做到同步更新在这种不正确的实现方法中我们计算 temp0 然后我们更新θ0 然后我们计算 temp1 然后我们将 temp1 赋给θ1 右边的方法和左边的区别是让我们看这里就是这一步如果这个时候你已经更新了θ0 那么你会使用 θ0的新的值来计算这个微分项所以由于你已经在这个公式中使用了新的 θ0的值那么这会产生一个与左边不同的 temp1的值所以右边并不是正确地实现梯度下降的做法我不打算解释为什么你需要同时更新同时更新是梯度下降中的一种常用方法我们之后会讲到实际上同步更新是更自然的实现方法当人们谈到梯度下降时他们的意思就是同步更新如果用非同步更新去实现算法代码可能也会正确工作但是右边的方法并不是人们所指的那个梯度下降算法而是具有不同性质的其他算法由于各种原因这其中会表现出微小的差别你应该做的是在梯度下降中真正实现同时更新这些就是梯度下降算法的梗概在接下来的视频中我们要进入这个微分项的细节之中我已经写了出来但没有真正定义如果你已经修过微积分课程如果你熟悉偏导数和导数这其实就是这个微分项如果你不熟悉微积分不用担心即使你之前没有看过微积分或者没有接触过偏导数在接下来的视频中你会得到一切你需要知道的如何计算这个微分项的知识下一个视频中希望我们能够给出实现梯度下降算法的所有知识

梯度下降的直观理解（Gradient Descent Intuition）

在之前的视频中我们给出了一个数学上关于梯度下降的定义本次视频我们更深入研究一下更直观地感受一下这个算法是做什么的以及梯度下降算法的更新过程有什么意义这是我们上次视频中看到的梯度下降算法
0:15
提醒一下这个参数 α 术语称为学习速率它控制我们以多大的幅度更新这个参数θj. 第二部分是导数项而我在这个视频中要做的就是
0:31
给你一个更直观的认识这两部分有什么用以及为什么当把
0:39
这两部分放一起时整个更新过程是有意义的为了更好地让你明白我要做是用一个稍微简单的例子比如我们想最小化的那个函数只有一个参数的情形所以假如我们有一个代价函数J 只有一个参数 θ1 就像我们前几次视频中讲的 θ1是一个实数对吧？那么我们可以画出一维的曲线看起来很简单让我们试着去理解为什么梯度下降法会在这个函数上起作用所以假如这是我的函数关于θ1的函数J θ1是一个实数对吧？
1:20
现在我们已经对这个点上用于梯度下降法的θ1 进行了初始化想象一下在我的函数图像上从那个点出发那么梯度下降要做的事情是不断更新 θ1等于θ1减α倍的
1:32
d/dθ1J(θ1)这个项对吧？哦顺便插一句你知道这个微分项是吧？可能你想问为什么我改变了符号之前用的是偏导数的符号如果你不知道偏导数的符号
1:44
和d/dθ之间的区别是什么不用担心从技术上讲
1:49
在数学中我们称这是一个偏导数这是一个导数这取决于函数J的参数数量但是这是一个数学上的区别就本课的目标而言可以默认为这些偏导数符号和d/dθ1是完全一样的东西不用担心是否存在任何差异我会尽量使用数学上的精确的符号但就我们的目的而言这些符号是没有区别的好的那么我们来看这个方程我们要计算这个导数我不确定之前你是否在微积分中学过导数但对于这个问题求导的目的基本上可以说取这一点的切线就是这样一条红色的直线刚好与函数相切于这一点让我们看看这条红色直线的斜率其实这就是导数也就是说直线的斜率也就是这条刚好与函数曲线相切的这条直线这条直线的斜率正好是这个高度除以这个水平长度现在这条线有一个正斜率也就是说它有正导数因此我得到的新的θ θ1更新后等于θ1减去一个正数乘以α. α 也就是学习速率也是一个正数所以我要使θ1减去一个东西所以相当于我将θ1向左移使θ1变小了我们可以看到这么做是对的因为实际上我往这个方向移动确实让我更接近那边的最低点所以梯度下降到目前为止似乎是在做正确的事让我们来看看另一个例子让我们用同样的函数J 同样再画出函数J(θ1)的图像而这次我们把参数初始化到左边这点所以θ1在这里同样把这点对应到曲线上现在导数项d/dθ1J(θ1) 在这点上计算时看上去会是这样
3:39
好但是这条线向下倾斜所以这条线具有负斜率对吧？或者说这个函数有负导数也就意味着在那一点上有负斜率因此这个导数项小于等于零所以当我更新θ时 θ被更新为θ减去α乘以一个负数因此我是在用 θ1减去一个负数这意味着我实际上是在增加θ1 对不对？因为这是减去一个负数意味着给θ加上一个数
4:00
这就意味着最后我实际上增加了θ的值因此我们将从这里开始增加θ 似乎这也是我希望得到的也就是让我更接近最小值了所以我希望这样很直观地给你解释了导数项的意义让我们接下来再看一看学习速率α 我们来研究一下它有什么用这就是我梯度下降法的更新规则就是这个等式让我们来看看如果α 太小或 α 太大会出现什么情况这第一个例子
4:20
α太小会发生什么呢这是我的函数J(θ) 就从这里开始如果α太小了那么我要做的是要去用一个比较小的数乘以更新的值所以最终它就像一个小宝宝的步伐这是一步然后从这个新的起点开始
4:41
对吧小碎步所以如果我的学习速率太小结果就是只能这样像小宝宝一样一点点地挪动去努力接近最低点这样就需要很多步才能到达最低点所以如果α 太小的话可能会很慢因为它会一点点挪动它会需要
5:02
很多步才能到达全局最低点那么如果α 太大又会怎样呢这是我的函数J(θ) 如果α 太大那么梯度下降法可能会越过最低点甚至可能无法收敛我的意思是比如我们从这个点开始实际上这个点已经接近最低点因此导数指向右侧但如果α 太大的话我会迈出很大一步也许像这样巨大的一步对吧？所以我最终迈出了一大步
5:26
现在我的代价函数变得更糟因为离这个最低点越来越远现在我的导数指向左侧实际上在减小θ 但是你看如果我的学习速率过大
5:38
我会移动一大步从这点一下子又到那点了
5:43
对吗？如果我的学习率太大下一次迭代又移动了一大步越过一次又越过一次一次次越过最低点直到你发现实际上离最低点越来越远所以如果α太大它会导致无法收敛甚至发散现在我还有一个问题这问题挺狡猾的当我第一次学习这个地方时我花了很长一段时间才理解这个问题如果我们预先把θ1 放在一个局部的最低点你认为下一步梯度下降法会怎样工作？所以假设你将θ1初始化在局部最低点假设这是你的θ1的初始值在这儿它已经在一个局部的最优处或局部最低点结果是局部最优点的导数将等于零因为它是那条切线的斜率而这条线的斜率将等于零因此此导数项等于0 因此在你的梯度下降更新过程中你有一个θ1 然后用θ1 减α 乘以0来更新θ1 所以这意味着什么这意味着你已经在局部最优点它使得θ1不再改变也就是新的θ1等于原来的θ1 因此如果你的参数已经处于
6:46
局部最低点那么梯度下降法更新其实什么都没做它不会改变参数的值这也正是你想要的因为它使你的解始终保持在局部最优点这也解释了为什么即使学习速率α 保持不变时梯度下降也可以收敛到局部最低点我想说的是这个意思我们来看一个例子这是代价函数J(θ) 我想找到它的最小值首先初始化我的梯度下降算法在那个品红色的点初始化如果我更新一步梯度下降也许它会带我到这个点因为这个点的导数是相当陡的现在在这个绿色的点如果我再更新一步你会发现我的导数也即斜率是没那么陡的相比于在品红点对吧？因为随着我接近最低点我的导数越来越接近零所以梯度下降一步后新的导数会变小一点点然后我想再梯度下降一步在这个绿点我自然会用一个稍微跟刚才在那个品红点时比再小一点的一步现在到了新的点红色点更接近全局最低点了因此这点的导数会比在绿点时更小所以我再进行一步梯度下降时我的导数项是更小的 θ1更新的幅度就会更小所以你会移动更小的一步像这样随着梯度下降法的运行你移动的幅度会自动变得越来越小直到最终移动幅度非常小你会发现已经收敛到局部极小值所以回顾一下在梯度下降法中当我们接近局部最低点时梯度下降法会自动采取
8:06
更小的幅度这是因为当我们接近局部最低点时很显然在局部最低时导数等于零所以当我们接近局部最低时导数值会自动变得越来越小
8:19
所以梯度下降将自动采取较小的幅度这就是梯度下降的做法所以实际上没有必要再另外减小α 这就是梯度下降算法你可以用它来最小化最小化任何代价函数J 不只是线性回归中的代价函数J 在接下来的视频中我们要用代价函数J 回到它的本质线性回归中的代价函数也就是我们前面得出的平方误差函数结合梯度下降法以及平方代价函数我们会得出第一个机器学习算法即线性回归算法【教育无边界字幕组】翻译：10号少年校对：Femtoyue 审核：所罗门捷列夫这也就是你所需要的东西，因为能够使你的解决方案维持在局部最优。
9:05
同样也解释了为什么梯度下降能够到达局部最优值，即使在学习率alpha固定的情况下。来解释一下我这么说的意思吧，可以参考一下这个例子现在我们有关于theta的成本函数J，我想把它最小化，那我首先初始化我的算法，我的梯度下降算法，初始点设在那个品红色的点。在梯度下降中，如果我前进一步，可能它会把我带到这个点。因为那里的导数很陡。对吧? 现在我到达了这个绿色的点，如果我用梯度下降法再走一步，你可以注意到，这里的导数，也就是坡度，在这个绿色的点，它没有品红色的点那么陡峭。因为越接近最小值，对应的导数越来越接近于0。在我接近最优值的过程中。所以在一步下降后，新得到的导数就会变小一点。所以我们还要再前进一步。我自然会采取稍微小一点的步子，相比于从品红色点到绿色点的那一步要小。现在到达一个新的点，一个红色的点，我更加接近全局最优值了，所以这里的导数会比绿色点处更小。在梯度下降中再走一步，
10:22
现在，导数项变得更小了，所以theta1的变化也更小了，所以走这样一小步。当梯度下降法运行起来时，会自动地采取越来越小的步。
10:41
直到最终你前进非常小的步子, 你知道, 你最终到达了局部最优值。
10:50
因此, 让我们回顾一下, 在梯度下降中, 当我们接近一个局部的最小值的过程里, 梯度下降算法会自动采取越来越小的步子。这是因为当我们接近局部最优时，其定义就是导数等于0。当我们接近局部最优，导数项会自动变小，所以梯度下降会自动采取更小的步子。这就是不需要减小alpha或时间的原因。
11:22
这就是梯度下降算法，你可以用它来最小化任何成本函数J，而不是我们为线性回归定义的那个成本函数J。在下一个视频里，我们将会用函数J，将其完全按照线性回归的成本函数来设置，也就是我们之前提出的平方成本函数。采用梯度下降算法和这个成本函数, 并把它们放在一起。这就得到我们的第一个学习算法，也就是一个线性回归算法。

梯度下降的线性回归（Gradient Descent For Linear Regression）

在前面的视频中我们讨论了梯度下降算法和线性回归模型、平方误差代价函数在这段视频中我们要将梯度下降和代价函数结合在后面的视频中我们将用到此算法并将其应用于具体的拟合直线的线性回归算法里
0:20
这就是我们在之前的课程里所做的工作这是梯度下降法这个算法你应该很熟悉这是线性回归模型还有线性假设和平方误差代价函数我们将要就是用梯度下降的方法来最小化平方误差代价函数为了使梯度下降为了写这段代码我们需要的关键项是这里这个微分项所以我们需要弄清楚这个偏导数项是什么并结合这里的代价函数的定义就是这样
1:13
用梯度下降的方法这个误差平方项我这样做只是把定义好的代价函数
1:27
插入了这个微分式再简化一下这等于是这一个求和项 θ0 + θ1x(1) - y(i) 这一项其实就是我的假设的定义然后把这一项放进去实际上我们需要弄清楚这两个偏导数项是什么这两项分别是 j=0和j=1的情况因此我们要弄清楚θ0 和 θ1 对应的偏导数项是什么我只把答案写出来事实上第一项可简化为1 / m 乘以求和式对所有训练样本求和求和项是h(x(i))-y(i) 而这一项对θ(1)的微分项得到的是这样一项 h(x(i))-y(i) *x(i) 对吧所以偏导数项从这个等式从这个等式到下面的等式计算这些偏导数项需要一些多元微积分如果你掌握了微积分然后你检查你的微分你实际上会得到我给出的答案但如果你不太熟悉微积分别担心你可以直接用这些已经算出来的结果你不需要掌握微积分或者别的东西来完成作业你只需要会用梯度下降就可以
3:14
在定义这些以后在我们算出这些微分项以后这些微分项实际上就是代价函数J的斜率
3:23
现在可以将它们放回我们的梯度下降算法所以这就是专用于线性回归的梯度下降反复执行括号中的式子直到收敛 θ0和θ1不断被更新都是加上一个-α/m 乘上后面的求和项
3:39
所以这里这一项
3:43
所以这就是我们的线性回归算法
3:47
事实上第一项可简化为
3:52
当然这一项就是关于θ0的偏导数在上一张幻灯片中推出的而第二项这一项是刚刚推导出的关于θ1的偏导数项对θ(1)的微分项提醒一下在做梯度下降的时候就是必须要同时更新θ0和θ1
4:24
所以让我们来看看梯度下降是如何工作的我们用梯度下降解决问题的一个原因是它更容易得到局部最优值当我第一次解释梯度下降时我展示过这幅图在表面上不断下降并且我们知道了根据你的初始化你会得到不同的局部最优解你知道最后可能会到这里到这里但是事实证明用于线性回归的代价函数总是这样一个弓形的样子这个函数的专业术语是凸函数
5:03
我不打算在这门课中给出凸函数的定义 C O N V E X 但不正式的说法是它就是一个弓形的函数因此这个函数没有任何局部最优解并且无论什么时候你对这种代价函数使用线性回归只有一个全局最优解因为没有别的局部全局最优解我们在实际中来看这个算法
5:38
像往常一样这里有假设函数和我的成本函数 J 的图我们假设将初始值定在这里通常来说初始化参数为零 θ0和θ1都在零但为了展示需要在这个梯度下降的实现中我把θ0初始化为-900 θ1初始化为-0.1 也就是h(x)=-900-0.1x 这一行是代价函数现在我们做梯度下降中的一步我们从这里往下到第二点这里你注意到这条线有些变化在我做梯度下降的另一步时我左侧的线发生了变化
6:41
是吧我的代价函数也到了一个新的位置
6:47
我做更多次梯度下降之后我的代价下降了我的参数遵循这样的轨迹
6:57
如果你看左侧这与假设对应看起来与数据有更好的拟合
7:08
直到最后我到了全局最小值的位置对应这个假设的全局最小值我就能得到与数据很好地拟合了
7:21
这就是梯度下降我们运行了它与我的房价数据有了很好的拟合你可以用它来预测如果你的朋友有1250平方英尺的房子你现在可以预测它的价值并告诉他们也许他们的房子能拿到25万美元最后只是给它另一个名字我们刚刚做的算法有时被称为批量梯度下降原来在机器学习中我不觉得我们机器学习的人们并不总是擅长给算法起名字但术语批处理梯度下降指的是一个事实在梯度下降的每一步我们都在看所有的训练例子因此梯度下降中计算导数的时候我们计算这个总和因此任何步骤的梯度下降我们最终计算这样的东西我们m个训练例子的综合所以术语批次梯度下降指的是事实上我们找的是整个批次的训练例子这真的不是一个伟大的名字这就是机器学习者的叫法事实证明有时有梯度下降的其他版本不是成批处理的它们不是去看整个训练集而是每次去看训练集中的小子集我们还将在本课程的后面讨论这些版本但目前使用的算法我们刚刚了解使用的批量梯度下降法你现在知道如何在线性回归中实现梯度下降
9:05
这就是梯度下降的线性回归如果你以前看过高等线性代数你们中的一些人可能上了高等线性代数的课你可能知道有一个解决方案代价函数J的数值解法不需要使用梯度下降这样的迭代法在本课程的后面我们将讨论该方法就可以在求解代价函数最小值时不用梯度下降这么多步骤另一种方法称为正规方程法但万一你听说过这种方法实际上梯度下降比它在大数据当中更好用现在我们知道了梯度下降法我们可以将它用到不同情境当中我们也会用到各类机器学习算法当中
9:55
祝贺你学到了你的第一个机器学习算法之后我们有练习让你去练习梯度下降算法希望这些对你的胃口但在这之前我要说在之后的一系列视频当中第一个就是告诉你梯度下降算法的一般化让它更有用我想我会在下个视频告诉你

多变量线性回归（Linear Regression with Multiple Variables）

多维特征（Multiple Features）

在这段视频中我们将开始介绍一种新的更为有效的线性回归形式这种形式适用于多个变量
0:08
或者多特征量的情况
0:10
做矩阵乘法
0:12
在之前我们学习过的线性回归中我们只有一个单一特征量房屋面积 x 我们希望用这个特征量来预测房子的价格
0:25
这就是我们的假设
0:28
但是想象一下如果我们不仅有房屋面积作为预测房屋价格的特征量或者变量我们还知道卧室的数量楼层的数量以及房子的使用年限这样就给了我们更多可以用来
0:47
预测房屋价格的信息先简单介绍一下记法我们开始的时候就提到过我要用 x 下标1 x 下标2 等等来表示这种情况下的四个特征量然后仍然用 Y来表示我们所想要预测的输出变量
1:11
让我们来看看更多的表示方式
1:13
现在我们有四个特征量
1:16
我要用小写n
1:19
来表示特征量的数目因此在这个例子中我们的n等于4 因为你们看我们有 1 2 3 4 共4个特征量
1:28
这里的n和我们之前使用的n不同之前我们是用的“m”来表示样本的数量所以如果你有47行那么m就是这个表格里面的行数或者说是训练样本数
1:45
然后我要用x 上标 (i) 来表示第i个训练样本的输入特征值
1:55
举个具体的例子来说 x上标 (2) 就是表示第二个训练样本的特征向量因此这里 x(2)就是向量 [1416, 3, 2, 40] 因为这四个数字对应了我用来预测房屋价格的第二个房子的
2:17
四个特征量
2:20
因此在这种记法中
2:24
这个上标2
2:26
就是训练集的一个索引而不是x的2次方这个2就对应着你所看到的表格中的第二行即我的第二个训练样本
2:39
x上标(2) 这样表示就是一个四维向量事实上更普遍地来说这是n维的向量
2:51
用这种表示方法 x上标2就是一个向量因此我用x上标(i) 下标j 来表示
3:02
第i个训练样本的第j个特征量
3:07
因此具体的来说 x上标(2)下标3代表着第2个训练样本里的第3个特征量对吧？这个是3 我写的不太好看所以说x上标(2)下标3就等于2
3:26
既然我们有了多个特征量
3:29
让我们继续讨论一下我们的假设形式应该是怎样的这是我们之前使用的假设形式 x就是我们唯一的特征量但现在我们有了多个特征量我们就不能再使用这种简单的表示方式了
3:44
取而代之的我们将把线性回归的假设
3:49
改成这样 θ0加上 θ1 乘以 x1 加上 θ2乘以x2 加上 θ3 乘以x3
3:58
加上θ4乘以x4 然后如果我们有n个特征量那么我们要将所有的n个特征量相加而不是四个特征量我们需要对n个特征量进行相加
4:08
举个具体的例子
4:11
在我们的设置的参数中我们可能有h(x)等于
4:17
80 + 0.1 x1 + 0.01x2 + 3x3 - 2x4 这就是一个
4:25
假设的范例别忘了假设是为了预测大约以千刀为单位的房屋价格就是说一个房子的价格可以是 80 k加上 0.1乘以x1 也就是说每平方尺100美元然后价格会随着楼层数的增加再继续增长 x2是楼层数接着价格会继续增加随着卧室数的增加因为x3是卧室的数量但是呢房子的价格会随着使用年数的增加而贬值
5:08
这是重新改写过的假设的形式接下来我要来介绍一点简化这个等式的表示方式
5:17
为了表示方便我要将x下标0的值设为1
5:23
具体而言这意味着对于第i个样本都有一个向量x上标(i) 并且x上标(i) 下标0等于1 你可以认为我们定义了一个额外的第0个特征量因此我过去有n个特征量因为我们有x1 x2 直到xn 由于我另外定义了额外的第0个特征向量
5:47
并且它的取值总是1
5:52
所以我现在的特征向量x 是一个从0开始标记的
5:58
n+1维的向量
6:02
所以现在就是一个 n+1维的特征量向量但我要从0开始标记同时我也想把我的参数都看做一个向量所以我们的参数就是我们的θ0 θ1 θ2 等等直到θn 我们要把所有的参数都写成一个向量 θ0 θ2...一直到直到θn 这里也有一个从0开始标记的矢量下标从0开始
6:32
这是另外一个
6:37
所以我的假设现在可以写成θ0乘以x0 加上θ1乘以x1直到 θn 乘以xn
6:48
这个等式和上面的等式是一样的因为你看 x0等于1
6:58
下面我要把这种形式假设等式写成 θ转置乘以X 取决于你对向量内积有多熟悉如果你展开 θ转置乘以X 那么就得到 θ0 θ1直到θn 这个就是θ转置实际上这就是一个 n+1乘以1维的矩阵也被称为行向量
7:34
用行向量与X向量相乘 X向量是 x0 x1等等直到xn
7:43
因此内积就是 θ转置乘以X 就等于这个等式这就为我们提供了一个表示假设的更加便利的形式即用参数向量θ以及特征向量X的内积这就是改写以后的表示方法这样的表示习惯就让我们可以以这种紧凑的形式写出假设这就是多特征量情况下的假设形式起另一个名字就是所谓的多元线性回归
8:15
多元一词也就是用来预测的多个特征量或者变量就是一种更加好听的说法罢了

多变量梯度下降（Gradient Descent for Multiple Variables）

在之前的视频中我们谈到了一种线性回归的假设形式这是一种有多特征或者是多变量的形式在本节视频中我们将会谈到如何找到满足这一假设的参数尤其是如何使用梯度下降法来解决多特征的线性回归问题为尽快让你理解现假设现有多元线性回归并约定 x0=1 该模型的参数是从 θ0 到 θn 不要认为这是 n+1 个单独的参数你可以把这 n+1 个 θ 参数想象成一个 n+1 维的向量 θ 所以你现在就可以把这个模型的参数想象成其本身就是一个 n+1 维的向量我们的代价函数是从 θ0 到 θn 的函数 J 并给出了误差项平方的和但同样地不要把函数 J 想成是一个关于 n+1 个自变量的函数而是看成带有一个 n+1 维向量的函数这就是梯度下降法我们将会不停地用 θj 减去 α 倍的导数项来替代 θj 同样的方法我们写出函数J(θ) 因此 θj 被更新成 θj 减去学习率 α 与对应导数的乘积就是代价函数的对参数 θj 的偏导数当我们实现梯度下降法后你可以仔细观察一下尤其是它的偏导数项下面是我们当特征 n=1 时梯度下降的情况我们有两条针对参数 θ0 和 θ1 不同的更新规则希望这些对你来说并不陌生这一项是代价函数里部分求导的结果就是代价函数相对于 θ0 的偏导数同样对参数 θ1 我们有另一个更新规则仅有的一点区别是当我们之前只有一个特征我们称该特征为x(i) 但现在我们在新符号里我们会标记它为 x 上标 (i) 下标1 来表示我们的特征以上就是当我们仅有一个特征时候的算法下面我们来讲讲当有一个以上特征时候的算法现有数目远大于1的很多特征我们的梯度下降更新规则变成了这样有些同学可能知道微积分如果你看看代价函数代价函数 J 对参数 θj 求偏导数你会发现求其偏导数的那一项我已经用蓝线圈出来了如果你实现了这一步你将会得到多元线性回归的梯度下降算法最后我想让你明白为什么新旧两种算法实际上是一回事儿或者说为什么这两个是类似的算法为什么它们都是梯度下降算法考虑这样一个情况有两个或以上个数的特征同时我们有对θ1、θ2、θ3的三条更新规则当然可能还有其它参数如果你观察θ0的更新规则你会发现这跟之前 n=1的情况相同它们之所以是等价的这是因为在我们的标记约定里有 x(i)0=1 也就是我用品红色圈起来的两项是等价的同样地如果你观察 θ1 的更新规则你会发现这里的这一项是和之前对参数θ1的更新项是等价的在这里我们只是用了新的符号x(i)1来表示我们的第一个特征现在我们有个更多的特征那么就可以用与之前相同的更新规则我们可以用同样的规则来处理 θ2 等其它参数这张幻灯片的内容不少请务必仔细理解如果觉得幻灯片上数学公式没看懂尽管暂停视频请确保理解了再继续后面的学习如果你将这些算法都实现了那么你就可以直接应用到多元线性回归中了

梯度下降法实践 1 - 特征缩放（Gradient Descent in Practice I - Feature Scaling）

在这段视频以及下一段视频中我想告诉你一些关于梯度下降运算中的实用技巧在这段视频中我会告诉你一个称为特征缩放 (feature scaling) 的方法
0:11
我们用一个 for 循环如果你有一个机器学习问题这个问题有多个特征如果你能确保这些特征都处在一个相近的范围我的意思是确保不同特征的取值在相近的范围内
0:24
这样梯度下降法就能更快地收敛
0:27
具体地说假如你有一个具有两个特征的问题其中 x1 是房屋面积大小它的取值在0到2000之间 x2 是卧室的数量可能这个值取值范围在1到5之间如果你画出代价函数 J(θ) 的轮廓图
0:44
那么这个轮廓看起来应该是像这样的 J(θ) 是一个关于参数 θ0 θ1 和 θ2 的函数但我要忽略 θ0 所以暂时不考虑 θ0 并假想一个函数的变量只有 θ1 和 θ2 但如果 x1 的取值范围远远大于 x2 的取值范围的话那么最终画出来的代价函数 J(θ) 的轮廓图就会呈现出这样一种
1:09
非常偏斜并且椭圆的形状 2000 和 5的比例会让这个椭圆更加瘦长所以这是一个又瘦又高的椭圆形轮廓图就是这些非常高大细长的椭圆形构成了代价函数 J(θ)
1:29
而如果你用这个代价函数来运行梯度下降的话你要得到梯度值最终可能需要花很长一段时间并且可能会来回波动然后会经过很长时间最终才收敛到全局最小值
1:47
事实上你可以想像如果这些轮廓再被放大一些的话如果你画的再夸张一些把它画的更细更长
1:56
那么可能情况会更糟糕梯度下降的过程可能更加缓慢需要花更长的时间反复来回振荡最终才找到一条正确通往全局最小值的路
2:12
在这样的情况下一种有效的方法是进行特征缩放(feature scaling)
2:17
具体来说把特征 x 定义为房子的面积大小除以2000的话并且把 x2 定义为卧室的数量除以5 那么这样的话表示代价函数 J(θ) 的轮廓图的形状
2:32
就会变得偏移没那么严重可能看起来更圆一些了
2:38
如果你用这样的代价函数来执行梯度下降的话那么梯度下降算法
2:44
你可以从数学上来证明梯度下降算法就会找到一条更捷径的路径通向全局最小而不是像刚才那样沿着一条让人摸不着头脑的路径一条复杂得多的轨迹来找到全局最小值
2:57
因此通过特征缩放通过"消耗掉"这些值的范围在这个例子中我们最终得到的两个特征 x1 和 x2 都在0和1之间
3:09
这样你得到的梯度下降算法就会更快地收敛
3:18
更一般地我们执行特征缩放时也就是我们经常我们通常的目的是将特征的取值约束到 -1 到 +1 的范围内你的特征 x0 是总是等于1 因此这已经是在这个范围内
3:34
但对其他的特征你可能需要通过除以不同的数来让它们处于同一范围内 -1 和 +1 这两个数字并不是太重要所以如果你有一个特征
3:44
x1 它的取值在0和3之间这没问题如果你有另外一个特征取值在-2 到 +0.5之间这也没什么关系这也非常接近 -1 到 +1的范围这些都可以
4:00
但如果你有另一个特征比如叫 x3 假如它的范围
4:05
在 -100 到 +100之间那么这个范围跟-1到+1就有很大不同了所以这可能是一个不那么好的特征类似地如果你的特征在一个非常非常小的范围内比如另外一个特征 x4 它的范围在 0.0001和+0.0001之间那么
4:29
这同样是一个比-1到+1小得多的范围比-1到+1小得多的范围因此我同样会认为这个特征也不太好
4:37
所以可能你认可的范围也许可以大于或者小于 -1 到 +1 但是也别太大只要大得不多就可以接受比如 +100 或者也别太小比如这里的0.001 不同的人有不同的经验但是我一般是这么考虑的如果一个特征是在 -3 到 +3 的范围内那么你应该认为这个范围是可以接受的但如果这个范围大于了 -3 到 +3 的范围我可能就要开始注意了如果它的取值在-1/3 到+1/3的话
5:10
我觉得还不错可以接受或者是0到1/3 或-1/3到0 这些典型的范围我都认为是可以接受的但如果特征的范围取得很小的话比如像这里的 x4 你就要开始考虑进行特征缩放了因此总的来说不用过于担心你的特征是否在完全相同的范围或区间内但是只要他们都只要它们足够接近的话梯度下降法就会正常地工作除了在特征缩放中将特征除以最大值以外有时候我们也会进行一个称为均值归一化的工作(mean normalization) 我的意思是这样的如果你有一个特征 xi 你就用 xi - μi 来替换通过这样做让你的特征值
5:52
具有为0的平均值
5:56
很明显我们不需要把这一步应用到 x0中因为 x0 总是等于1的所以它不可能有为0的的平均值
6:06
但是对其他的特征来说比如房子的大小取值介于0到2000 并且假如房子面积的平均值是等于1000的
6:21
那么你可以用这个公式
6:23
将 x1 的值变为 x1 减去平均值 μ1 再除以2000 类似地如果你的房子有五间卧室
6:39
并且平均一套房子有两间卧室那么你可以使用这个公式来归一化你的第二个特征 x2
6:49
在这两种情况下你可以算出新的特征 x1 和 x2 这样它们的范围可以在-0.5和+0.5之间当然这肯定不对 x2的值实际上肯定会大于0.5 但很接近更一般的规律是你可以用这样的公式你可以用 (x1 - μ1)/S1
7:08
来替换原来的特征 x1 其中定义 μ1的意思是在训练集中
7:19
特征 x1 的平均值
7:22
而 S1 是该特征值的范围我说的范围是指最大值减去最小值最大值减去最小值或者学过标准差的同学可以记住也可以把 S1 设为变量的标准差但其实用最大值减最小值就可以了
7:44
类似地对于第二个特征 x2 你也可以用同样的这个
7:51
特征减去平均值再除以范围来替换原特征范围的意思依然是最大值减最小值这类公式将把你的特征变成这样的范围也许不是完全这样但大概是这样的范围顺便提一下有些同学可能比较仔细如果我们用最大值减最小值来表示范围的话这里的5有可能应该是4 如果最大值为5 那么减去最小值1 这个范围值就是4 但不管咋说这些取值都是非常近似的只要将特征转换为相近似的范围就都是可以的特征缩放其实并不需要太精确只是为了让梯度下降能够运行得更快一点而已
8:34
好的现在你知道了什么是特征缩放通过使用这个简单的方法你可以将梯度下降的速度变得更快让梯度下降收敛所需的循环次数更少
8:44
这就是特征缩放在接下来的视频中我将介绍另一种技巧来使梯度下降在实践中工作地更好

梯度下降法实践 2 - 学习率（Gradient Descent in Practice II - Learning Rate）

在本段视频中我想告诉大家一些关于梯度下降算法的实用技巧我将集中讨论
0:09
学习率 α 具体来说这是梯度下降算法的更新规则这里我想要告诉大家如何调试也就是我认为应该如何确定梯度下降是正常工作的此外我还想告诉大家如何选择学习率 α 也就是我平常如何选择这个参数我通常是怎样确定梯度下降正常工作的
0:59
梯度下降算法所做的事情就是为你找到一个 θ 值并希望它能够最小化代价函数 J(θ) 我通常会在梯度下降算法运行时绘出代价函数 J(θ) 的值这里的 x 轴是表示梯度下降算法的迭代步数你可能会得到这样一条曲线注意这里的 x 轴
1:55
是迭代步数在我们以前看到的 J(θ) 曲线中 x 轴也就是横轴
2:17
曾经用来表示参数 θ 但这里不是具体来说这一点的含义是这样的当我运行完100步的梯度下降迭代之后无论我得到什么 θ 值总之 100步迭代之后我将得到一个 θ 值根据100步迭代之后
2:57
得到的这个 θ 值我将算出代价函数 J(θ) 的值而这个点的垂直高度就代表梯度下降算法 100步迭代之后得到的 θ 算出的 J(θ) 值而这个点则是梯度下降算法迭代200次之后得到的 θ 算出的 J(θ) 值所以这条曲线显示的是梯度下降算法迭代过程中代价函数 J(θ) 的值如果梯度下降算法正常工作那么每一步迭代之后 J(θ) 都应该下降这条曲线的一个用处在于它可以告诉你如果你看一下我画的这条曲线当你达到
4:48
300步迭代之后也就是300步到400步迭代之间
4:59
也就是曲线的这一段看起来 J(θ) 并没有下降多少所以当你到达400步迭代时这条曲线看起来已经很平坦了也就是说在这里400步迭代的时候梯度下降算法基本上已经收敛了因为代价函数并没有继续下降所以说看这条曲线可以帮助你判断梯度下降算法是否已经收敛顺便说一下
5:49
对于每一个特定的问题梯度下降算法所需的迭代次数可以相差很大也许对于某一个问题
6:04
梯度下降算法只需要30步迭代就可以收敛然而换一个问题也许梯度下降算法就需要3000步迭代对于另一个机器学习问题则可能需要三百万步迭代实际上我们很难提前判断
6:31
梯度下降算法需要多少步迭代才能收敛通常我们需要画出这类曲线画出代价函数随迭代步数数增加的变化曲线通常我会通过看这种曲线来试着判断梯度下降算法是否已经收敛另外也可以进行一些自动的收敛测试也就是说用一种算法来告诉你梯度下降算法是否已经收敛自动收敛测试一个非常典型的例子是如果代价函数 J(θ) 的下降小于一个很小的值 ε 那么就认为已经收敛比如可以选择 1e-3 但我发现通常要选择一个合适的阈值 ε 是相当困难的因此为了检查梯度下降算法是否收敛
8:06
我实际上还是通过看左边的这条曲线图而不是依靠自动收敛测试此外这种曲线图也可以在算法没有正常工作时提前警告你具体地说如果代价函数 J(θ) 随迭代步数的变化曲线是这个样子 J(θ) 实际上在不断上升

特征和多项式回归（Features and Polynomial Regression）

你现在了解了多变量的线性回归在本段视频中我想告诉你一些用来选择特征的方法以及如何得到不同的学习算法当选择了合适的特征后这些算法往往是非常有效的另外我也想给你们讲一讲多项式回归它使得你们能够使用线性回归的方法来拟合非常复杂的函数甚至是非线性函数以预测房价为例假设你有两个特征分别是房子临街的宽度和垂直宽度这就是我们想要卖出的房子的图片临街宽度被定义为这个距离其实就是它的宽度或者说是你拥有的土地的宽度如果这块地都是你的的话而这所房子的纵向深度就是你的房子的深度这是正面的宽度这是深度我们称之为临街宽度和纵深你可能会像这样建立一个线性回归模型其中临街宽度是你的第一个特征x1 纵深是你的第二个特征x2 但当我们在运用线性回归时你不一定非要直接用给出的 x1 和 x2 作为特征其实你可以自己创造新的特征因此如果我要预测房子的价格我真正要需做的也许是确定真正能够决定我房子大小或者说我土地大小的因素是什么因此我可能会创造一个新的特征我称之为 x 它是临街宽度与纵深的乘积这是一个乘法符号它是临街宽度与纵深的乘积这得到的就是我拥有的土地的面积然后我可以把假设选择为使其只使用一个特征也就是我的土地的面积对吧？由于矩形面积的计算方法是矩形长和宽相乘因此这取决于你从什么样的角度去审视一个特定的问题而不是只是直接去使用临街宽度和纵深这两个我们只是碰巧在开始时使用的特征有时通过定义新的特征你确实会得到一个更好的模型与选择特征的想法密切相关的一个概念被称为多项式回归(polynomial regression) 比方说你有这样一个住房价格的数据集为了拟合它可能会有多个不同的模型供选择其中一个你可以选择的是像这样的二次模型因为直线似乎并不能很好地拟合这些数据因此也许你会想到用这样的二次模型去拟合数据你可能会考量是关于价格的一个二次函数也许这样做会给你一个像这样的拟合结果但是然后你可能会觉得二次函数的模型并不好用因为一个二次函数最终会降回来而我们并不认为房子的价格在高到一定程度后会下降回来因此也许我们会选择一个不同的多项式模型并转而选择使用一个三次函数在这里现在我们有了一个三次的式子我们用它进行拟合我们可能得到这样的模型也许这条绿色的线对这个数据集拟合得更好因为它不会在最后下降回来那么我们到底应该如何将模型与我们的数据进行拟合呢？使用多元线性回归的方法我们可以通过将我们的算法做一个非常简单的修改来实现它按照我们以前假设的形式我们知道如何对这样的模型进行拟合其中 ?θ(x) 等于 θ0 +θ1×x1 + θ2×x2 + θ3×x3 那么如果我们想拟合这个三次模型就是我用绿色方框框起来的这个现在我们讨论的是为了预测一栋房子的价格我们用 θ0 加 θ1 乘以房子的面积加上 θ2 乘以房子面积的平方因此这个式子与那个式子是相等的然后再加 θ3 乘以房子面积的立方为了将这两个定义互相对应起来为了做到这一点我们自然想到了将 x1 特征设为房子的面积将第二个特征 x2 设为房屋面积的平方将第三个特征 x3 设为房子面积的立方那么仅仅通过将这三个特征这样设置然后再应用线性回归的方法我就可以拟合这个模型并最终将一个三次函数拟合到我的数据上我还想再说一件事那就是如果你像这样选择特征那么特征的归一化就变得更重要了因此如果房子的大小范围在 1到1000之间那么比如说从1到1000平方尺那么房子面积的平方的范围就是一到一百万也就是 1000的平方而你的第三个特征 x的立方抱歉你的第三个特征 x3 它是房子面积的立方范围会扩大到 1到10的9次方因此这三个特征的范围有很大的不同因此如果你使用梯度下降法应用特征值的归一化是非常重要的这样才能将他们的值的范围变得具有可比性最后这里是最后一个例子关于如何使你真正选择出要使用的特征此前我们谈到一个像这样的二次模型并不是理想的因为你知道也许一个二次模型能很好地拟合这个数据但二次函数最后会下降这是我们不希望的就是住房价格往下走像预测的那样出现房价的下降但是除了转而建立一个三次模型以外你也许有其他的选择特征的方法这里有很多可能的选项但是给你另外一个合理的选择的例子另一种合理的选择可能是这样的一套房子的价格是 θ0 加 θ1 乘以房子的面积然后加 θ2 乘以房子面积的平方根可以吧？平方根函数是这样的一种函数也许θ1 θ2 θ3 中会有一些值会捕捉到这个模型从而使得这个曲线看起来是这样的趋势是上升的但慢慢变得平缓一些而且永远不会下降回来因此通过深入地研究在这里我们研究了平方根函数的形状并且更深入地了解了选择不同特征时数据的形状有时可以得到更好的模型在这段视频中我们探讨了多项式回归也就是如何将一个多项式如一个二次函数或一个三次函数拟合到你的数据上除了这个方面我们还讨论了在使用特征时的选择性例如我们不使用房屋的临街宽度和纵深也许你可以把它们乘在一起从而得到房子的土地面积这个特征实际上这似乎有点难以抉择这里有这么多不同的特征选择我该如何决定使用什么特征呢在之后的课程中我们将探讨一些算法它们能够自动选择要使用什么特征因此你可以使用一个算法观察给出的数据并自动为你选择到底应该选择一个二次函数或者一个三次函数还是别的函数但是在我们学到那种算法之前现在我希望你知道你需要选择使用什么特征并且通过设计不同的特征你能够用更复杂的函数去拟合你的数据而不是只用一条直线去拟合特别是你也可以使用多项式函数有时候通过采取适当的角度来观察特征就可以得到一个更符合你的数据的模型

正规方程（Normal Equation）

在这个视频中我们要讲正规方程 (Normal Equation) 对于某些线性回归问题它给出了一个更好的方法求出参数 θ 的最优解。具体而言到目前为止我们一直在使用的线性回归的算法是梯度下降法就是说为了最小化代价函数 J(θ) 来最小化这个我们使用的迭代算法需要经过很多步也就是说通过多次迭代来计算梯度下降也就是说通过多次迭代来计算梯度下降来收敛到全局最小值相反地正规方程法提供了一种求 θ 的解析解法正规方程法提供了一种求 θ 的解析解法所以与其使用迭代算法我们可以直接一次性求解θ的最优值我们可以直接一次性求解θ的最优值我们可以直接一次性求解θ的最优值所以说基本上一步就可以得到优化值一步就可以得到优化值
0:49
正规方程法有一些优点也有一些缺点但是在我们讲解这个和何时使用标准方程之前让我们先对这个算法有一个直观的理解让我们先对这个算法有一个直观的理解我们举一个例子来解释这个问题我们假设有一个非常简单的代价函数 J(θ) 我们假设有一个非常简单的代价函数 J(θ) 它就是一个实数 θ 的函数它就是一个实数 θ 的函数所以现在假设 θ 只是一个标量或者说 θ 只有一行它是一个数字不是向量假设我们的代价函数 J 是这个实参数 θ 的二次函数所以 J(θ) 看起来是这样的那么如何最小化一个二次函数呢? 对于那些了解一点微积分的同学来说你可能知道最小化的一个函数的方法是对它求导并且将导数置零对它求导并且将导数置零所以对 J 求关于 θ 的导数我不打算推导那些公式你把那个导数置零这样你就可以求得使得 J(θ) 最小的 θ 值使得 J(θ) 最小的 θ 值这是数据为实数的一个比较简单的例子在这个问题中我们感兴趣的是 θ不是一个实数的情况它是一个n+1维的参数向量它是一个n+1维的参数向量并且代价函数 J 是这个向量的函数并且代价函数 J 是这个向量的函数也就是 θ0 到 θm 的函数一个代价函数看起来是这样像右边的这个平方代价函数我们如何最小化这个代价函数J? 实际上微积分告诉我们一种方法实际上微积分告诉我们一种方法对每个参数 θ 求 J 的偏导数对每个参数 θ 求 J 的偏导数然后把它们全部置零如果你这样做并且求出θ0 θ1 一直到θn的值并且求出θ0 θ1 一直到θn的值并且求出θ0 θ1 一直到θn的值这样就能得到能够最小化代价函数 J 的 θ 值这样就能得到能够最小化代价函数 J 的 θ 值这样就能得到能够最小化代价函数 J 的 θ 值如果你真的做完微积分和求解参数 θ0 到 θn 如果你真的做完微积分和求解参数 θ0 到 θn 如果你真的做完微积分和求解参数 θ0 到 θn 如果你真的做完微积分和求解参数 θ0 到 θn 你会发现这个偏微分最终可能很复杂接下来我在视频中要做的接下来我在视频中要做的实际上不是遍历所有的偏微分实际上不是遍历所有的偏微分因为这样太久太费事我只是想告诉你们你们想要实现这个过程所需要知道内容你们想要实现这个过程所需要知道内容这样你就可以解出偏导数为0时 θ的值偏导数为0时 θ的值偏导数为0时 θ的值换个方式说或者等价地这个 θ 能够使得代价函数 J(θ) 最小化这个 θ 能够使得代价函数 J(θ) 最小化我发现可能只有熟悉微积分的同学我发现可能只有熟悉微积分的同学比较容易理解我的话比较容易理解我的话所以如果你不了解或者不那么了解微积分也不必担心我会告诉你要实现这个算法并且使其正常运行你所需的必要知识举个例子我想运行这样一个例子假如说我有 m=4 个训练样本假如说我有 m=4 个训练样本
3:50
为了实现正规方程法我要这样做看我的训练集在这里就是这四个训练样本在这种情况下我们假设这四个训练样本就是我的所有数据我所要做的是在我的训练集中加上一列对应额外特征变量的x0 在我的训练集中加上一列对应额外特征变量的x0 在我的训练集中加上一列对应额外特征变量的x0 就是那个取值永远是1的就是那个取值永远是1的接下来我要做的是构建一个矩阵 X 这个矩阵基本包含了训练样本的所有特征变量这个矩阵基本包含了训练样本的所有特征变量这个矩阵基本包含了训练样本的所有特征变量所以具体地说这里有我所有的特征变量这里有我所有的特征变量我们要把这些数字全部放到矩阵中 X 中好吧？所以只是每次复制一列的数据我要对 y 做类似的事情我要对我们将要预测的值我要对我们将要预测的值构建一个向量像这样的并且称之为向量 y 所以 X 会是一个 m(n+1) 维矩阵
4:59
所以 X 会是一个 m(n+1) 维矩阵 y 会是一个 m 维向量 y 会是一个 m 维向量其中 m 是训练样本数量 n 是特征变量数 n+1 是因为我加的这个额外的特征变量 x0 n+1 是因为我加的这个额外的特征变量 x0 最后如??果你用矩阵 X 和向量 y 来计算这个最后如??果你用矩阵 X 和向量 y 来计算这个最后如??果你用矩阵 X 和向量 y 来计算这个 θ 等于 X 转置乘以 X 的逆乘以 X 转置乘以 y θ 等于 X 转置乘以 X 的逆乘以 X 转置乘以 y X转置乘以X的逆乘以X转置乘以y θ 等于 X 转置乘以 X 的逆乘以 X 转置乘以 y 这样就得到能够使得代价函数最小化的 θ 这样就得到能够使得代价函数最小化的 θ 幻灯片上的内容比较多幻灯片上的内容比较多我讲解了这样一个数据组的一个例子让我把这个写成更加通用的形式让我把这个写成更加通用的形式在之后的视频中我会仔细介绍这个方程
5:57
以防你不完全清楚要如何做在一般情况下假如我们有 m 个训练样本 x(1) y(1) 直到 x(m) y(m) n 个特征变量所以每一个训练样本 xi 可能看起来像一个向量像这样一个 n+1 维特征向量我要构建矩阵 X 的方法我要构建矩阵 X 的方法也被称为设计矩阵如下所示每个训练样本给出一个这样的特征向量每个训练样本给出一个这样的特征向量也就是说这样的 n+1 维向量我构建我的设计矩阵 X 的方法就是构建这样的矩阵接下来我要做的是将取第一个训练样本取第一个训练样本也就是一个向量取它的转置它最后是这样扁长的样子让 x1 转置作为我设计矩阵的第一行然后我要把我的第二个训练样本 x2 进行转置让它作为 X 的第二行进行转置让它作为 X 的第二行以此类推直到最后一个训练样本取它的转置作为矩阵 X 的最后一行取它的转置作为矩阵 X 的最后一行取它的转置作为矩阵 X 的最后一行这样矩阵 X 就是一个 m(n+1) 维矩阵这样矩阵 X 就是一个 m(n+1) 维矩阵这样矩阵 X 就是一个 m(n+1) 维矩阵举个具体的例子假如我只有一个特征变量就是说除了 x0 之外只有一个特征变量就是说除了 x0 之外只有一个特征变量而 x0 始终为1 所以如果我的特征向量 xi等于1 也就是x0 和某个实际的特征变量 xi等于1 也就是x0 和某个实际的特征变量 xi等于1 也就是x0 和某个实际的特征变量比如说房屋大小那么我的设计矩阵 X 会是这样第一行就是这个的转置第一行就是这个的转置所以最后得到1 然后 x(1)1 对于第二行我们得到1 然后 x(1)2 对于第二行我们得到1 然后 x(1)2 对于第二行我们得到1 然后 x(1)2 这样直到1 然后 x(1)m 这样直到1 然后 x(1)m 这样这就会是一个 m2 维矩阵这样这就会是一个 m2 维矩阵所以这就是如何构建矩阵X 和向量y 所以这就是如何构建矩阵X 和向量y 有时我可能会在上面画一个箭头有时我可能会在上面画一个箭头来表示这是一个向量但很多时候我就只写y 是一样的向量y 是这样求得的把所有标签所有训练集中正确的房子价格所有训练集中正确的房子价格放在一起得到一个 m 维向量 y 放在一起得到一个 m 维向量 y 最后构建完矩阵 X 和向量 y 最后构建完矩阵 X 和向量 y 我们就可以通过计算 X转置乘以X的逆乘以X转置乘以y 来得到 θ 我们就可以通过计算 X转置乘以X的逆乘以X转置乘以y 来得到 θ 我们就可以通过计算 X转置乘以X的逆乘以X转置乘以y 来得到 θ 我现在就想确保你明白这个等式我现在就想确保你明白这个等式并且知道如何实现它所以具体来说什么是 X 的转置乘以 X 的逆？ X的转置乘以X的逆是 X转置乘以X的逆矩阵 X的转置乘以X的逆是 X转置乘以X的逆矩阵具体来说如果你令A等于 X转置乘以X 如果你令A等于 X转置乘以X X的转置是一个矩阵 X的转置乘以X 是另一个矩阵 X的转置乘以X 是另一个矩阵我们把这个矩阵称为 A 那么 X转置乘以X的逆就是矩阵 A 的逆那么 X转置乘以X的逆就是矩阵 A 的逆也就是 1/A
9:26
这就是计算过程先计算 X转置乘以X 然后计算它的逆我们还没有谈到Octave 我们将在之后的视频中谈到这个但是在 Octave 编程语言但是在 Octave 编程语言或者类似的 MATLAB 编程语言里或者类似的 MATLAB编程语言里计算这个量的命令是基本相同的 X转置乘以X的逆乘以X转置乘以y 的代码命令如下所示在 Octave 中 X’ 表示 X 转置在 Octave 中 X’ 表示 X 转置这个用红色框起来的表达式计算的是 X 转置乘以 X 计算的是 X 转置乘以 X pinv 是用来计算逆矩阵的函数 pinv 是用来计算逆矩阵的函数所以这个计算 X转置乘以X的逆所以这个计算 X转置乘以X的逆然后乘以X转置再乘以y 然后乘以X转置再乘以y 然后乘以X转置再乘以y 这样就算完了这个式子我没有证明这个式子尽管我并不打算这么做但是数学上是可以证明的这个式子会给出最优的 θ 值这个式子会给出最优的 θ 值这个式子会给出最优的 θ 值就是说如果你令 θ 等于这个就是说如果你令 θ 等于这个这个 θ 值会最小化这个线性回归的代价函数 J(θ) 这个 θ 值会最小化这个线性回归的代价函数 J(θ) 这个 θ 值会最小化这个线性回归的代价函数 J(θ) 最后一点在之前视频中我提到特征变量归一化在之前视频中我提到特征变量归一化和让特征变量在相似的范围内的想法和让特征变量在相似的范围内的想法将所有的值归一化在类似范围内如果你使用正规方程法那么就不需要归一化特征变量那么就不需要归一化特征变量实际上这是没问题的如果某个特征变量 x1 在 0到1的区间如果某个特征变量 x1 在 0到1的区间某个特征变量 x2 在0到1000的区间某个特征变量 x2 在0到1000的区间某个特征变量 x2 在0到1000的区间某个特征变量x3 在0到10^-5的区间某个特征变量x3 在0到10^-5的区间某个特征变量x3 在0到10^-5的区间然后如果使用正规方程法这样就没有问题不需要做特征变量归一化但如果你使用梯度下降法但如果你使用梯度下降法特征变量归一化就很重要最后你何时应该使用梯度下降法而何时应该使用正规方程法呢？这里列举了一些它们的优点和缺点假如你有 m 个训练样本和 n 个特征变量假如你有 m 个训练样本和 n 个特征变量梯度下降法的缺点之一就是你需要选择学习速率 α 这通常表示需要运行多次尝试不同的学习速率 α 这通常表示需要运行多次尝试不同的学习速率 α 然后找到运行效果最好的那个所以这是一种额外的工作和麻烦梯度下降法的另一个缺点是它需要更多次的迭代因为一些细节计算可能会更慢因为一些细节计算可能会更慢我们一会儿会看到更多的东西至于正规方程你不需要选择学习速率 α 所以就非常方便也容易实现你只要运行一下通常这就够了并且你也不需要迭代所以不需要画出 J(θ) 的曲线所以不需要画出 J(θ 的曲线来检查收敛性或者采取所有的额外步骤到目前为止天平似乎倾向于正规方程法这里列举一些正规方程法的缺点和梯度下降法的优点梯度下降法在有很多特征变量的情况下也能运行地相当好梯度下降法在有很多特征变量的情况下也能运行地相当好所以即使你有上百万的特征变量所以即使你有上百万的特征变量你可以运行梯度下降法并且通常很有效它会正常的运行相对地正规方程法为了求解参数θ 需要求解这一项为了求解参数θ 需要求解这一项我们需要计算这项 X转置乘以X的逆这个 X转置乘以X矩阵是一个 nn 的矩阵如果你有 n 个特征变量的话因为如果你看一下 X转置乘以X 的维度因为如果你看一下 X转置乘以X 的维度因为如果你看一下 X转置乘以X 的维度你可以发现他们的积的维度你可以发现他们的积的维度 X转置乘以X 是一个 nn 的矩阵 X转置乘以X 是一个 nn 的矩阵其中 n是特征变量的数量实现逆矩阵计算所需要的计算量实现逆矩阵计算所需要的计算量大致是矩阵维度的三次方大致是矩阵维度的三次方因此计算这个逆矩阵需要计算大致 n 的三次方因此计算这个逆矩阵需要计算大致 n 的三次方有时稍微比计算 n 的三次方快一些但是对我们来说很接近所以如果特征变量的数量 n 很大的话
13:37
那么计算这个量会很慢那么计算这个量会很慢实际上标准方程法会慢很多因此如果 n 很大因此如果 n 很大我可能还是会使用梯度下降法因为我们不想花费 n 的三次方的时间但如果 n 比较小那么标准方程法可能更好地求解参数 θ 那么怎么叫大或者小呢？那么如果 n 是上百的那么如果 n 是上百的计算百位数乘百位数的矩阵对于现代计算机来说没有问题如果 n 是上千的我还是会使用正规方程法千位数乘千位数的矩阵做逆变换对于现代计算机来说实际上是非常快的但如果 n 上万那么我可能会开始犹豫上万乘上万维的矩阵作逆变换会开始有点慢此时我可能开始倾向于此时我可能开始倾向于梯度下降法但也不绝对 n 等于一万你可以逆变换一个一万乘一万的矩阵但如果 n 远大于此我可能就会使用梯度下降法了所以如果 n 等于10^6 有一百万个特征变量那么做百万乘百万的矩阵的逆变换那么做百万乘百万的矩阵的逆变换就会变得非常费时间在这种情况下我一定会使用梯度下降法所以很难给出一个确定的值来决定何时该换成梯度下降法来决定何时该换成梯度下降法但是对我来说通常是在一万左右我会开始考虑换成梯度下降法在一万左右我会开始考虑换成梯度下降法在一万左右我会开始考虑换成梯度下降法或者我们将在以后讨论到的其他算法总结一下只要特征变量的数目并不大正规方程是一个很好的计算参数 θ 的替代方法具体地说只要特征变量数量小于一万具体地说只要特征变量数量小于一万我通常使用正规方程法我通常使用正规方程法而不使用梯度下降法预告一下在之后的课程中我们要讲的预告一下在之后的课程中我们要讲的随着我们要讲的学习算法越来越复杂随着我们要讲的学习算法越来越复杂例如当我们讲到分类算法像逻辑回归算法我们会看到实际上对于那些算法并不能使用正规方程法对于那些更复杂的学习算法我们将不得不仍然使用梯度下降法我们将不得不仍然使用梯度下降法因此梯度下降法是一个非常有用的算法可以用在有大量特征变量的线性回归问题可以用在有大量特征变量的线性回归问题或者我们以后在课程中会讲到的一些其他的算法因为标准方程法不适合或者不能用在它们上因为标准方程法不适合或者不能用在它们上但对于这个特定的线性回归模型但对于这个特定的线性回归模型正规方程法是一个
16:07
比梯度下降法更快的替代算法所以根据具体的问题所以根据具体的问题以及你的特征变量的数量这两算法都是值得学习的

正规方程及不可逆性（可选）[Normal Equation Noninvertibility (Optional)]

在这段视频中我想谈谈正规方程 ( normal equation ) 以及它们的不可逆性由于这是一种较为深入的概念并且总有人问我有关这方面的问题因此我想在这里来讨论它由于概念较为深入
0:18
所以对这段可选材料大家放轻松吧也许你可能会深入地探索下去并且会觉得理解以后会非常有用
0:31
但即使你没有理解
0:33
正规方程和线性回归的关系也没有关系我们要讲的问题如下你或许可能对线性代数比较熟悉有些同学曾经问过我当计算 θ等于inv(X‘X ) X‘y （注：X的转置翻译为X‘，下同）那对于矩阵X‘X的结果是不可逆的情况咋办呢? 如果你懂一点线性代数的知识你或许会知道有些矩阵可逆而有些矩阵不可逆我们称那些不可逆矩阵为奇异或退化矩阵问题的重点在于X‘X的不可逆的问题很少发生在Octave里如果你用它来实现θ的计算你将会得到一个正常的解在这里我不想赘述在Octave里有两个函数可以求解矩阵的逆一个被称为pinv() 另一个是inv() 这两者之间的差异是些许计算过程上的一个是所谓的伪逆另一个被称为逆使用pinv() 函数可以展现数学上的过程这将计算出θ的值即便矩阵X‘X是不可逆的在pinv() 和 inv() 之间又有哪些具体区别呢 ? 其中inv() 引入了先进的数值计算的概念我真的不希望讲那些因此我认为可以试着给你一点点直观的参考关于矩阵X‘X的不可逆的问题如果你懂一点线性代数或许你可能会感兴趣我不会从数学的角度来证明它但如果矩阵X‘X结果是不可逆的通常有两种最常见的原因第一个原因是如果不知何故在你的学习问题你有多余的功能例如在预测住房价格时如果x1是以英尺为尺寸规格计算的房子 x2是以平方米为尺寸规格计算的房子同时你也知道1米等于3.28英尺 ( 四舍五入到两位小数 ) 这样你的这两个特征值将始终满足约束 x1等于x2倍的3.28平方并且你可以将这过程显示出来讲到这里可能或许对你来说有点难了但如果你在线性代数上非常熟练实际上你可以用这样的一个线性方程来展示那两个相关联的特征值
3:44
矩阵X‘X将是不可逆的第二个原因是在你想用大量的特征值尝试实践你的学习算法的时候可能会导致矩阵X‘X的结果是不可逆的具体地说在m小于或等于n的时候例如有m等于10个的训练样本也有n等于100的特征数量要找到适合的 ( n +1 ) 维参数矢量θ 这是第 n+1 维这将会变成一个101维的矢量尝试从10个训练样本中找到满足101个参数的值这工作可能会让你花上一阵子时间但这并不总是一个好主意因为正如我们所看到你只有10个样本以适应这100或101个参数数据还是有些少稍后我们将看到如何使用小数据样本以得到这100或101个参数通常我们会使用一种叫做正则化的线性代数方法通过删除某些特征或者是使用某些技术来解决当m比n小的时候的问题这也是在本节课后面要讲到的内容即使你有一个相对较小的训练集也可使用很多的特征来找到很多合适的参数有关正规化的内容将是本节之后课程的话题总之当你发现的矩阵X‘X的结果是奇异矩阵或者找到的其它矩阵是不可逆的我会建议你这么做首先看特征值里是否有一些多余的特征
5:24
像这些x1和x2是线性相关的或像这样互为线性函数同时当有一些多余的特征时可以删除这两个重复特征里的其中一个无须两个特征同时保留所以发现多余的特征删除二者其一将解决不可逆性的问题因此首先应该通过观察所有特征检查是否有多余的特征如果有多余的就删除掉

逻辑回归（Logistic Regression）

分类问题（Classification）

在这个以及接下来的几个视频中我想我们将开发一种叫做逻辑回归的算法, 这是当今最流行和最广泛使用的学习算法之一。
0:19
是离散的值我们将学习一种叫做逻辑回归 (Logistic Regression) 的算法这是目前最流行使用最广泛的一种学习算法下面是一些分类问题的例子此前我们谈到的电子邮件垃圾邮件分类就是一个分类问题另一个例子是网上交易的分类问题
0:55
比如一个卖东西的网站如果你想了解一个实体的交易
1:10
是不是欺诈我们用一个表示的类的另一个名称是正类。所以零, 我们表示为良性肿瘤, 和一个, 或者是盗用了别的用户的密码两个类的分配, 垃圾邮件不是垃圾邮件等等。两类的赋值为正值和负到零, 一个是有点武断和区别一个肿瘤是恶性的还是良性的正在传递的东西, 如没有恶性肿瘤。我们想要预测的变量是变量 y 我们可以认为
2:00
现在, 我们要开始与分类问题与 0 或 1 后来, 我们将谈论多类问题以及在哪里因此 y 可以采取四值零, 一, 二, 和三。标记为0的类但对于接下来的几个视频, 让我们从两个类或二进制分类问题, 我们会担心本职设置后。那么, 我们如何开发一种分类算法呢？下面是一个用于分类任务的培训集的示例, 用于将肿瘤归类为恶性或良性。并注意到, 恶性肿瘤只需要两个值, 零或 no, 一个或是。可能标记一个恶性肿瘤是应用我们已经知道的算法。
2:51
垃圾邮件或者不是垃圾邮件等等将两个类别标记为正类或负类 0 或 1 是任意的其实怎样都可以但是通常从直觉上来讲负类总是表达缺少某样东西的意思比如缺少恶性肿瘤而 1 正类就会表示存在某样我们寻找的东西但是哪个是负类哪个是正类的定义有时是任意的它并不太重要现在我们要开始研究只有两类 0 和 1
3:55
的分类问题以后我们将讨论多类别问题多类别问题中的变量 y 的取值可以是 0 1 2 和 3 或更多这就是所谓的多类分类问题但在接下来的几个视频中让我们从两类分类问题或者叫二元分类问题开始我们以后再关心多类的问题那我们怎样开发一个分类算法呢？下面是一个训练集的例子这个训练集是用来给一个肿瘤分类为恶性或者良性的
4:46
注意这个恶性值 (malignancy) 只取两个值 0也就是非(恶性) 和 1 也就是是(恶性)
4:57
所以拿到这个训练集我们可以做的一个事情是将一个我们已知的算法线性回归用于这组数据
5:14
尝试用一条直线来拟合数据所以如果用一条直线拟合这个训练集你有可能得到看起来像这样的假设函数好了这是我的假设函数 h(x) 等于 θ 的转置乘以 x 如果你想进行预测如果你想进行预测你可以尝试
5:56
将分类器的输出阈值设为0.5 这是纵轴上0.5的位置如果假设输出的值大于等于 0.5 你就预测 y 值等于 1 如果小于0.5 预测y等于0 让我们看看当我们这样做的时候会发生什么
6:29
所以让我们取 0.5 所以这就是阈值的位置就这样使用线性回归算法这个点右边的所有点我们会将它们全部预测为正类
6:53
因为它们的输出值知道标签应该是零, 一个, 它似乎有点奇怪, 如果都是大于0.5的
7:09
在这一点左侧的所有点我们会预测它们全部为负在这个特定的例子中
7:26
看起来好像线性回归所做的实际上是合理的尽管我们感兴趣的是一个分类问题现在我们把问题稍微改一下让我来延长一下横轴让我来延长一下横轴假如说新增一个训练样本在很远的右边那里注意这个额外的训练样本这里这个它实际上并没有改变什么对不对 ?

假说表示（Hypothesis Representation）

让我们开始谈谈逻辑回归在这段视频中我要给你展示假设函数的表达式也就是说在分类问题中要用什么样的函数来表示我们的假设此前我们说过希望我们的分类器的输出值在0和1之间因此我们希望想出一个满足某个性质的假设函数这个性质是它的预测值要在0和1之间当我们使用线性回归的时候这是一种假设函数的形式其中 h(x) 等于 θ 的转置乘以 x 对于逻辑回归来说我要把这个稍微改一下把假设函数改成 g(θ 的转置乘以 x) 其中我将定义函数g如下：当z是一个实数时 g(z)=1/(1+e^(-z)) g(z)=1/(1+e^(-z)) g(z)=1/(1+e^(-z)) 这称为 S 型函数 (sigmoid function) 或逻辑函数逻辑函数这个词就是逻辑回归名字的由来顺便说一下 S型函数和逻辑函数基本上是同义词意思是一样的因此这两个术语基本上是可互换的哪一个术语都可以用来表示这个函数 g 如果我们把这两个方程合并到一起这是我的假设的另一种写法也就是说 h(x)=1/(1+e^(-θ 转置乘以 x)) h(x)=1/(1+e^(-θ 转置乘以 x)) 我所做的是把这个变量 z 这里 z 是一个实数把 θ 的转置乘以 x 代入到这里所以最后得到的是 θ 转置乘以 x 代替了这里的 z 最后我们看一下S型函数是什么样的我们在这儿绘制这个图形 S型函数 g(z) 也称为逻辑函数看起来是这样的它开始接近0 然后上升直到在原点处达到0.5 然后它再次变平像这样所以这就是S型函数的样子而且你注意S型函数而且你注意S型函数它渐近于1 然后随着横坐标的反方向趋向于0 随着 z 趋于负无穷随着 z 趋于负无穷 g(z) 趋近于零随着 z 趋于正无穷 g(z) 趋近于1 因为 g(z) 的取值因为 g(z) 的取值在0和1之间我们就得到 h(x) 的值必在0和1之间最后有了这个假设函数我们需要做的是和之前一样用参数θ拟合我们的数据所以拿到一个训练集我们需要给参数 θ 选定一个值我们需要给参数 θ 选定一个值然后用这个假设函数做出预测稍后我们将讨论一个用来拟合参数θ的学习算法但是首先让我们讨论一下这个模型的解释这就是我对假设函数 h(x) 的输出的解释假设函数 h(x) 的输出的解释当我的假设函数输出某个数我会认为这个数是对于新输入样本 x 的 y 等于1的概率的估计值我的意思是这样的下面举个例子比方说我们来看肿瘤分类的例子我们有一个特征向量 x 和平时一样 x0 等于 1 然后我们的特征变量 x1 是肿瘤的大小假设我有一个病人来了而且知道肿瘤的大小而且知道肿瘤的大小把他们的特征向量 x 代入我的假设函数假如假设函数的输出为0.7 我将解释我的假设如下我要说这个假设告诉我对于一个特征为 x 的患者对于一个特征为 x 的患者 y 等于 1 的概率是0.7 换句话说我要告诉我的病人非常遗憾肿瘤是恶性的可能性是70％或者说0.7 要更加正式的写出来或者说写成数学表达式我的假设函数等于我的假设函数等于 P(y=1|x;θ) P(y=1|x;θ) P(y=1|x;θ) 对于熟悉概率的人应该能看懂这个式子如果你不太熟悉概率可以这么看这个表达式可以这么看这个表达式在给定 x 的条件下 y=1 的概率给定的 x 就是我的病人的特征 x 给定的 x 就是我的病人的特征 x 特征 x 代表了我的病人特定的肿瘤大小这个概率的参数是 θ 这个概率的参数是 θ 所以我基本上可以认为假设函数给出的估计是 y=1 的概率是 y=1 的概率现在因为这是一个分类的任务我们知道 y 必须是0或1 对不对？它们是 y 可能取到的仅有的两个值无论是在训练集中或是对走进我的办公室或在未来进入医生办公室的新患者因此有了 h(x) 我们也可以计算 y=0 的概率具体地说因为 y 必须是0或1 我们知道 y=0 的概率加上 y=1 的概率必须等于1 这第一个方程看起来有点复杂基本上就是说给定参数 θ 对某个特征为 x 的病人 y=0 的概率和给定参数 θ 时对同一个特征为 x 的病人 y=1 的概率相加必须等于1 如果觉得这个方程看到起来有点儿复杂可以想象它没有 x 和 θ 这就是说 y=0 的概率加上 y=1 的概率必须等于1 我们知道这是肯定的因为 y 要么是0 要么是1 所以 y=0 的可能性和 y=1 的可能性它们俩相加肯定等于1 所以如果你只是把这一项移到右边你就会得到这个等式就是说 y=0 的概率等于1减去 y=1 的概率因此我们的假设函数 h(x) 给出的是这一项你可以简单地计算出这个概率你可以简单地计算出这个概率计算出 y=0 的概率的估计值计算出 y=0 的概率的估计值所以你现在知道逻辑回归的假设函数的表达式是什么逻辑回归的假设函数的表达式是什么我们看到了定义逻辑回归的假设函数的数学公式在接下来的视频中我想试着让你对假设函数是什么样子有一个更直观的认识我想告诉你一个被称为判定边界 (decision) 的东西一个被称为判定边界 (decision) 的东西我们会一起看一些可视化的东西可以更好地理解逻辑回归的假设函数到底是什么样子

判定边界（Decision Boundary）

在过去的视频中我们谈到逻辑回归中假设函数的表示方法现在我想告诉大家一个叫做决策边界(decision boundary)的概念这个概念能更好地帮助我们理解逻辑回归的假设函数在计算什么让我们回忆一下这是我们上次写下的公式当时我们说假设函数可以表示为 h(x)=g(θTx) 其中函数g 被称为S形函数（sigmoid function）看起来是应该是这样的形状它从零开始慢慢增加至1 逐渐逼近1 现在让我们更进一步来理解这个假设函数何时会将y预测为1 什么时候又会将 y预测为0 让我们更好的理解假设函数的应该是怎样的特别是当我们的数据有多个特征时具体地说这个假设函数输出的是给定x时 y=1的概率因此如果我们想预测y=1 还是等于0 我们可以这样做只要该假设函数输出y=1的概率大于或等于0.5 那么这表示 y更有可能等于1而不是0 因此我们预测y=1 在另一种情况下如果预测y=1 的概率小于0.5 那么我们应该预测y=0 在这里我选择大于等于在这里我选择小于如果h(x)的值正好等于0.5 那么我们可以预测为1 也可以预测为0 但是这里我选择了大于等于因此我们默认如果h(x)等于0.5的话预测选择为1 这只是一个细节不用太在意下面我希望大家能够清晰地理解什么时候h(x) 将大于或等于 0.5 从而我们最终预测y=1 如果我们看看 S形函数的曲线图我们会注意到 S函数只要z大于或等于0时 g(z)就将大于或等于0.5 因此在曲线图的这半边 g的取值大于或等于0.5 因为这个交点就是0.5 因此当z大于0时 g(z) 也就是这个 S形函数是大于或等于0.5的由于逻辑回归的假设函数h(x) 等于g(θTx) 因此函数值将会大于或等于0.5 只要θ转置乘以x 大于或等于0 因此我们看到因为这里θ转置x 取代了z的位置所以我们看到我们的假设函数将会预测y=1 只要θ转置乘以x 大于或等于0 现在让我们来考虑假设函数预测y=0的情况类似的 h(θ)将会小于0.5 只要 g(z)小于0.5 这是因为 z的定义域上导致g(z)取值小于0.5的部分是z小于0的部分所以当g(z)小于0.5时我们的假设函数将会预测 y=0 根据与之前类似的原因 h(x)等于 g(θTx) 因此只要 θ转置乘以x小于0 我们就预测y等于0 总结一下我们刚才所讲的我们看到如果我们要决定预测y=1 还是y=0 取决于 y=1的概率大于或等于0.5 还是小于0.5 这其实就等于说我们将预测y=1 只需要θ转置乘以x 大于或等于0 另一方面我们将预测y=0 只需要θ转置乘以x 小于0 通过这些我们能更好地理解如何利用逻辑回归的假设函数来进行预测现在假设我们有一个训练集就像幻灯片上的这个接下来我们假设我们的假设函数是 h(x)等于g() 括号里面是θ0加上θ1x1 加上θ2乘以x2 目前我们还没有谈到如何拟合此模型中的参数我们将在下一个视频中讨论这个问题但是假设我们已经拟合好了参数我们最终选择了如下值比方说我们选择θ0 等于-3 θ1 等于1 θ2等于1 因此这意味着我的参数向量将是 θ等于[-3 1 1]
5:24
这样我们有了这样的一个参数选择让我们试着找出假设函数何时将预测y等于1 何时又将预测y等于0 使用我们在在上一张幻灯片上展示的公式我们知道 y更有可能是1 或者说 y等于1的概率大于0.5 或者大于等于0.5 只要θ转置x 大于0 我刚刚加了下划线的这个公式 -3加上x1再加上x2 当然就是θ转置x 这是当θ等于我们选择的这个参数值时 θ转置乘以x的表达因此举例来说对于任何样本只要x1和x2满足这个等式也就是-3 加上x1再加x2 大于等于0 我们的假设函数就会认为 y等于1 的可能性较大或者说将预测y=1 我们也可以将-3放到不等式右边并改写为x1 加号x2大于等于3 这样是等价的我们发现这一假设函数将预测 y=1 只要 x1+x2大于等于3 让我们来看看这在图上是什么意思如果我写下等式 x1+x2等于3 这将定义一条直线如果我画出这条直线它将表示为这样一条线它通过通过x1轴上的3 和x2轴上的3 因此这部分的输入样本空间这一部分的 X1-X2平面对应x1加x2大于等于3 这将是上面这个半平面也就是所有上方和所有右侧的部分相对我画的这条洋红色线来说所以我们的假设函数预测 y等于1的区域就是这片区域是这个巨大的区域是右上方的这个半平面让我把它写下来我将称它为 y=1区域与此相对 x1加x2 小于3的区域也就是我们预测 y等于0的区域是这一片区域你看到这也是一个半平面左侧的这个半平面是我们的假设函数预测y等于0的区域我想给这条线一个名字就是我刚刚画的这条洋红色线这条线被称为决策边界（decision boundary）具体地说这条直线满足x1+x2=3 它对应一系列的点它对应 h(x)等于 0.5的区域决策边界也就是这条直线将整个平面分成了两部分其中一片区域假设函数预测y等于1 而另一片区域假设函数预测y等于0 我想澄清一下决策边界是假设函数的一个属性它包括参数θ0 θ1 θ2 在这幅图中我画了一个训练集我画了一组数据让它更加可视化但是即使我们去掉这个数据集这条决策边界和我们预测y等于1 与y等于0的区域它们都是假设函数的属性决定于其参数它不是数据集的属性当然我们后面还将讨论如何拟合参数那时我们将使用训练集使用我们的数据来确定参数的取值但是一旦我们有确定的参数取值有确定的θ0 θ1 θ2 我们就将完全确定决策边界这时我们实际上并不需要在绘制决策边界的时候绘制训练集
9:49
现在让我们看一个更复杂的例子和往常一样我使用十字 (X) 表示我的正样本圆圈 (O) 的表示我的负样本给定这样的一个训练集我怎样才能使用逻辑回归拟合这些数据呢？早些时候当我们谈论多项式回归或线性回归时我们谈到可以添加额外的高阶多项式项同样我们也可以对逻辑回归使用相同的方法具体地说假如我的假设函数是这样的我已经添加了两个额外的特征 x1平方和x2平方所以我现在有5个参数 θ0 到 θ4 之前讲过我们会在下一个视频中讨论如何自动选择参数θ0到θ4的取值但是假设我已经使用了这个方法我最终选择θ0等于-1 θ1等于0 θ2等于0 θ3等于1 θ4等于1 这意味着在这个参数选择下我的参数向量 θ将是[-1 0 0 1 1]
11:10
根据我们前面的讨论这意味着我的假设函数将预测 y=1 只要-1加x1平方加x2平方大于等于0 也就是θ转置我的θ转置乘以特征变量大于等于0的时候如果我将 -1放到不等式右侧我可以说我的假设函数将预测 y=1 只要x1平方加 x2的平方大于等于1 那么决策边界是什么样子的呢？好吧如果我们绘制 x1平方加 x2的平方等于1的曲线你们有些人已经知道这个方程对应半径为1 原点为中心的圆所以这就是我们的决策边界
12:10
圆外面的一切我将预测 y=1 所以这里就是 y等于1的区域我们在这里预测y=1 而在圆里面我会预测y=0 因此通过增加这些复杂的多项式特征变量我可以得到更复杂的决定边界而不只是用直线分开正负样本在这个例子中我可以得到一个圆形的决策边界再次强调决策边界不是训练集的属性而是假设本身及其参数的属性只要我们给定了参数向量θ 圆形的决定边界就确定了我们不是用训练集来定义的决策边界我们用训练集来拟合参数θ 以后我们将谈论如何做到这一点但是一旦你有参数θ它就确定了决策边界让我重新显示训练集以方便可视化最后让我们来看看一个更复杂的例子我们可以得到更复杂的决策边界吗？如果我有高阶多项式特征变量比如x1平方 x1平方乘以x2 x1平方乘以x2平方等等如果我有更高阶多项式那么可以证明你将得到更复杂的决策边界而逻辑回归可以用于找到决策边界例如这样一个椭圆或者参数不同的椭圆也许你可以得到一个不同的决定边界像这个样子一些有趣的形状或者更为复杂的例子你也可以得到决策边界看起来这样这样更复杂的形状在这个区域你预测y=1 在这个区域外面你预测y=0 因此这些高阶多项式特征变量可以让你得到非常复杂的决策边界因此通过这些可视化图形我希望告诉你什么范围的假设函数我们可以使用逻辑回归来表示现在我们知道了h(x)表示什么在下一个视频中我将介绍如何自动选择参数θ 使我们能在给定一个训练集时我们可以根据数据自动拟合参数

代价函数（Cost Function）

In this video, we‘ll talk about how to fit the parameters of theta for the logistic compression. In particular, I‘d like to define the optimization objective, or the cost function that we‘ll use to fit the parameters.
0:15
Here‘s the supervised learning problem of fitting logistic regression model. We have a training set of m training examples and as usual, each of our examples is represented by a that‘s n plus one dimensional,
0:32
and as usual we have x o equals one. First feature or a zero feature is always equal to one. And because this is a computation problem, our training set has the property that every label y is either 0 or 1. This is a hypothesis, and the parameters of a hypothesis is this theta over here. And the question that I want to talk about is given this training set, how do we choose, or how do we fit the parameter‘s theta? Back when we were developing the linear regression model, we used the following cost function. I‘ve written this slightly differently where instead of 1 over 2m, I‘ve taken a one-half and put it inside the summation instead. Now I want to use an alternative way of writing out this cost function. Which is that instead of writing out this square of return here, let‘s write in here costs of h of x, y and I‘m going to define that total cost of h of x, y to be equal to this. Just equal to this one-half of the squared error. So now we can see more clearly that the cost function is a sum over my training set, which is 1 over n times the sum of my training set of this cost term here.
1:56
And to simplify this equation a little bit more, it‘s going to be convenient to get rid of those superscripts. So just define cost of h of x comma y to be equal to one half of this squared error. And interpretation of this cost function is that, this is the cost I want my learning algorithm to have to pay if it outputs that value, if its prediction is h of x, and the actual label was y. So just cross off the superscripts, right, and no surprise for linear regression the cost we‘ve defined is that or the cost of this is that is one-half times the square difference between what I predicted and the actual value that we have, 0 for y. Now this cost function worked fine for linear regression. But here, we‘re interested in logistic regression. If we could minimize this cost function that is plugged into J here, that will work okay. But it turns out that if we use this particular cost function, this would be a non-convex function of the parameter‘s data. Here‘s what I mean by non-convex. Have some cross function j of theta and for logistic regression, this function h here
3:12
has a nonlinearity that is one over one plus e to the negative theta transpose. So this is a pretty complicated nonlinear function. And if you take the function, plug it in here. And then take this cost function and plug it in there and then plot what j of theta looks like. You find that j of theta can look like a function that‘s like this
3:33
with many local optima. And the formal term for this is that this is a non-convex function. And you can kind of tell, if you were to run gradient descent on this sort of function It is not guaranteed to converge to the global minimum. Whereas in contrast what we would like is to have a cost function j of theta that is convex, that is a single bow-shaped function that looks like this so that if you run theta in the we would be guaranteed that
4:01
would converge to the global minimum. And the problem with using this great cost function is that because of this very nonlinear function that appears in the middle here, J of theta ends up being a nonconvex function if you were to define it as a square cost function. So what we‘d like to do is, instead of come up with a different cost function, that is convex, and so that we can apply a great algorithm, like gradient descent and be guaranteed to find the global minimum. Here‘s the cost function that we‘re going to use for logistic regression. We‘re going to say that the cost, or the penalty that the algorithm pays, if it upwards the value of h(x), so if this is some number like 0.7, it predicts the value h of x. And the actual cost label turns out to be y. The cost is going to be -log(h(x)) if y = 1 and -log(1- h(x)) if y = 0. This looks like a pretty complicated function, but let‘s plot this function to gain some intuition about what it‘s doing. Let‘s start off with the case of y = 1. If y = 1, then the cost function is -log(h(x)). And if we plot that, so let‘s say that the horizontal axis is h(x), so we know that a hypothesis is going to output a value between 0 and 1. Right, so h(x), that varies between 0 and 1. If you plot what this cost function looks like, you find that it looks like this. One way to see why the plot looks like this is because if you were to plot log z
5:45
with z on the horizontal axis, then that looks like that. And it approaches minus infinity, right? So this is what the log function looks like. And this is 0, this is 1. Here, z is of course playing the role of h of x. And so -log z will look like this.
6:06
Just flipping the sign, minus log z, and we‘re interested only in the range of when this function goes between zero and one, so get rid of that. And so we‘re just left with, you know, this part of the curve, and that‘s what this curve on the left looks like. Now, this cost function has a few interesting and desirable properties. First, you notice that if y is equal to 1 and h(x) is equal to 1, in other words, if the hypothesis exactly predicts h equals 1 and y is exactly equal to what it predicted, then the cost = 0 right? That corresponds to the curve doesn‘t actually flatten out. The curve is still going. First, notice that if h(x) = 1, if that hypothesis predicts that y = 1 and if indeed y = 1 then the cost = 0. That corresponds to this point down here, right? If h(x) = 1 and we‘re only considering the case of y = 1 here. But if h(x) = 1 then the cost is down here, is equal to 0. And that‘s where we‘d like it to be because if we correctly predict the output y, then the cost is 0. But now notice also that as h(x) approaches 0, so as the output of a hypothesis approaches 0, the cost blows up and it goes to infinity. And what this does is this captures the intuition that if a hypothesis of 0, that‘s like saying a hypothesis saying the chance of y equals 1 is equal to 0. It‘s kinda like our going to our medical patients and saying the probability that you have a malignant tumor, the probability that y=1, is zero. So, it‘s like absolutely impossible that your tumor is malignant.
7:55
But if it turns out that the tumor, the patient‘s tumor, actually is malignant, so if y is equal to one, even after we told them, that the probability of it happening is zero. So it‘s absolutely impossible for it to be malignant. But if we told them this with that level of certainty and we turn out to be wrong, then we penalize the learning algorithm by a very, very large cost. And that‘s captured by having this cost go to infinity if y equals 1 and h(x) approaches 0. This slide consider the case of y equals 1. Let‘s look at what the cost function looks like for y equals 0.
8:32
If y is equal to 0, then the cost looks like this, it looks like this expression over here, and if you plot the function, -log(1-z), what you get is the cost function actually looks like this. So it goes from 0 to 1, something like that and so if you plot the cost function for the case of y equals 0, you find that it looks like this. And what this curve does is it now goes up and it goes to plus infinity as h of x goes to 1 because as I was saying, that if y turns out to be equal to 0. But we predicted that y is equal to 1 with almost certainly, probably 1, then we end up paying a very large cost.
9:21
Let‘s plot the cost function for the case of y=0. So if y=0, that‘s going to be our cost function, if you look at this expression and you plot -log(1-z), if you figure out what that looks like, you get a figure that looks like this which goes from 0 to a with the z axis on the horizontal axis. So if you take this cost function and plot it for the case of y=0, what you get is that the cost function.
9:53
它是像这样表示的 And, what this cost function does is that it goes up or it goes to a positive infinity as h of x goes to 1, and this catches the intuition that if a hypothesis predicted that your h of x is equal to 1 with certainty, with probably ones, absolutely gonna be y equals 1. But if y turns out to be equal to 0, then it makes sense to make the hypothesis. So the make the learning algorithm up here a very large cost. And conversely, if h of x is equal to 0 and y equals 0, then the hypothesis melted. The protected y of z is equal to 0, and it turns out y is equal to 0, so at this point, the cost function is going to be 0.
10:41
In this video, we will define the cost function for a single train example. The topic of convexity analysis is now beyond the scope of this course, but it is possible to show that with a particular choice of cost function, this will give a convex optimization problem.
10:58
Overall cost function j of theta will be convex and local optima free.
11:04
In the next video we‘re gonna take these ideas of the cost function for a single training example and develop that further, and define the cost function for the entire training set. And we‘ll also figure out a simpler way to write it than we have been using so far, and based on that we‘ll work out grading descent, and that will give us logistic compression algorithm.

简化的成本函数和梯度下降（Simplified Cost Function and Gradient Descent）

在这段视频中我们将寻找一个更简洁的方法来表示代价函数来代替之前的做法然后我们将学会怎么去应用梯度下降法来找到逻辑回归的参数所以，在这个视频的结尾你将会知道如何去实现一个可应用的逻辑回归函数
0:22
这个是逻辑回归的代价函数完整的代价函数是通过将m个训练样本的代价函数求和获得的每一个代价函数代表在不同的样本y上的预测误差这个函数是我们之前的单个训练样本的代价函数需要提醒一下在分类问题中，我们的训练集所有的标签y的取值只包括0和1两种可能这个是y的数学定义
0:55
由于y只能是0或者1 在这段视频中我们将寻找一个更简洁的方法来表示代价函数值得一提的是，与其写出上述的代价函数（罚函数）以两种情况的形式，分别是y=1和y=0的情况不如我给你们展示一种如何将两行的公式压缩到一个公式这会有利于于简化罚函数的形式以及梯度下降的推导具体而言，我们能像下面这样表述罚函数我们说，H（x）,y相关的罚函数我会把这个罚函数写成 -ylogh(x)-(1-y)log(1-h(x)) -ylogh(x)-(1-y)log(1-h(x)) 我将迅速像你展示这个表达式，这个公式是之前罚函数的等同表达式，或者说更加精简的表达式用以表述我们关于罚函数的定义。我们来看这是为什么。
2:03
我们知道只有两种可能的情况。 Y必须为零或1。让我们假设 Y 等于1。
2:11
如果 y 等于 1,这就是说罚函数值等于, 如果 y 等于 1,这就是说罚函数值等于, 那么1减去 y 将等于 0,对吧？因此, 如果 y 等于 1, 则1减去 y 是1减去 1, 因此是0。所以第二项乘以0就消失了。所以我们这里只有第一项了，就是-y*logh(x) 因为y=1,所以罚函数就等于 -log h(x) 如果 y = 1, 这个等式正是我们之前罚函数表达式的第一种情况。另一个例子是 y = 0。如果是这样的话,那我们的罚函数就告诉我们如果 y 等于 0, 那么第一项就等于零。而1减去 y, 如果 y 等于零（1-y）将等于 1, 因为1减去 y 变成1减去 0, 这是等于1。所以代价函数被简化成了这里的最后一项，对吧因为这里的第一项乘以0，所以它消失了所以，这个式子只剩下最后一项，即 -log(1-h(x)) 你可以证明这一项确实符合我们给出的这个式子当 y 等于0的时候
3:40
所以这个新的代价函数的定义是更为简洁的形式包括了 y=1 和 y=0 这两种情况并且用了一种只有一行，更加方便的形式因此，我们可以将我们逻辑回归的代价函数写成这样因此，我们可以将我们逻辑回归的代价函数写成这样它是 m 分之一乘以这些代价函数的和将之前我们得到的代价函数定义替换进式子里最终我们得到了这个式子将之前我们得到的代价函数定义替换进式子里?最终我们得到了这个式子我们把负号提取到式子外面关于为什么我们要选择这个特殊的函数作为代价函数尽管看起来我们可以选择其他的代价函数在这节课上我没有时间来深入了解这一点使用最大似然估计法从统计数据中可以得出这个代价函数使用最大似然估计法?从统计数据中可以得出这个代价函数这是统计学中的一种思想即如何有效地为不同模型找到参数数据这个代价函数有一个十分优秀的属性——凸性所以这个代价函数是几乎每个人在逻辑回归模型中都会使用的如果你不懂的话我是指如果你不明白什么是最大似然估计的话我是指如果你不明白什么是最大似然估计的话，不用担心但这只是一个更深层次的理由在选择这个特殊的代价函数的理由我有时间的话会在这个课上讲解给出这个代价函数，是为了拟合参数我们接下来要做的事情是尝试找到使 J 函数最小化的参数 θ 所以，如果我们要尝试最小化函数 J 它会给我们一个 θ 的数据集最后，如果给我们一个新的包含特征 x 集合的例子我们能够得到拟合给出训练集的 θ 并输出像这样的预测函数在这里提醒一下，我输出的预测函数可以这样理解即 y 等于1的可能性在给出输入 x 并且参数为 θ 的情况下你可以把这个看作我的假设函数预测 y 等于1的概率你可以把这个看作我的假设函数预测 y 等于1的概率所以接下来要做的就是如何计算使函数 J 最小化的参数 θ 所以接下来要做的就是如何计算使函数 J 最小化的参数 θ 即我们能够得到拟合我们训练集的参数我们最小化代价函数的方法是梯度下降法这是我们的代价函数如果我们想要把它最小化为 θ 的函数梯度下降法是我们常用的方法我们反复更新参数 θ 令 θ 等于 θ 减去学习速率 α 乘这一项的导数如果你懂微积分，你可以比较轻松地计算这一项的导数并且如果你可以化简它你会得到和我一样的答案但即使你不会微积分也不必担心
6:30
如果你真的计算了那你会得到写在这里的这个方程这是从 i 从1到m项预测误差和 xi 的第j项乘积之和所以，如果你将这个偏导数项插回这里之后我们可以把我们的梯度下降法写成以下这样
6:55
我做的就是把前一页幻灯片的导数项插在这里所以.我们需要弄清楚所以，如果你有n个特征你会有一个向量参数 θ 这个向量参数 θ 包括 θ1，θ2…θn 在你更新时，需要同步更新全部 θ 值在你更新时，需要同步更新全部 θ 值现在，如果你采取这个更新规则并将其与我们做的线性回归进行比较你有可能惊奇地发现这个方程就是我们我们在线性回归时用的事实上，如果你看了之前的视频如果你看了线性回归的梯度下降更新规则会发现它和我在蓝框里写的式子一摸一样所以，线性回归和逻辑回归是不同的算法吗？当然不同，观察逻辑回归的式子预测函数 hθ 的定义改变了关于线性回归我们有 hθ 等于 θ 的转置乘 X 在逻辑回归中，hθ 的定义改变了现在 hθ 等于 1加上e的-θ 转置乘X次幂分之一所以，即使这个更新规则表面上看起来一样但是因为 hθ 的定义改变了所以这个和线性回归的梯度下降法确实不同在前面的视频中我们曾经讲过关于线性规划的梯度下降法我们曾讲过怎样观测梯度下降以便确定它是收敛的对于逻辑回归，我通常使用相同的函数来观测梯度下降以便确定它正确得收敛当然我们希望你可以想出如何将这项技术应用到逻辑回归中
8:43
当使用梯度下降法实现逻辑回归时我们有所有这些不同的参数值从 θ1 到 θn 这些我们需要使用这个表达式进行更新的参数值我们可以采用一个for循环 for循环 i 从0到 n，或者 i 从1到 n+1 因此依次更新这些参数值中的每一个当然比采用for循环更理想的方法是我们可以采用向量化实现方法所以一次向量化实现方法可以更新全部的n+1个参数所以一次向量化实现方法可以更新全部的n+1个参数检查你自己的理解程度你可以查看你是否能够指出如何用这个算法做向量化实现
9:31
所以，你现在知道如何实现逻辑回归的梯度下降法最后，这还有一个我们之前讨论过的概念在线性回归中的特征值缩放我们看到在线性回归中特征值缩放是如何帮助梯度下降法更快收敛要使其最小化我们需要用一个算法特征值缩放同样适用于逻辑回归中的梯度下降法逻辑回归的实际学习算法当我们有特征值范围差异巨大时应用特征值缩放同样可以使逻辑回归的梯度下降法更快收敛
10:01
就是如此，你现在知道了如何实现逻辑回归这是一个十分强大并且可能是世界上应用最广泛的分类算法而你现在知道如何让它为你自己工作

高级优化（Advanced Optimization）

在上节课的视频中用梯度下降的方法最小化逻辑回归中代价函数 J(θ)
0:07
在这段视频中教你们一些高级优化算法和一些高级的优化概念
0:15
利用这些方法我们就能够使通过梯度下降
0:19
进行逻辑回归的速度大大提高而这也将使算法更加适合解决大型的机器学习问题比如我们有数目庞大的特征量现在我们换个角度来看什么是梯度下降我们有个代价函数 J 而我们想要使其最小化那么我们需要做的是我们需要编写代码当输入参数 θ 时它们会计算出两样东西 J(θ) 以及 J等于 0 1直到 n 时的偏导数项假设我们已经完成了可以实现这两件事的代码那么梯度下降所做的就是反复执行这些更新生成了这个叫做 data 的对象是吧？所以给出我们用于计算这些的偏导数的代码梯度下降法就把它插入到这里从而来更新参数 θ
1:08
因此另一种考虑梯度下降的思路是我们需要写出代码来计算 J(θ) 这些偏导数然后把这些插入到梯度下降中然后它就可以为我们最小化这个函数对于梯度下降来说我认为从技术上讲你实际并不需要编写代码来计算代价函数 J(θ) 你只需要编写代码来计算导数项但是如果你希望代码还要能够监控这些 J(θ) 的收敛性那么我们就需要自己编写代码来计算代价函数和偏导数项
1:42
所以在写完能够计算这两者的代码之后我们就可以使用梯度下降
1:48
但梯度下降并不是我们可以使用的唯一算法还有其他一些算法更高级更复杂如果我们能用这些方法来计算这两个项的话那么这些算法就是为我们优化代价函数的不同方法共轭梯度法 BFGS (变尺度法) 和 L-BFGS (限制变尺度法) 就是其中一些更高级的优化算法它们需要有一种方法来计算 J(θ) 以及需要一种方法计算导数项然后使用比梯度下降更复杂的算法来最小化代价函数
2:21
这三种算法的具体细节超出了本门课程的范畴实际上你最后通常会花费很多天或几周时间研究这些算法你可以专门学一门课来提高数值计算能力
2:36
不过让我来告诉你他们的一些特性
2:40
这三种算法有许多优点一个是使用这其中任何一个算法你通常不需要手动选择学习率 α
2:50
所以对于这些算法的一种思路是给出计算导数项和代价函数的方法你可以认为算法有一个智能的内部循环而且事实上他们确实有一个智能的
3:01
内部循环称为线性搜索(line search)算法它可以自动尝试不同的学习速率 α 并自动选择一个好的学习速率 α 因此它甚至可以为每次迭代选择不同的学习速率那么你就不需要自己选择
3:21
这些算法实际上在做更复杂的事情而不仅仅是选择一个好的学习速率所以它们往往最终收敛得远远快于梯度下降
3:32
这些算法实际上在做更复杂的事情不仅仅是选择一个好的学习速率所以它们往往最终比梯度下降收敛得快多了不过关于它们到底做什么的详细讨论已经超过了本门课程的范围
3:45
实际上我过去使用这些算法已经很长一段时间了也许超过十年了使用得相当频繁而直到几年前我才真正搞清楚共轭梯度法 BFGS 和 L-BFGS的细节因此实际上完全有可能成功使用这些算法并应用于许多不同的学习问题而不需要真正理解这些算法的内环间在做什么
4:12
如果说这些算法有缺点的话那么我想说主要缺点是它们比梯度下降法复杂多了特别是你最好不要使用 L-BGFS BFGS这些算法共轭梯度 L-BGFS BFGS 除非你是数值计算方面的专家
4:30
实际上我不会建议你们编写自己的代码来计算数据的平方根或者计算逆矩阵因为对于这些算法我还是会建议你直接使用一个软件库所以要求一个平方根我们所能做的就是调用一些别人已经写好用来计算数字平方根的函数
4:51
幸运的是有 Octave 和与它密切相关的 MATLAB 语言我们将会用到它们 Octave 有一个非常理想的库用于实现这些先进的优化算法所以如果你直接调用它自带的库你就能得到不错的结果
5:08
我必须指出这些算法实现得好或不好是有区别的因此如果你正在你的机器学习程序中使用一种不同的语言比如如果你正在使用 C C + + Java 等等你可能会想尝试一些不同的库以确保你找到一个能很好实现这些算法的库因为在 L-BFGS 或者等高线梯度的实现上表现得好与不太好是有差别的
5:43
因此现在让我们来说明如何使用这些算法我打算举一个例子
5:48
比方说你有一个含两个参数的问题
5:53
这两个参数是 θ0 和 θ1 那么你的成本函数 J(θ)等于 θ1 减去5的平方再加上 θ2 减5的平方
6:02
因此通过这个代价函数你可以得到 θ1 和 θ2 的值如果你将 J(θ) 最小化的话那么它的最小值将是 θ1 等于5 θ2 等于5
6:15
我知道你们当中有些人比别人微积分更好但是你应该知道代价函数 J 的导数推出来就是这两个表达式我已经写在这儿了
6:26
那么你就可以应用高级优化算法里的一个来最小化代价函数 J 所以如果我们不知道最小值是5 5 但你想要代价函数找到这个最小值是用比如梯度下降这些算法但最好是用比它更高级的算法你要做的就是运行一个像这样的 Octave 函数那么我们运行一个函数
6:49
比如 costFunction
6:52
这个函数的作用就是它会返回两个值第一个是 jVal 它是
6:58
我们计算的代价函数 J 所以说 jVal 等于 theta(1) 减5的平方加 theta(2) 减5的平方这样就计算出这个代价函数
7:10
函数返回的第二个值是梯度值梯度值应该是一个2×1的向量
7:18
梯度向量的两个元素对应这里的两个偏导数项
7:27
运行这个 costFunction 函数后
7:29
你就可以
7:31
调用高级的优化函数
7:34
这个函数叫 fminunc 它表示 Octave 里无约束最小化函数调用它的方式如下你要设置几个 options 这个 options 变量作为一个数据结构可以存储你想要的 options 所以 GradObj 和 On 这里设置梯度目标参数为打开(on) 这意味着你现在确实要给这个算法提供一个梯度然后设置最大迭代次数比方说 100 我们给出一个 θ 的猜测初始值它是一个2×1的向量那么这个命令就调用 fminunc 这个@符号表示指向我们刚刚定义的
8:13
costFunction 函数的指针如果你调用它它就会使用众多高级优化算法中的一个当然你也可以把它当成梯度下降只不过它能自动选择学习速率α 你不需要自己来做然后它会尝试使用这些高级的优化算法就像加强版的梯度下降法为你找到最佳的 θ 值让我告诉你它在 Octave 里什么样
8:40
所以我写了这个关于theta的的 costFunction 函数跟前面幻灯片中一样它计算出代价函数 jval 以及梯度 gradient gradient 有两个元素是代价函数对于 theta(1) 和 theta(2) 这两个参数的偏导数
8:59
现在让我们切换到Octave窗口我把刚刚的命令敲进去 options = optimset 这是在我的优化算法的 options上
9:09
设置参数的记号这样就是100 次迭代我现在要给我的算法提供梯度值
9:23
设置 theta 的初始值是一个2×1的零向量这是我猜测的 theta 初始值
9:30
现在我就可以
9:32
写出三个返回值
9:37
[optTheta, functionVal, exitFlag] 等于
9:40
指向代价函数的指针 @costFunction
9:43
我猜测的初始值 initialTheta
9:46
还有options 如果我敲回车这个就会运行优化算法
9:53
它很快返回值这个格式很有意思因为我的代码
9:59
是被缠住了所以这个有点意思完全是因为我的命令行被绕住了不过这里只是数字上的一些问题把它看成是加强版梯度下降它们找到 theta 的最优值是 theta(1) 为5 theta(2) 也为5 这正是我们希望的 functionVal 的值实际上是10的-30次幂所以这基本上就是0 这也是我们所希望的 exitFlag为1 这说明它的状态是已经收敛了的你也可以运行 help fminunc 命令去查阅相关资料以理解 exitFlag 的作用 exitFlag可以让你确定该算法是否已经收敛
10:43
这就是在 Octave 里运行这些算法的过程
10:47
哦对了这里我得指出用 Octave 运行的时候向量θ的值 θ的参数向量必须是 d 维的 d 大于等于2 所以 θ 仅仅是一个实数因此如果它不是一个至少二维的向量或高于二维的向量 fminunc 就可能无法运算因此如果你有一个一维的函数需要优化一维的函数需要优化你可以查找 Octave 里 fminuc 函数的资料来得到更多的细节来得到更多的细节
11:18
这就是我们如何优化一个例子的过程这是一个简单的二次代价函数我们如果把它应用到逻辑回归中呢
11:27
在逻辑回归中我们有一个参数向量 theta 我要混合使用 Octave 记号和数学符号我希望这个写法很明确我们的参数 theta 由 θ0 到 θn 组成由 θ0 到 θn 组成因为在 Octave 的标号中
11:46
向量的标号是从1开始的在 Octave 里 θ0实际上写成 theta(1) 因此用 theta(1) 表示第一个参数 θ0 然后有 theta(2) 接下来写到 theta(n+1) 对吧这是因为 Octave 的记号是向量从1开始的而不是从0开始
12:06
因此我们需要做的是写一个 costFunction 函数它为逻辑回归求得代价函数具体点说 costFunction 函数需要返回 jVal 值因此需要一些代码来计算 J(θ) 我们也需要给出梯度值 gradient 那么 gradient(1) 对应用来计算代价函数关于 θ0 的偏导数接下去关于 θ1 的偏导数依此类推再次强调这是 gradient(1)
12:37
gradient(2) 等等而不是gradient(0) gradient(1) 因为 Octave 的标号是从1开始而不是从0开始的
12:47
我希望你们从这个幻灯片中学到的主要内容是你所要做的是写一个函数它能返回
12:55
代价函数值以及梯度值
12:58
因此要把这个应用到逻辑回归或者甚至线性回归中你也可以把这些优化算法用于线性回归
13:07
你需要做的就是输入合适的代码来计算这里的这些东西
13:15
现在你已经知道如何使用这些高级的优化算法
13:19
有了这些算法你就可以使用一个复杂的优化库它让算法使用起来更模糊一点 more opaque and so 因此也许稍微有点难调试不过由于这些算法的运行速度通常远远超过梯度下降因此当我有一个很大的机器学习问题时我会选择这些高级算法而不是梯度下降
13:43
有了这些概念你就应该能将逻辑回归和线性回归应用于更大的问题中这就是高级优化的概念
13:55
在下一个视频也就是逻辑回归这一部分的最后一个视频中我想要告诉你如何修改你已经知道的逻辑回归算法然后使它在多类别分类问题中也能正常运行

多类别分类：一对多（Multiclass Classification：One-vs-all）

在本节视频中我们将谈到如何使用逻辑回归 (logistic regression) 来解决多类别分类问题具体来说我想通过一个叫做"一对多" (one-vs-all) 的分类算法让你了解什么是多类别分类问题先看这样一些例子假如说你现在需要一个学习算法能自动地将邮件归类到不同的文件夹里或者说可以自动地加上标签那么你也许需要一些不同的文件夹或者不同的标签来完成这件事来区分开来自工作的邮件、来自朋友的邮件来自家人的邮件或者是有关兴趣爱好的邮件那么我们就有了这样一个分类问题其类别有四个分别用y=1、y=2、y=3、 y=4 来代表另一个例子是有关药物诊断的如果一个病人因为鼻塞来到你的诊所他可能并没有生病用 y=1 这个类别来代表或者患了感冒用 y=2 来代表或者得了流感 y=3 第三个例子也是最后一个例子如果你正在做有关天气的机器学习分类问题那么你可能想要区分哪些天是晴天、多云、雨天、或者下雪天对上述所有的例子 y 可以取一个很小的数值一个相对"谨慎"的数值比如1到3、1到4或者其它数值以上说的都是多类分类问题顺便一提的是对于下标是 0 1 2 3 还是 1 2 3 4 都不重要我更喜欢将分类从 1 开始标而不是 0 其实怎样标注都不会影响最后的结果然而对于之前的一个二元分类问题我们的数据看起来可能是像这样对于一个多类分类问题我们的数据集或许看起来像这样我用三种不同的符号来代表三个类别问题就是给出三个类型的数据集这是一个类别中的样本而这个样本是属于另一个类别而这个样本属于第三个类别我们如何得到一个学习算法来进行分类呢？我们现在已经知道如何进行二元分类可以使用逻辑斯特回归对于直线或许你也知道可以将数据集一分为二为正类和负类用一对多的分类思想我们可以将其用在多类分类问题上下面将介绍如何进行一对多的分类工作有时这个方法也被称为"一对余"方法现在我们有一个训练集好比左边表示的有三个类别我们用三角形表示 y=1 方框表示 y=2 叉叉表示 y=3 我们下面要做的就是使用一个训练集将其分成三个二元分类问题所以我将它分成三个二元分类问题我们先从用三角形代表的类别1开始实际上我们可以创建一个新的"伪"训练集类型2和类型3 定为负类类型1 设定为正类我们创建一个新的训练集如右侧所示的那样我们要拟合出一个合适的分类器我们称其为 h 下标 θ 上标(1) (x) 这里的三角形是正样本而圆形代表负样本可以这样想设置三角形的值为1 圆形的值为0 下面我们来训练一个标准的逻辑回归分类器这样我们就得到一个正边界对吧? 这里上标(1)表示类别1 我们可以像这样对三角形类别这么做下面我们将为类别2做同样的工作取这些方块样本然后将这些方块作为正样本设其它的为三角形和叉形类别为负样本这样我们找到第二个合适的逻辑回归分类器我们称为 h 下标 θ 上标(2) (x) 其中上标(2)表示是类别2 所以我们做的就是把方块类当做正样本我们可能便会得到这样的一个分类器最后同样地我们对第三个类别采用同样的方法并找出第三个分类器 h 下标 θ 上标(3) (x) 或许这么做可以给出一个像这样的判别边界或者说分类器能这样分开正负样本总而言之我们已经拟合出三个分类器对于 i 等于1、2、3 我们都找到了一个分类器 h 上标(i) 下标θ 括号 x 通过这样来尝试估计出给出 x 和先验 θ 时 y的值等于 i 的概率对么？在一开始对于第一个在这里的分类器完成了对三角形的识别把三角形当做是正类别所以 h(1) 实际上是在计算给定x 以 θ 为参数时 y的值为1的概率是多少概率是多少同样地这个也是这么处理矩形类型当做一个正类别同样地可以计算出 y=2 的概率和其它的概率值来现在我们便有了三个分类器且每个分类器都作为其中一种情况进行训练总之我们已经把要做的做完了现在要做的就是训练这个逻辑回归分类器 h(i) 逻辑回归分类器 h(i) 其中 i 对应每一个可能的 y=i 最后为了做出预测我们给出输入一个新的 x 值用这个做预测我们要做的就是在我们三个分类器里面输入 x 然后我们选择一个让 h 最大的 i 你现在知道了基本的挑选分类器的方法选择出哪一个分类器是可信度最高效果最好的那么就可认为得到一个正确的分类无论i值是多少我们都有最高的概率值我们预测 y 就是那个值
6:02
这就是多类别分类问题以及一对多的方法通过这个小方法你现在也可以将逻辑回归分类器用在多类分类的问题上

正则化（Regularization）

过拟合的问题（The Problem of Overfitting）

到目前为止，你已经了解了一些不同的学习算法，线性回归和逻辑回归在很多问题上它们很有效然而当你真正用这些算法去解决某些机器学习的实际应用时，它们可能会出现一种问题称作为 ”过度拟合“，这会使得学习结果非常糟糕。我接下来要做的这个视频中是对你解释什么是“过度拟合” 问题，并在接下来几个视频中，我们将讨论一种技术叫做正规化，它将允许我们改善或者减少“过度拟合”问题，并让这些学习算法更加有效的运行所以，什么是“过度拟合”呢？让我们继续用预测房子价格的例子来自之前线性回归的介绍去预测价格作为房子大小的功能。其中一种方法我们可以做的是运用线性代数在这个数据上，如果我们这样做，我们可能会得到像这样一条直线来拟合这些数据但是这并不是一个非常好的模型仔细看这些数据，似乎非常清楚，当房子的面子增加的时候，房子的价格趋于‘高原态’，或者趋于铺平，当我们向右移动后，所以这个算法不适合这次训练，我们称这样的问题为‘欠拟合’，另外一个原因是这个算法有很高的偏差上述两者都意味着这个算法并没有很好的拟合训练数据偏差的存在可能是历史或者技术上的原因但有个想法是如果用一直线来拟合数据，那么如果该算法含有很强的猜想，或者很强的偏见那么房价会因它们的大小线性变动，尽管数据显示恰恰相反尽管事实表明相反地是猜想仍然是偏见，仍然进一步阻碍了直线的拟合这导致了对数据的拟合较差现在，我们可以折衷地用二次函数来拟合，然后通过该数据集，我们拟合了二次函数，我们可能得到类似的曲线它也拟合得很好如果我们想要拟合得更好的话，可以给数据添加一个四次项那么我们就有了五个参数 theta0到theta4 通过这样的方式，我们实际上可以丰满一条曲线使其贯穿全部五个训练样本你应该会得到这样一条曲线
2:31
一方面看来，似乎对训练集拟合得非常好而且，至少它经过了所有的数据但是，这曲线依然很扭曲，对吧？它在那里上下起伏我们实际上也不认为它是预测房价的好模型那么，这个问题我们称之为过拟合另一方面是该算法方差较高高方差是关于诸如历史或者技艺另外的原因了但是直觉告诉我们如果我们用这么搞次幂的多项式来拟合当然是可以拟合出假设函数来的它基本上以可以拟合所有函数但可能的假设函数量太多，它很多变我们没有足够的数据来约束它来获得好的假设，这称之为“过拟合“ 在中间我将要写的这个，没有正式的名字，刚好吧那是一个二次多项式，二次函数对于这数据来说似乎刚刚好概括来说就是过拟合的问题出现在存在过多的的变量的时侯假设函数会对训练集拟合得很好这样你的代价函数会很接近零甚至就是零但你最终只会得到那样一条曲线你花费太多心思去迎合训练集导致它不能推广到新的样本，也不能对新的案例进行价格预测其中，这里的 “推广”解释为假设函数对新案例的适用程度这一点在房子数据的训练集上是体现不出来的在这一页我们关注到了线性回归的过拟合有相似的一点也能适用到逻辑回归上这里是一个逻辑回归的例子，它有X1和X2两个变量我们可以做的是拟合逻辑回归仅仅用这样一个简单的假设我一般都用G代表S型函数这样做之后得到一个假设函数可能你想拿去用它就是一条分割在正轴和负轴上样本的直线这似乎不是拟合得较好的假设那么，我们再来一次这是一个欠拟合的y例子可能假设存在偏见相反地，如果你向你的变量增加些二次项，那么你会得到一个决策边界就像这样的你能看得出来它对数据拟合得很好可能在训练集上我们已经做到极致了最后讨论另一个极端假如你要拟合一个很高阶的多项式就是如果你想要加入许多高次项逻辑回归会产生扭曲它会很努力去寻找匹配训练集的决策边界决策边界或者说把自己扭曲得长长的去把每一个训练样本拟合得严丝合缝如果变量X1和变量X2 作为预测依据分别是恶性肿瘤和良性乳瘤这看起来真的不是应用于预测的好假设函数同样地再看这个这是过拟合的一个实例这个假设函数有较高的方差并不能很好地适用于新的样本稍后，这节课中当我们谈论关于学习算法出错时的调试和诊断我们会提供对应的工具去识别当过拟合和欠拟合发生的时候现在让我们讨论当过拟合这问题发生的情况我们该如何解决它？在之前的例子中，我们有一到两个维度的数据我们才可以画出假设函数来观察其发生过程并且选择合适幂次的多项式所以早先对于房价的例子，我们可以画出该假设可以看到它在拟合某种非常扭曲的预测房价函数，它经过了所有点我们可以使用这样的图像来挑选合适幂次的多项式把假设函数画出来是决定使用哪种幂次多项式的一种方式但是这并不是总是有用的实际上我们更多地在变量很多的时候遇到了训练的问题也不仅仅是选择多少次幂的多项式的问题实际上，当我们有过多的变量时就变得越来越难在图上标出数据也变得更难地使它可视化从而决定保留哪些变量具体来说，如果我们试图预测房价可能存在大量的变量全部的变量当中，都可能有点用但是如果存在很多变量，又非常少量的训练集，那么过拟合这问题就会出现了为了解决过拟合的问题，我们主要有两种解决途径第一种是，尝试减少变量的数量具体地说，我们可以人为观察变量集，继而决定哪些变量更重要，我们因此可以知道哪些变量应该保留哪些变量应该被剔除这节课的稍后部分也会讨论模型选择算法这算法它可以自动决定要保留的变量和要剔除的变量这种减少变量数量的思路是行得通的，可以减轻过拟合的问题当我们谈及模型选择我们会作更有深度的探讨但是，其缺点是剔除掉一部分变量时，同时也除掉了一部分关于主题的信息举个例子，可能所有变量实际上都是对预测房价有用的那么我们当然不想除掉这部分信息和变量第二种做法我们会在下几个视频中讲到，就是正则化这种方法中，我们将会保留所用的变量，但我们会减少参数theta J的大小值我们将会看到这种方法效果很好当存在大量的变量时，每一个变量都为预测Y的值做出了一点贡献就像我们在预测房价的例子中看到的那样当存在大量的变量时其中的每一个变量多少都是有点用的，我们舍不得把他们扔掉就这样，以上概括了正则化的思路我也知道你们可能还没有明白其中的所有细节但是在下一个视频当中我们会开始精确地阐述如何去应用正则化和正则化的含义接着我们会开始指出如何使用它使学习算法的效果更好并且避免过拟合的问题

代价函数（Cost Function）

在这段视频中传达给你一个直观的感受告诉你正规化是如何进行的而且我们还要写出我们使用正规化时需要使用的代价函数根据我们幻灯片上的这些例子我想我可以给你一个直观的感受但是一个更好的让你自己去理解正规化如何工作的方法是你自己亲自去实现它并且看看它是如何工作的如果在这节课后你进行一些适当的练习你就有机会亲自体验一下正规化到底是怎么工作的那么这里就是一些直观解释在前面的视频中我们看到了如果说我们要用一个二次函数来拟合这些数据它给了我们一个对数据很好的拟合然而如果我们用一个更高次的多项式去拟合我们最终可能得到一个曲线能非常好地拟合训练集但是这真的不是一个好的结果它过度拟合了数据因此一般性并不是很好让我们考虑下面的假设我们想要加上惩罚项从而使参数 θ3 和 θ4 足够的小这里我的意思就是这是我们的优化目标或者客观的说这就是我们需要优化的问题我们需要尽量减少代价函数的均方误差对于这个函数我们对它进行一些添加一些项加上 1000 乘以 θ3 的平方再加上 1000 乘以 θ4 的平方 1000 只是我随便写的某个较大的数字而已现在如果我们要最小化这个函数为了使这个新的代价函数最小化我们要让 θ3 和 θ4 尽可能小对吧？因为如果你有 1000 乘以 θ3 这个新的代价函数将会是很大的所以当我们最小化这个新的函数时我们将使 θ3 的值接近于0 θ4 的值也接近于0 就像我们忽略了这两个值一样如果我们做到这一点如果 θ3 和 θ4 接近0 那么我们将得到一个近似的二次函数所以我们最终恰当地拟合了数据你知道二次函数加上一些项这些很小的项贡献很小因为 θ3 θ4 它们是非常接近于0的所以我们最终得到了实际上很好的一个二次函数因为这是一个更好的假设在这个具体的例子中我们看到了惩罚这两个大的参数值的效果更一般地这里给出了正规化背后的思路这种思路就是如果我们的参数值对应一个较小值的话就是说参数值比较小那么往往我们会得到一个形式更简单的假设所以我们最后一个例子中我们惩罚的只是 θ3 和 θ4 使这两个值均接近于零我们得到了一个更简单的假设也即这个假设大抵上是一个二次函数但更一般地说如果我们就像这样惩罚的其它参数通常我们可以把它们都想成是得到一个更简单的假设因为你知道当这些参数越接近这个例子时假设的结果越接近一个二次函数但更一般地可以表明这些参数的值越小通常对应于越光滑的函数也就是更加简单的函数因此就不易发生过拟合的问题我知道为什么要所有的部分参数变小的这些原因为什么越小的参数对应于一个简单的假设我知道这些原因对你来说现在不一定完全理解但现在解释起来确实比较困难除非你自己实现一下自己亲自运行了这部分但是我希望这个例子中使 θ3 和 θ4 很小并且这样做能给我们一个更加简单的假设我希望这个例子有助于解释原因至少给了我们一些直观感受为什么这应该是这样的来让我们看看具体的例子对于房屋价格预测我们可能有上百种特征我们谈到了一些可能的特征比如说 x1 是房屋的尺寸 x2 是卧室的数目 x3 是房屋的层数等等那么我们可能就有一百个特征跟前面的多项式例子不同我们是不知道的对吧我们不知道 θ3 θ4 是高阶多项式的项所以如果我们有一个袋子如果我们有一百个特征在这个袋子里我们是很难提前选出那些关联度更小的特征的也就是说如果我们有一百或一百零一个参数我们不知道挑选哪一个我们并不知道如何选择参数如何缩小参数的数目因此在正规化里我们要做的事情就是把我们的代价函数这里就是线性回归的代价函数接下来我度量来修改这个代价函数从而缩小我所有的参数值因为你知道我不知道是哪个哪一个或两个要去缩小所以我就修改我的代价函数在这后面添加一项就像我们在方括号里的这项当我添加一个额外的正则化项的时候我们收缩了每个参数并且因此我们会使我们所有的参数 θ1 θ2 θ3 直到 θ100 的值变小
5:36
顺便说一下按照惯例来讲我们从第一个这里开始所以我实际上没有去惩罚 θ0 因此 θ0 的值是大的这就是一个约定从1到 n 的求和而不是从0到 n 的求和但其实在实践中这只会有非常小的差异无论你是否包括这项就是 θ0 这项实际上结果只有非常小的差异但是按照惯例通常情况下我们还是只从 θ1 到 θ100 进行正规化这里我们写下来我们的正规化优化目标我们的正规化后的代价函数就是这样的 J(θ) 这个项右边的这项就是一个正则化项并且 λ 在这里我们称做正规化参数 λ 要做的就是控制在两个不同的目标中的一个平衡关系第一个目标第一个需要抓住的目标就是我们想要训练使假设更好地拟合训练数据我们希望假设能够很好的适应训练集而第二个目标是我们想要保持参数值较小这就是第二项的目标通过正则化目标函数这就是λ 这个正则化参数需要控制的它会这两者之间的平衡目标就是平衡拟合训练的目的和保持参数值较小的目的从而来保持假设的形式相对简单来避免过度的拟合对于我们的房屋价格预测来说这个例子尽管我们之前有我们已经用非常高的高阶多项式来拟合我们将会得到一个非常弯曲和复杂的曲线函数就像这个如果你还是用高阶多项式拟合就是用这里所有的多项式特征来拟合的话但现在我们不这样了你只需要确保使用了正规化目标的方法那么你就可以得到实际上是一个曲线但这个曲线不是一个真正的二次函数而是更加的流畅和简单也许就像这条紫红色的曲线一样那么你知道的这样就得到了对于这个数据更好的假设再一次说明下我了解这部分有点难以明白为什么加上参数的影响可以具有这种效果但如果你亲自实现了正规化你将能够看到这种影响的最直观的感受
8:00
在正规化线性回归中如果正规化参数值被设定为非常大那么将会发生什么呢？我们将会非常大地惩罚参数θ1 θ2 θ3 θ4 也就是说如果我们的假设是底下的这个如果我们最终惩罚 θ1 θ2 θ3 θ4 在一个非常大的程度那么我们会使所有这些参数接近于零的对不对？ θ1 将接近零 θ2 将接近零 θ3 和 θ4 最终也会接近于零如果我们这么做那么就是我们的假设中相当于去掉了这些项并且使我们只是留下了一个简单的假设这个假设只能表明那就是房屋价格就等于 θ0 的值那就是类似于拟合了一条水平直线对于数据来说这就是一个欠拟合 (underfitting) 这种情况下这一假设它是条失败的直线对于训练集来说这只是一条平滑直线它没有任何趋势它不会去趋向大部分训练样本的任何值这句话的另??一种方式来表达就是这种假设有过于强烈的"偏见" 或者过高的偏差 (bais) 认为预测的价格只是等于 θ0 并且尽管我们的数据集选择去拟合一条扁平的直线仅仅是一条扁平的水平线我画得不好对于数据来说这只是一条水平线因此为了使正则化运作良好我们应当注意一些方面应该去选择一个不错的正则化参数 λ 并且当我们以后讲到多重选择时在后面的课程中我们将讨论一种方法一系列的方法来自动选择正则化参数 λ 所以这就是高度正则化的思路回顾一下代价函数为了使用正则化在接下来的两段视频中让我们把这些概念应用到到线性回归和逻辑回归中去那么我们就可以让他们避免过度拟合了

正则化线性回归（Regularized Linear Regression）

对于线性回归的求解我们之前推导了两种学习算法一种基于梯度下降一种基于正规方程
0:08
在这段视频中我们将继续学习这两个算法并把它们推广到正则化线性回归中去这是我们上节课推导出的正则化线性回归的优化目标前面的第一部分是一般线性回归的目标函数而现在我们有这个额外的正则化项其中 λ 是正则化参数我们想找到参数 θ 能最小化代价函数即这个正则化代价函??数 J(θ) 之前我们使用梯度下降求解原来
0:46
没有正则项的代价函数我们用下面的算法求解常规的没有正则项的线性回归
0:54
我们会如此反复更新参数 θj 其中 j=0, 1, 2...n 让我照这个把 j=0 即 θ0 的情况单独写出来我只是把 θ0 的更新分离出来剩下的这些参数θ1, θ2 到θn的更新作为另一部分所以这样做其实没有什么变化对吧？这只是把 θ0 的更新这只是把 θ0 的更新和 θ1 θ2 到 θn 的更新分离开来和 θ1 θ2 到 θn 的更新分离开来我这样做的原因是你可能还记得对于正则化的线性回归
1:32
我们惩罚参数θ1 θ2...一直到 θn 但是我们不惩罚θ0 所以当我们修改这个正则化线性回归的算法时我们将对 θ0 的方式将有所不同
1:48
具体地说如果我们要对这个算法进行修改并用它求解正则化的目标函数我们需要做的是把下边的这一项做如下的修改我们要在这一项上添加一项: λ 除以 m
2:06
再乘以 θj 如果这样做的话那么你就有了用于最小化正则化代价函数 J(θ) 的梯度下降算法
2:19
我不打算用微积分来证明这一点但如果你看这一项方括号里的这一项
2:27
如果你知道微积分应该不难证明它是 J(θ) 对 θj 的偏导数这里的 J(θ) 是用的新定义的形式它的定义中包含正则化项而另一项上面的这一项我用青色的方框圈出来的这一项这也一个是偏导数是 J(θ)对 θ0 的偏导数如果你仔细看 θj 的更新你会发现一些有趣的东西具体来说 θj 的每次更新都是 θj 自己减去 α 乘以原来的无正则项然后还有这另外的一项这一项的大小也取决于 θj 所以如果你把所有这些取决于 θj 的合在一起的话可以证明这个更新可以等价地写为如下的形式具体来讲上面的 θj 对应下面的 θj 乘以括号里的1 而这一项是 λ 除以 m 还有一个α 把它们合在一起所以你最终得到 α 乘以 λ 再除以 m 然后合在一起乘以 θj 而这一项 1 减去 α 乘以 λ 除以 m 这一项很有意思
3:42
具体来说这一项 1 减去 α 乘以 λ 除以 m 这一项的值通常是一个具体的实数而且小于1 对吧？由于 α 乘以 λ 除以 m 通常情况下是正的如果你的学习速率小而 m 很大的话
3:58
(1 - αλ/m) 这一项通常是很小的所以这里的一项一般来说将是一个比1小一点点的值所以我们可以把它想成一个像0.99一样的数字
4:07
所以对 θj 更新的结果我们可以看作是被替换为 θj 的0.99倍也就是 θj 乘以0.99 把 θj 向 0 压缩了一点点所以这使得 θj 小了一点更正式地说 θj 的平方范数更小了另外这一项后边的第二项这实际上与我们原来的梯度下降更新完全一样跟我们加入了正则项之前一样
4:44
好的现在你应该对这个梯度下降的更新没有疑问了当我们使用正则化线性回归时我们需要做的就是在每一个被正规化的参数 θj 上乘以了一个比1小一点点的数字也就是把参数压缩了一点然后我们执行跟以前一样的更新
5:04
当然这仅仅是从直观上认识这个更新在做什么从数学上讲它就是带有正则化项的 J(θ) 的梯度下降算法我们在之前的幻灯片给出了定义梯度下降只是我们拟合线性回归模型的两种算法
5:24
的其中一个
5:26
第二种算法是使用正规方程我们的做法是建立这个设计矩阵 X 其中每一行对应于一个单独的训练样本然后创建了一个向量 y 向量 y 是一个 m 维的向量 m 维的向量包含了所有训练集里的标签所以 X 是一个 m × (n+1) 维矩阵 y 是一个 m 维向量 y 是一个 m 维向量为了最小化代价函数 J 我们发现一个办法就是一个办法就是让 θ 等于这个式子即 X 的转置乘以 X 再对结果取逆
6:10
再乘以 X 的转置乘以Y 我在这里留点空间等下再填满这个 θ 的值其实就是最小化代价函数 J(θ) 的θ值这时的代价函数J(θ)没有正则项现在如果我们用了是正则化我们想要得到最小值我们想要得到最小值我们来看看应该怎么得到我们来看看应该怎么得到推导的方法是取 J 关于各个参数的偏导数并令它们等于0 然后做些数学推导你可以得到这样的一个式子它使得代价函数最小具体的说如果你使用正则化那么公式要做如下改变括号里结尾添这样一个矩阵 0 1 1 1 等等直到最后一行所以这个东西在这里是一个矩阵它的左上角的元素是0 其余对角线元素都是1 剩下的元素也都是 0
7:13
我画的比较随意
7:15
可以举一个例子如果 n 等于2 那么这个矩阵将是一个3 × 3 矩阵更一般地情况该矩阵是一个 (n+1) × (n+1) 维的矩阵一个 (n+1) × (n+1) 维的矩阵
7:31
因此 n 等于2时矩阵看起来会像这样左上角是0 然后其他对角线上是1 其余部分都是0
7:42
同样地我不打算对这些作数学推导坦白说这有点费时耗力但可以证明如果你采用新定义的 J(θ) 如果你采用新定义的 J(θ) 包含正则项的目标函数
7:54
那么这个计算 θ 的式子能使你的 J(θ) 达到全局最小值
8:01
所以最后我想快速地谈一下不可逆性的问题
8:06
这部分是比较高阶的内容所以这一部分还是作为选学你可以跳过去或者你也可以听听如果听不懂的话也没有关系之前当我讲正规方程的时候我们也有一段选学视频讲不可逆的问题所以这是另一个选学内容可以作为上次视频的补充可以作为上次视频的补充
8:31
现在考虑 m 即样本总数小与或等于特征数量 n
8:38
如果你的样本数量比特征数量小的话那么这个矩阵 X 转置乘以 X 将是不可逆或奇异的(singluar) 或者用另一种说法是这个矩阵是退化(degenerate)的如果你在 Octave 里运行它无论如何你用函数 pinv 取伪逆矩阵这样计算理论上方法是正确的但实际上你不会得到一个很好的假设尽管 Ocatve 会用 pinv 函数给你一个数值解看起来还不错但是如果你是在一个不同的编程语言中如果在 Octave 中你用 inv 来取常规逆
9:20
你用 inv 来取常规逆
9:23
也就是我们要对 X 转置乘以 X 取常规逆然后在这样的情况下你会发现 X 转置乘以 X 是奇异的是不可逆的即使你在不同的编程语言里计算并使用一些线性代数库试图计算这个矩阵的逆矩阵都是不可行的因为这个矩阵是不可逆的或奇异的
9:44
幸运的是正规化也为我们解决了这个问题具体地说只要正则参数是严格大于0的实际上可以证明该矩阵 X 转置乘以 X 加上 λ 乘以这里这个矩阵可以证明这个矩阵将不是奇异的即该矩阵将是可逆的
10:07
因此使用正则化还可以照顾一些 X 转置乘以 X 不可逆的问题照顾一些 X 转置乘以 X 不可逆的问题好的你现在知道了如何实现正则化线性回归利用它你就可以避免过度拟合即使你在一个相对较小的训练集里有很多特征这应该可以让你在很多问题上更好地运用线性回归
10:30
在接下来的视频中我们将把这种正则化的想法应用到逻辑回归这样你就可以让逻辑回归也避免过度拟合并让它表现的更好

正则化的逻辑回归模型（Regularized Logistic Regression）

针对逻辑回归问题我们在之前的课程已经学习过两种优化算法我们首先学习了使用梯度下降法来优化代价函数 J(θ) 接下来学习了正则化技术这些高级优化算法需要你自己设计代价函数 J(θ) 自己计算导数
0:22
在本节课中我们将展示如何改进梯度下降法和高级优化算法使其能够应用于正则化的逻辑回归
0:35
接下来我们来学习其中的原理在之前的课程中我们注意到对于逻辑回归问题有可能会出现过拟合的现象如果你使用了类似这样的高阶多项式 g 是 S 型函数具体来说最后你会得到这样的结果最后你会得到这样的结果分类边界看起来是一个过于复杂并且十分扭曲的函数针对这个训练点集这显然不是一个好的结果通常情况下如果要解决的逻辑回归问题有很多参数并且又用了过多的多项式项这些项大部分都是没有必要的最终都可能出现过拟合的现象
1:11
这是逻辑回归问题的代价函数为了将其修改为正则化形式为了将其修改为正则化形式我们只需要在后面增加一项我们只需要在后面增加一项加上 λ/2m 再跟过去一样这个求和将 j 从1开始而不是从0开始累积 θj 的平方增加的这一项将惩罚参数 θ1, θ2 等等一直到 θn 防止这些参数取值过大
1:43
增加了这一项之后
1:45
产生的效果是即使用有很多参数的高阶多项式来拟合只要使用了正则化方法约束这些参数使其取值很小你仍有可能得到一条
1:58
看起来是这样的分类边界显然这条边界更合理地
2:02
分开了正样本和负样本
2:05
因此在使用了正则化方法以后
2:08
即使你的问题有很多参数正则化方法可以帮你避免过拟合的现象
2:14
这到底是怎样实现的呢？首先看看以前学过的梯度下降法这是我们之前得到的更新式我们利用这个式子迭代更新 θj 这一页幻灯片看起来和上一节课的线性回归问题很像但是这里我将 θ0 的更新公式单独写出来第一行用来更新 θ0 第一行用来更新 θ0 第二行用来更新 θ1 到 θn θ1 到 θn 将 θ0 单独处理为了按照正则化代价函数的形式
2:46
来修改算法接下来的推导非常类似于上一节学习过的正则化线性回归只需要将第二个式子修改成这样
2:58
我们又一次发现修改后的式子表面上看起来与上一节的线性回归问题很相似但是实质上这与我们上节学过的算法并不一样因为现在的假设 h(x) 是按照这个式子定义的这与上一节正则化线性回归算法中的定义并不一样由于假设的不同我写下的迭代公式只是表面上看起来很像上一节学过的正则化线性回归问题中的梯度下降算法
3:26
总结一下总结一下方括号中的这一项方括号中的这一项这一项是新的代价函数 J(θ) 关于 θj 的偏导数关于 θj 的偏导数这里的 J(θ) 是我们在上一页幻灯片中定义的使用了正则化的代价函数
3:49
以上就是正则化逻辑回归问题的梯度下降算法
3:55
接下来我们讨论如何在更高级的优化算法中使用同样的正则化技术
4:03
提醒一下对于这些高级算法我们需要自己定义 costFuntion 函数这个函数有一个输入参数向量 theta theta 的内容是这样的我们的参数索引依然从0开始即 θ0 到 θn 但是由于 Octave 中向量索引是从1开始我们的参数是从 θ0 到 θn 在 Octave 里是从 theta(1) 开始标号的而 θ1 将被记为 theta(2) 以此类推直到 θn 被记为
4:36
theta(n+1) 而我们需要做的就是将这个自定义代价函数这个 costFunction 函数代入到我们之前学过的代入到我们之前学过的 fminunc函数中括号里面是 @costFunction 将 @costFunction 作为参数代进去
4:54
等等 fminunc返回的是函数 costFunction 在无约束条件下的最小值因此这个式子将求得代价函数的最小值将求得代价函数的最小值
5:05
因此 costFunction 函数有两个返回值第一个是 jVal 为此我们要在这里补充代码来计算代价函数 J(θ)
5:17
由于我们在这使用的是正则化逻辑回归因此代价函数 J(θ) 也相应需要改变具体来说
5:24
代价函数需要增加这一正则化项因此当你在计算 J(θ) 时需要确保包含了最后这一项
5:34
另外代价函数的另一项返回值是对应的梯度导数梯度的第一个元素 gradient(1) 就等于 J(θ) 关于 θ0 的偏导数 J(θ)关于θ0的偏导数梯度的第二个元素按照这个式子计算剩余元素以此类推再次强调向量元素索引是从1开始这是因为 Octave 的向量索引就是从1开始的
5:55
再来总结一下
5:57
首先看第一个公式在之前的课程中我们已经计算过它等于这个式子这个式子没有变化因为相比没有正则化的版本 J(θ) 关于 θ0 的偏导数不会改变
6:10
但是其他的公式确实有变化以 θ1 的偏导数为例在之前的课程里我们也计算过这一项它等于这个式子减去 λ 除以 m (这里应为加校对者注) 再乘以 θ1 注意要确保这段代码编写正确建议在这里添加括号防止求和符号的作用域扩大与此类似再来看这个式子相比于之前的幻灯片这里多了额外的一项这就是正则化后的梯度计算方法当你自己定义了 costFunction 函数并将其传递到 fminuc 或者其他类似的高级优化函数中就可以求出这个新的正则化代价函数的极小值
6:56
而返回的参数值
6:59
即是对应的逻辑回归问题的正则化解
7:04
好的现在你知道了解决正则化逻辑回归问题的方法
7:09
你知道吗我住在硅谷当我在硅谷晃悠时我看到许多工程师运用机器学习算法给他们公司挣来了很多金子
7:19
课讲到这里大家对机器学习算法可能还只是略懂但是一旦你精通了
7:26
线性回归、高级优化算法和正则化技术坦率地说你对机器学习的理解可能已经比许多工程师深入了现在你已经有了丰富的机器学习知识目测比那些硅谷工程师还厉害而那些工程师都混得还不错给他们公司挣了大钱你懂的或者用机器学习算法来做产品
7:50
所以恭喜你
7:52
你已经历练得差不多了已经具备足够的知识足够将这些算法用于解决实际问题
7:59
所以你可以小小的骄傲一下了但是我还是有很多可以教你们的我还是有很多可以教你们的接下来的课程中我们将学习一个非常强大的非线性分类器无论是线性回归问题还是逻辑回归问题都可以构造多项式来解决但是你将逐渐发现还有更强大的非线性分类器可以用来解决多项式回归问题在下一节课我将向大家介绍它们你将学会比你现在解决问题的方法强大N倍的学习算法

神经网络：表述（Neural Networks: Representation）

非线性假设（Non-linear Hypotheses）

在这节课和接下来的课程中我将给大家介绍一种叫“神经网络”(Neural Network) 的机器学习算法
0:07
我们将首先讨论神经网络的表层结构在后续课程中再来具体讨论的学习算法神经网络实际上是一个相对古老的算法并且后来沉寂了一段时间不过到了现在它又成为许多机器学习问题的首选技术
0:23
不过我们为什么还需要这个学习算法？我们已经有线性回归和逻辑回归算法了为什么还要研究神经网络？
0:32
为了阐述研究神经网络算法的目的我们首先来看几个机器学习问题作为例子这几个问题的解决都依赖于研究复杂的非线性分类器
0:43
考虑这个监督学习分类的问题我们已经有了对应的训练集如果利用逻辑回归算法来解决这个问题首先需要构造一个包含很多非线性项的逻辑回归函数这里g仍是s型函数 (即f(x)=1/(1+e^-x) ) 我们能让函数包含很多像这样的多项式项事实上当多项式项数足够多时那么可能你能够得到一个
1:11
分开正样本和负样本的分界线当只有两项时比如 x1 x2 这种方法确实能得到不错的结果因为你可以把x1和x2的所有组合都包含到多项式中但是对于许多复杂的机器学习问题涉及的项往往多于两项
1:30
我们之前已经讨论过房价预测的问题假设现在要处理的是
1:38
关于住房的分类问题而不是一个回归问题假设你对一栋房子的多方面特点都有所了解你想预测房子在未来半年内能被卖出去的概率这是一个分类问题
1:52
我们可以想出很多特征对于不同的房子有可能就有上百个特征
2:00
对于这类问题如果要包含所有的二次项即使只包含二项式或多项式的计算最终的多项式也可能有很多项比如x1^2
2:12
x1x2 x1x3 x1x4
2:18
直到x1x100 还有x2^2 x2x3
2:25
等等很多项因此即使只考虑二阶项也就是说两个项的乘积 x1乘以x1 等等类似于此的项那么在n=100的情况下
2:38
最终也有5000个二次项
2:41
而且渐渐地随着特征个数n的增加二次项的个数大约以n^2的量级增长其中 n是原始项的个数即我们之前说过的x1到x100这些项事实上二次项的个数大约是(n^2)/2
2:59
因此要包含所有的二次项是很困难的所以这可能不是一个好的做法而且由于项数过多最后的结果很有可能是过拟合的此外在处理这么多项时
3:14
也存在运算量过大的问题
3:16
当然你也可以试试只包含上边这些二次项的子集例如我们只考虑 x1^2 x2^2 x3^2直到 x100^2 这些项这样就可以将二次项的数量大幅度减少减少到只有100个二次项但是由于忽略了太多相关项在处理类似左上角的数据时不可能得到理想的结果实际上如果只考虑x1的平方到x100的平方这一百个二次项那么你可能会拟合出一些特别的假设比如可能拟合出一个椭圆状的曲线
3:55
但是肯定不能拟合出像左上角这个数据集的分界线
3:59
所以5000个二次项看起来已经很多了而现在假设包括三次项或者三阶项例如x1 x2 x3 x1^2 x2 x10 x11 x17等等类似的三次项有很多很多事实上三次项的个数是以n^3的量级增加当n=100时可以计算出来最后能得到大概17000个三次项所以当初始特征个数n增大时这些高阶多项式项数将以几何级数递增特征空间也随之急剧膨胀当特征个数n很大时如果找出附加项来建立一些分类器这并不是一个好做法
4:49
对于许多实际的机器学习问题特征个数n是很大的举个例子
4:55
关于计算机视觉中的一个问题
4:59
假设你想要使用机器学习算法来训练一个分类器使它检测一个图像来判断图像是否为一辆汽车
5:09
很多人可能会好奇这对计算机视觉来说有什么难的当我们自己看这幅图像时里面有什么是一目了然的事情你肯定会很奇怪为什么学习算法竟可能会不知道图像是什么
5:22
为了解答这个疑问我们取出这幅图片中的一小部分将其放大比如图中这个红色方框内的部分结果表明当人眼看到一辆汽车时计算机实际上看到的却是这个一个数据矩阵或像这种格网它们表示了像素强度值告诉我们图像中每个像素的亮度值因此对于计算机视觉来说问题就变成了根据这个像素点亮度矩阵来告诉我们这些数值代表一个汽车门把手
5:54
具体而言当用机器学习算法构造一个汽车识别器时我们要想出一个带标签的样本集其中一些样本是各类汽车另一部分样本是其他任何东西将这个样本集输入给学习算法以训练出一个分类器训练完毕后我们输入一幅新的图片让分类器判定 “这是什么东西？”
6:17
理想情况下分类器能识别出这是一辆汽车
6:21
为了理解引入非线性分类器的必要性我们从学习算法的训练样本中挑出一些汽车图片和一些非汽车图片
6:32
让我们从其中每幅图片中挑出一组像素点这是像素点1的位置这是像素点2的位置在坐标系中标出这幅汽车的位置在某一点上车的位置取决于像素点1和像素点2的亮度
6:49
让我们用同样的方法标出其他图片中汽车的位置然后我们再举一个关于汽车的不同的例子观察这两个相同的像素位置
6:56
这幅图片中像素1有一个像素强度像素2也有一个不同的像素强度所以在这幅图中它们两个处于不同的位置我们继续画上两个非汽车样本这个不是汽车这个也不是汽车然后我们继续在坐标系中画上更多的新样本用‘‘+"表示汽车图片用“-”表示非汽车图片我们将发现汽车样本和非汽车样本分布在坐标系中的不同区域因此我们现在需要一个非线性分类器来尽量分开这两类样本
7:32
这个分类问题中特征空间的维数是多少？假设我们用5050像素的图片我们的图片已经很小了长宽只各有50个像素但这依然是2500个像素点
7:46
因此我们的特征向量的元素数量 N=2500 特征向量X 包含了所有像素点的亮度值这是像素点1的亮度这是像素点2的亮度如此类推直到最后一个像素点的亮度对于典型的计算机图片表示方法如果存储的是每个像素点的灰度值 (色彩的强烈程度) 那么每个元素的值应该在0到255之间因此这个问题中n=2500 但是这只是使用灰度图片的情况如果我们用的是RGB彩色图像每个像素点包含红、绿、蓝三个子像素那么n=7500
8:27
因此如果我们非要通过包含所有的二次项来解决这个非线性问题那么这就是式子中的所有条件 xixj 连同开始的2500像素总共大约有300万个这数字大得有点离谱了对于每个样本来说要发现并表示所有这300万个项这计算成本太高了
8:55
因此只是简单的增加二次项或者三次项之类的逻辑回归算法并不是一个解决复杂非线性问题的好办法因为当n很大时将会产生非常多的特征项在接下来的视频课程中我将为大家讲解神经网络它在解决复杂的非线性分类问题上被证明是是一种好得多的算法即使你输入特征空间或输入的特征维数n很大也能轻松搞定在后面的课程中我将给大家展示一些有趣的视频视频中讲述了神经网络在历史上的重要应用
9:30
我也希望这些我们即将看到的视频能给你的学习过程带来一些乐趣

神经元和大脑（Neurons and the Brain）

神经网络是一种很古老的算法它最初产生的目的是
0:05
制造能模拟大脑的机器在这门课中我将向你们介绍神经网络因为它能很好地解决不同的机器学习问题而不只因为它们在逻辑上行得通
0:18
在本节课的视频中告诉你们一些神经网络的背景知识由此我们能知道可以用它们来做什么不管是将其应用到现代的机器学习问题上还是应用到那些你可能会感兴趣的问题中也许这一伟大的人工智能梦想在未来能制造出真正的智能机器
0:37
另外我们还将讲解神经网络是怎么涉及这些问题的
0:42
神经网络产生的原因是人们想尝试设计出模仿大脑的算法从某种意义上说如果我们想要建立学习系统那为什么不去模仿我们所认识的最神奇的学习机器—— 人类的大脑呢神经网络逐渐兴起于二十世纪八九十年代应用得非常广泛但由于各种原因在90年代的后期应用减少了但是最近神经网络又东山再起了
1:13
其中一个原因是神经网络是计算量有些偏大的算法然而大概由于近些年计算机的运行速度变快才足以真正运行起大规模的神经网络正是由于这个原因和其他一些我们后面会讨论到的技术因素如今的神经网络对于许多应用来说是最先进的技术
1:39
当你想模拟大脑时是指想制造出与人类大脑作用效果相同的机器对吧？大脑可以学会去以看而不是听的方式处理图像学会处理我们的触觉我们能学习数学学着做微积分而且大脑能处理各种不同的令人惊奇的事情似乎如果你想要模仿它你得写很多不同的软件来模拟所有大脑告诉我们的这些五花八门的奇妙的事情不过能不能假设大脑做所有这些不同事情的方法不需要用上千个不同的程序去实现相反的大脑处理的方法只需要一个单一的学习算法就可以了？尽管这只是一个假设不过让我和你分享一些这方面的证据大脑的这一部分这一小片红色区域是你的听觉皮层你现在正在理解我的话这靠的是耳朵耳朵接收到声音信号并把声音信号传递给你的听觉皮层正因如此你才能明白我的话
2:41
神经系统科学家做了下面这个有趣的实验把耳朵到听觉皮层的神经切断在这种情况下
2:50
将其重新接到一个动物的大脑上这样从眼睛到视神经的信号最终将传到听觉皮层
2:58
如果这样做了那么结果表明听觉皮层将会
3:02
学会“看” 这里“看”代表了我们所知道的每层含义所以如果你对动物这样做那么动物就可以完成视觉辨别任务它们可以看图像并根据图像做出适当的决定它们正是通过脑组织中的这个部分完成的
3:19
来看另一个例子
3:21
这块红色的脑组织是你的躯体感觉皮层这是你用来处理触觉的如果你做一个和刚才类似的重接实验
3:30
那么躯体感觉皮层也能学会”看“ 这个实验和其它一些类似的实验被称为神经重接实验
3:39
从这个意义上说如果人体有同一块脑组织可以处理光、声或触觉信号那么也许存在一种学习算法可以同时处理视觉、听觉和触觉而不是需要运行上千个不同的程序或者上千个不同的算法来做这些大脑所完成的成千上万的美好事情也许我们需要做的就是找出一些近似的或实际的大脑学习算法然后实现它大脑通过自学掌握如何处理这些不同类型的数据
4:13
在很大的程度上可以猜想如果我们把几乎任何一种传感器接入到大脑的几乎任何一个部位的话大脑就会学会处理它
4:25
下面再举几个例子左上角的这张图是用舌头学会“看”的一个例子它的原理是这实际上是一个名为BrainPort的系统它现在正在FDA (美国食品和药物管理局) 的临床试验阶段它能帮助失明人士看见事物它的原理是你在前额上带一个灰度摄像头面朝前它就能获取你面前事物的低分辨率的灰度图像你连一根线
4:51
到舌头上安装的电极阵列上那么每个像素都被映射到你舌头的某个位置上可能电压值高的点对应一个暗像素电压值低的点对应于亮像素即使依靠它现在的功能使用这种系统就能让你我在几十分钟里就学会用我们的舌头“看”东西这是第二个例子关于人体回声定位或者说人体声纳
5:19
你有两种方法可以实现你可以弹响指
5:24
或者咂舌头这个我做不好不过现在有失明人士确实在学校里接受这样的培训并学会解读从环境反弹回来的声波模式—这就是声纳如果你搜索 YouTube之后就会发现有些视频讲述了一个令人称奇的孩子他因为癌症眼球惨遭移除虽然失去了眼球但是通过打响指他可以四处走动而不撞到任何东西他能滑滑板他可以将篮球投入篮框中注意这是一个没有眼球的孩子
6:00
第三个例子是触觉皮带如果你把它戴在腰上蜂鸣器会响而且总是朝向北时发出嗡嗡声它可以使人拥有方向感用类似于鸟类感知方向的方式还有一些离奇的例子如果你在青蛙身上插入第三只眼青蛙也能学会使用那只眼睛
6:27
因此这将会非常令人惊奇如果你能把几乎任何传感器接入到大脑中大脑的学习算法就能找出学习数据的方法并处理这些数据
6:40
从某种意义上来说如果我们能找出大脑的学习算法然后在计算机上执行大脑学习算法或与之相似的算法也许这将是我们向人工智能迈进做出的最好的尝试人工智能的梦想就是有一天能制造出真正的智能机器
6:59
当然我不是教神经网络的介绍它只因为它可能为我们打开一扇进入遥远的人工智能梦的窗户对于我个人来说它也是我研究生涯中致力于的一个项目但我在这节课中讲授神经网络的原因主要是对于现代机器学习应用它是最有效的技术方法因此在接下来的一些课程中我们将开始深入到神经网络的技术细节那么你就可以将它们应用到现代机器学习的应用中并利用它们很好地解决问题但对我来说使我兴奋的原因之一就是它或许能给我们一些启示让我们知道当我们在思考未来有什么样的算法能以与人类相似的方式学习时我们能做些什么

模型表示 1（Model Representation I）

在这个视频中我想开始向你介绍我们该如何表示神经网络换句话说当我们在运用神经网络时我们该如何表示我们的假设或模型神经网络是在模仿大脑中的神经元或者神经网络时发明的因此要解释如何表示模型假设我们先来看单个神经元在大脑中是什么样的
0:26
我们的大脑中充满了这样的神经元神经元是大脑中的细胞其中有两点值得我们注意一是神经元有像这样的细胞主体二是神经元有一定数量的输入神经这些输入神经叫做树突可以把它们想象成输入电线它们接收来自其他神经元的信息神经元的输出神经叫做轴突这些输出神经是用来给其他神经元传递信号或者传送信息的
1:05
简而言之神经元是一个计算单元它从输入神经接受一定数目的信息并做一些计算
1:14
然后将结果通过它的轴突传送到其他节点或者大脑中的其他神经元下面是一组神经元的示意图神经元利用微弱的电流进行沟通这些弱电流也称作动作电位其实就是一些微弱的电流
1:33
所以如果神经元想要传递一个消息它就会就通过它的轴突发送一段微弱电流给其他神经元这就是轴突这里是一条连接到输入神经或者连接另一个神经元树突的神经接下来这个神经元接收这条消息做一些计算它有可能会反过来将在轴突上的自己的消息传给其他神经元这就是所有人类思考的模型：我们的神经元把自己的收到的消息进行计算并向其他神经元传递消息顺便说一下这也是我们的感觉和肌肉运转的原理如果你想活动一块肌肉就会触发一个神经元给你的肌肉发送脉冲
2:28
并引起你的肌肉收缩如果一些感官比如说眼睛想要给大脑传递一个消息那么它就像这样发送电脉冲给大脑的在一个神经网络里或者说在我们在电脑上实现的人工神经网络里我们将使用一个非常简单的模型来模拟神经元的工作我们将神经元模拟成一个逻辑单元当我画一个这样的黄色圆圈时你应该把它想象成作用类似于神经元的东西然后我们通过它的树突或者说它的输入神经传递给它一些信息然后神经元做一些计算
3:17
并通过它的输出神经即它的轴突输出计算结果当我画一个像这样的图表时就表示对h(x)的计算 h(x)等于1除以
3:32
1加e的
3:35
负θ转置乘以 x 通常 x和θ 是我们的参数向量这是一个简单的模型甚至说是一个过于简单的模拟神经元的模型它被输入 x1 x2和 x3 然后输出一些类似这样的结果
3:59
当我绘制一个神经网络时通常我只绘制输入节点 x1 x2 x3
4:06
但有时也可以这样做：我增加一个额外的节点 x0
4:11
这个 x0 节点有时也被称作偏置单位
4:14
或偏置神经元但因为 x0 总是等于1 所以有时候我会画出它有时我不会画出这取决于它是否对例子有利现在来讨论最后一个关于神经网络的术语有时我们会说这是一个神经元一个有s型函数或者逻辑函数作为激励函数的人工神经元在神经网络术语中激励函数只是对类似非线性函数g(z)的另一个术语称呼 g(z)等于 1除以1 加e的-z次方到目前为止我一直称θ为模型的参数以后大概会继续将这个术语与 “参数”相对应而不是与神经网络
5:07
在关于神经网络的文献里有时你可能会看到人们谈论一个模型的权重权重其实和模型的参数是一样的东西在视频中
5:19
我会继续使用“参数”这个术语但有时你可能听到别人用“权重”这个术语
5:27
这个小圈代表一个单一的神经元
5:34
神经网络其实就是这些不同的神经元组合在一起的集合
5:41
具体来说这里是我们的输入单元 x1 x2和 x3 再说一次有时也可以画上额外的节点 x0 我把 x0 画在这了
5:53
这里有 3个神经元我在里面写了a(2)1 a(2)2 和a(2)3 然后再次说明我们可以在这里添加一个a0 和一个额外的偏度单元
6:10
它的值永远是1 最后我们在最后一层有第三个节点正是这第三个节点输出假设函数h(x)计算的结果
6:22
再多说一点关于神经网络的术语网络中的第一层也被称为输入层因为我们在这一层输入我们的特征项 x1 x2 x3 最后一层也称为输出层因为这一层的神经元—我指的这个输出假设的最终计算结果中间的两层也被称作隐藏层隐藏层不是一个很合适的术语但是直觉上我们知道在监督学习中你能看到输入也能看到正确的输出而隐藏层的值你在训练集里是看不到的它的值不是 x 也不是y 所以我们叫它隐藏层稍后我们会看到神经网络可以有不止一个的隐藏层但在这个例子中我们有一个输入层—第1层一个隐藏层— 第2层和一个输出层—第3层但实际上任何非输入层或非输出层的层就被称为隐藏层
7:26
接下来我希望你们明白神经网络究竟在做什么让我们逐步分析这个图表所呈现的计算步骤
7:41
为了解释这个神经网络具体的计算步骤这里还有些记号要解释我要使用a上标(j) 下标i表示第j层的第i个神经元或单元具体来说这里
7:59
a上标(2) 下标1 表示第2层的第一个激励即隐藏层的第一个激励所谓激励(activation) 是指由一个具体神经元读入计算并输出的值此外我们的神经网络被这些矩阵参数化 θ上标(j) 它将成为一个波矩阵控制着从一层比如说从第一层到第二层或者第二层到第三层的作用
8:29
所以这就是这张图所表示的计算
8:34
这里的第一个隐藏单元
8:37
是这样计算它的值的： a(2)1等于 s函数或者说s激励函数也叫做逻辑激励函数
8:47
作用在这种输入的线性组合上的结果
8:53
第二个隐藏单元等于s函数作用在这个线性组合上的值
9:02
同样对于第三个隐藏的单元它是通过这个公式计算的
9:08
在这里我们有三个输入单元和三个隐藏单元
9:16
这样一来参数矩阵控制了我们来自三个输入单元三个隐藏单元的映射因此θ1的维数
9:29
将变成3 θ1将变成一个
9:38
3乘4维的
9:40
矩阵更一般的
9:43
如果一个网络在第j 层有sj个单元在j+1层有 sj+1个单元那么矩阵θ(j) 即控制第j层到第j+1层映射的矩阵的维度为s(j+1) * (sj+1) 这里要搞清楚这个是s下标j+1 而这个是 s下标j 然后整体加上1 整体加1 明白了吗所以θ(j)的维度是 s(j+1)行 sj+1列这里sj+1 当中的1 不是下标的一部分
10:32
以上我们讨论了三个隐藏单位是怎么计算它们的值
10:37
最后在输出层我们还有一个单元它计算 h(x) 这个也可以写成a(3)1 就等于后面这块
10:52
注意到我这里写了个上标2 因为θ上标2 是参数矩阵或着说是权重矩阵该矩阵控制从第二层即隐藏层的3个单位到第三层的一个单元即输出单元
11:12
的映射总之以上我们展示了像这样一张图是怎样定义一个人工神经网络的这个神经网络定义了函数h：从输入 x 到输出y的映射我将这些假设的参数记为大写的θ 这样一来不同的θ 对应了不同的假设所以我们有不同的函数比如说从 x到y的映射以上就是我们怎么从数学上定义神经网络的假设
11:49
在接下来的视频中我想要做的就是让你对这些假设的作用有更深入的理解并且讲解几个例子然后谈谈如何有效的计算它们

模型表示 2（Model Representation II）

在前面的视频里我们解释了怎样用数学来定义或者计算神经网络算法的假设
0:08
在这段视频中我想告诉你如何高效地进行计算并展示一个向量化的实现方法
0:17
更重要的是我想让你们明白为什么这样表示神经网络是一个好的方法并且明白它们怎样帮助我们学习复杂的非线性假设
0:28
以这个神经网络为例以前我们说计算出假设输出的步骤是左边的这些方程通过这些方程我们计算出三个隐藏单元的激励值然后利用这些值来计算假设h(x)的最终输出接下来我要定义一些额外的项因此这里我画线的项把它定义为 z上标(2) 下标1 这样一来就有了 a(2)1 这个项等于 g(z(2)1) 另外顺便提一下这些上标2 的意思是在z(2)和a(2)中括号中的 2表示这些值与第二层相关即与神经网络中的隐藏层有关
1:22
接下来这里的项我将同样定义为
1:29
z(2)2 最后这个我画线的项
1:34
我把它定义为z(2)3 这样我们有a(2)3 等于
1:44
g(z(2)3) 所以这些z值都是一个线性组合是输入值x0 x1 x2 x3的加权线性组合它将会进入一个特定的神经元
1:57
现在看一下这一堆数字
2:01
你可能会注意到这块对应了
2:06
矩阵向量运算类似于矩阵向量乘法 x1乘以向量x 观察到一点我们就能将神经网络的计算向量化了
2:21
具体而言我们定义特征向量x 为x0 x1 x2 x3组成的向量其中x0 仍然等于1 并定义 z(2)为这些z值组成的向量即z(2)1 z(2)2 z(2)3
2:38
注意在这里 z(2) 是一个三维向量
2:43
下面我们可以这样
2:48
向量化a(2)1 a(2)2 a(2)3的计算我们只用两个步骤 z(2)等于θ(1) 乘以x 这样就有了向量z(2) 然后 a(2)等于 g(z(2)) 需要明白这里的z(2)是三维向量并且 a(2)也是一个三维向量因此这里的激励g 将s函数逐元素作用于 z(2)中的每个元素顺便说一下为了让我们的符号和接下来的工作相一致在输入层虽然我们有输入x 但我们还可以把这些想成是第一层的激励所以我可以定义a(1) 等于x 因此 a(1)就是一个向量了我就可以把这里的x 替换成a(1) z(2)就等于θ(1)乘以a(1) 这都是通过在输入层定义a(1)做到的
3:44
现在就我目前所写的我得到了 a1 a2 a3的值并且我应该把上标加上去但我还需要一个值我同样需要这个a(2)0 它对应于隐藏层的得到这个输出的偏置单元当然这里也有一个偏置单元我只是没有画出来为了注意这额外的偏置单元接下来我们要额外加上一个a0 上标(2) 它等于1 这样一来现在 a(2)就是一个四维的特征向量因为我们刚添加了这个额外的 a0 它等于 1并且它是隐藏层的一个偏置单元最后
4:35
为了计算假设的实际输出值我们只需要计算
4:42
z(3) z(3)等于这里我画线的项这个方框里的项就是z(3)
4:53
z(3)等于θ(2) 乘以a(2) 最后假设输出为h(x) 它等于a(3) a(3)是输出层唯一的单元它是一个实数你可以写成a(3) 或a(3)1 这就是g(z(3)) 这个计算h(x)的过程也称为前向传播(forward propagation)
5:19
这样命名是因为我们从输入层的激励开始然后进行前向传播给隐藏层并计算隐藏层的激励然后我们继续前向传播并计算输出层的激励
5:37
这个从输入层到隐藏层再到输出层依次计算激励的过程叫前向传播
5:43
我们刚刚得到了这一过程的向量化实现方法如果你使用右边这些公式实现它就会得到一个有效的计算h(x) 的方法
5:58
这种前向传播的角度
6:00
也可以帮助我们了解神经网络的原理和它为什么能够帮助我们学习非线性假设
6:08
看一下这个神经网络我会暂时盖住图片的左边部分如果你观察图中剩下的部分这看起来很像逻辑回归在逻辑回归中我们用这个节点即这个逻辑回归单元来预测 h(x)的值具体来说假设输出的 h(x)将等于s型激励函数 g(θ0 xa0 +θ1xa1
6:45
+θ2xa2 +θ3xa3) 其中 a1 a2 a3 由这三个单元给出
7:01
为了和我之前的定义保持一致需要在这里还有这些地方都填上上标(2)
7:12
同样还要加上这些下标1 因为我只有一个输出单元但如果你只观察蓝色的部分这看起来非常像标准的逻辑回归模型不同之处在于我现在用的是大写的θ 而不是小写的θ
7:29
这样做完我们只得到了逻辑回归
7:33
但是逻辑回归的输入特征值是通过隐藏层计算的
7:41
再说一遍神经网络所做的就像逻辑回归但是它不是使用 x1 x2 x3作为输入特征
7:52
而是用a1 a2 a3作为新的输入特征同样我们需要把
7:58
上标加上来和之前的记号保持一致
8:02
有趣的是特征项a1 a2 a3它们是作为输入的函数来学习的
8:10
具体来说就是从第一层映射到第二层的函数这个函数由其他一组参数θ(1)决定所以在神经网络中它没有用输入特征x1 x2 x3 来训练逻辑回归而是自己训练逻辑回归的输入 a1 a2 a3 可以想象如果在θ1中选择不同的参数有时可以学习到一些很有趣和复杂的特征就可以
8:43
得到一个更好的假设比使用原始输入 x1 x2或x3时得到的假设更好你也可以选择多项式项 x1 x2 x3等作为输入项但这个算法可以灵活地快速学习任意的特征项把这些a1 a2 a3 输入这个最后的单元实际上
9:09
它是逻辑回归我觉得现在描述的这个例子有点高端所以我不知道你是否能理解这个具有更复杂特征项的神经网络但是如果你没理解在接下来的两个视频里我会讲解一个具体的例子它描述了怎样用神经网络如何利用这个隐藏层计算更复杂的特征并输入到最后的输出层以及为什么这样就可以学习更复杂的假设所以如果我现在讲的你没理解请继续观看接下来的两个视频希望它们提供的例子能够让你更加理解神经网络但有一点你还可以用其他类型的图来表示神经网络神经网络中神经元相连接的方式称为神经网络的架构所以说架构是指不同的神经元是如何相互连接的这里有一个不同的神经网络架构的例子
10:07
你可以意识到这个第二层是如何工作的在这里我们有三个隐藏单元它们根据输入层计算一个复杂的函数然后第三层可以将第二层训练出的特征项作为输入并在第三层计算一些更复杂的函数这样在你到达输出层之前即第四层就可以利用第三层训练出的更复杂的特征项作为输入以此得到非常有趣的非线性假设
10:36
顺便说一下在这样的网络里第一层被称为输入层第四层仍然是我们的输出层这个网络有两个隐藏层所以任何一个不是输入层或输出层的都被称为隐藏层
10:53
我希望从这个视频中你已经大致理解前向传播在神经网络里的工作原理：从输入层的激励开始向前传播到第一隐藏层然后传播到第二隐藏层最终到达输出层并且你也知道了如何向量化这些计算
11:13
我发现这个视频里我讲了某些层是如何计算前面层的复杂特征项我意识到这可能仍然有点抽象显得比较高端所以我将在接下来的两个视频中讨论具体的例子它描述了怎样用神经网络来计算输入的非线性函数希望能使你更好的理解从神经网络中得到的复杂非线性假设

特征和直观理解 1（Examples and Intuitions I）

在接下来两节视频中我要通过讲解一个具体的例子来解释神经网络是如何计算关于输入的复杂的非线性函数希望这个例子可以让你了解为什么神经网络可以用来学习复杂的非线性假设
0:16
考虑下面的问题我们有二进制的输入特征 x1 x2 要么取0 要么取1 所以x1和x2只能有两种取值
0:28
在这个例子中我只画出了两个正样本和两个负样本但你可以认为这是一个更复杂的学习问题的简化版本在这个复杂问题中我们可能在右上角有一堆正样本在左下方有一堆用圆圈表示的负样本我们想要学习一种非线性的
0:48
决策边界来区分正负样本
0:53
那么神经网络是如何做到的呢？为了描述方便我不用右边这个例子我用左边这个例子这样更容易说明具体来讲这里需要计算的是目标函数y 等于x1异或x2 或者 y也可以等于 x1 异或非 x2 其中异或非表示 x1异或x2后取反 X1异或X2 为真当且仅当这两个值 X1或者X2中有且仅有一个为1 如果我用XNOR作为例子比用NOT作为例子结果会好一些但这两个其实是相同的这就意味着在x1 异或x2后再取反即当它们同时为真或者同时为假的时候我们将获得 y等于1 y为0的结果如果它们中仅有一个为真 y则为0 我们想要知道是否能找到一个神经网络模型来拟合这种训练集
1:59
为了建立能拟合XNOR运算的神经网络我们先讲解一个稍微简单的神经网络它拟合了“且运算”
2:10
假设我们有输入x1和 x2 并且都是二进制即要么为0要么为1 我们的目标函数y正如你所知道的等于x1且x2 这是一个逻辑与
2:30
那么我们怎样得到一个具有单个神经元的神经网络来计算这个逻辑与呢
2:37
为了做到这一点我也需要画出偏置单元即这个里面有个+1的单元
2:45
现在让我给这个网络分配一些权重或参数我在图上写出这些参数这里是-30
2:56
正20 正20 即我给 x0前面的系数赋值为-30. 这个正1会作为这个单元的值关于20的参数值且x1乘以+20 以及x2乘以+20 都是这个单元的输入
3:17
所以我的假设?(x) 等于 g(-30 + 20x1 + 20x2) 在图上画出这些参数和权重是很方便很直观的其实在这幅神经网络图中这个-30 其实是θ(1)10
3:43
这个是 θ(1)11 这是
3:51
θ(1)12 但把它想成这些边的权重会更容易理解
4:01
让我们来看看这个小神经元是怎样计算的回忆一下 s型激励函数g(z)看起来是这样的它从0开始光滑上升穿过0.5 渐进到1.
4:15
我们给出一些坐标如果横轴值 z等于4.6 则
4:23
S形函数等于0.99 这是非常接近 1的并且由于对称性如果z为-4.6 S形函数等于0.01 非常接近0
4:39
让我们来看看四种可能的输入值 x1和x2的四种可能输入看看我们的假设在各种情况下的输出如果X1和X2均为 0 那么你看看这个如果 x1和x2都等于为0 则假设会输出g(-30) g(-30)在图的很左边的地方非常接近于0 如果x1等于0且 x2等于1 那么此公式等于 g关于 -10取值也在很左边的位置所以也是非常接近0 这个也是g(-10) 也就是说如果x1 等于1并且 x2等于0 这就是-30加20等于-10 最后如??果 x1等于1 x2等于 1 那么这等于 -30 +20 +20 所以这是取+10时非常接近1 如果你看看在这一列这就是逻辑“与”的计算结果所以这里得到的h h关于x取值近似等于x1和x2的与运算的值换句话说假设输出 1 当且仅当 x1 x2
6:00
都等于1 所以通过写出这张真值表我们就弄清楚了神经网络计算出的逻辑函数
6:16
这里的神经网络实现了或函数的功能接下来我告诉你是怎么看出来的如果你把假设写出来会发现它等于 g关于-10 +20x1 +20x2的取值如果把这些值都填上会发现这是g(-10) 约等于0 这是g(10) 约等于1 这个也约等于1 这些数字本质上就是逻辑或运算得到的值所以我希望通过这个例子你现在明白了神经网络里单个的神经元在计算如AND和OR逻辑运算时是怎样发挥作用的在接下来的视频中我们将继续讲解一个更复杂的例子我们将告诉你一个多层的神经网络怎样被用于计算更复杂的函数如 XOR 函数或 XNOR 函数

样本和直观理解 2（Examples and Intuitions II）

在这段视频中我想通过例子来向大家展示一个神经网络是怎样计算非线性的假设函数
0:10
在上一段视频中我们学习了怎样运用神经网络来计算x1和x2的与运算以及x1和x2的或运算其中x1和x2都是二进制数也就是说它们的值只能为0或1 同时我们也学习了怎样进行逻辑非运算也就是计算 "非x1" 我先写出这个神经网络中相连接的各权值这里我们只有一个输入量x1 在这里我们也加上了表示偏差的单位元 +1 如果我将输入单元和两个权数相连也就是+10和-20 则可用以下假设方程来计算 h(x)=g(10-20x1) 其中g是一个S型函数那么当x1等于0时计算出假设函数
0:55
g(10-20*0) 也就是g(10) 这个值近似的等于1 而当x等于1时计算出的假设函数则变成 g(-10) 也就是约等于0 如果你观察这两个值你会发现这实际上计算的就是“非x1”函数
1:14
所以要计算逻辑非运算总体思路是在你希望取非运算的变量前面放上一个绝对值大的负数作为权值因此如果放一个-20 那么和x1相乘很显然最终的结果就得到了对x1进行非运算的效果另外我再给出一个例子计算这样一个函数 (非x1)与(非x2) 我希望大家思考一下自己动手算一算你大概应该知道至少应该在x1和x2前面放一个绝对值比较大的负数作为权值不过还有一种可行的方法是建立一个神经网络来计算用只有一个输出单元的神经网络没问题吧？因此这个看起来很长的逻辑函数 “(非x1)与(非x2)”的值将等于1 当且仅当 x1等于x2等于0 所以这是个逻辑函数这里是非x1 也就是说x1必为0 然后是非x2 这表示x2也必为0 因此这个逻辑函数等于1 当且仅当 x1和x2的值都为0时成立
2:23
现在你应该也清楚了怎样建立一个小规模的神经网络来计算这个逻辑函数的值
2:33
把以上我们介绍的这三个部分内容放在一起 "x1与x2"与运算的网络以及计算 "(非x1)与(非x2)"的网络还有最后一个是 "x1或x2"的或运算网络把这三个网络放在一起我们就应该能计算 "x1 XNOR x2" 也就是同或门运算
2:53
提醒一下如果这是x1 x2 那么我们想要计算的这个函数在这里和这里是负样本而在这里和这里函数有正样本值那么很显然为了分隔开正样本和负样本我们需要一个非线性的判别边界
3:12
这里我们用以下这个网络来解决取输入单元 +1 x1和x2 建立第一个隐藏层单元我们称其为a(2)1 因为它是第一个隐藏单元接下来我要从红色的网络也就是"x1与x2"这个网络复制出权值也就是-30 20 20 接下来我再建立第二个隐藏单元我们称之为a(2)2 它是第二层的第二个隐藏单元然后再从中间的青色网络中复制出权值这样我们就有了 10 -20 -20 这样三个权值
3:52
因此我们来看一下真值表中的值对于红色的这个网络我们知道是x1和x2的与运算所以这里的值大概等于0 0 0 1 这取决于x1和x2的具体取值
4:07
对于a (2)2 也就是青色的网络
4:10
我们知道这是“(非x1)与(非x2)”的运算那么对于x1和x2的四种取值其结果将为 1 0 0 0 最后建立输出节点也就是输出单元 a(3)1 这也是等于输出值h(x) 然后复制一个或运算网络同时我需要一个+1作为偏差单元将其添加进来然后从绿色的网络中复制出所有的权值也就是-10 20 20
4:42
我们之前已经知道这是一个或运算函数
4:46
那么我们继续看真值表的值
4:50
第一行的值是0和1的或运算其结果为1 然后是0和0的或运算其结果为0 0和0的或运算结果还是0 1和0的或运算其结果为1 因此 h(x)的值等于1 当x1和x2都为0 或者x1和x2都为1的时候成立具体来说在这两种情况时 h(x)输出1 在另两种情况时 h(x)输出0 那么对于这样一个神经网络有一个输入层一个隐藏层和一个输出层我们最终得到了计算XNOR函数的非线性判别边界
5:31
更一般的理解是在输入层中我们只有原始输入值然后我们建立了一个隐藏层用来计算稍微复杂一些的输入量的函数如图所示这些都是稍微复杂一些的函数然后通过添加另一个层我们得到了一个更复杂一点的函数
5:50
这就是关于神经网络可以计算较复杂函数的某种直观解释我们知道当层数很多的时候你有一个相对简单的输入量的函数作为第二层而第三层可以建立在此基础上来计算更加复杂一些的函数然后再下一层又可以计算再复杂一些的函数
6:10
在这段视频的最后我想给大家展示一个有趣的例子这是一个神经网络通过运用更深的层数来计算更加复杂函数的例子我将要展示的这段视频来源于我的一个好朋友阳乐昆(Yann LeCun) Yann是一名教授供职于纽约大学他也是神经网络研究早期的奠基者之一也是这一领域的大牛他的很多理论和想法现在都已经被应用于各种各样的产品和应用中遍布于全世界所以我想向大家展示一段他早期工作中的视频这段视频中他使用神经网络的算法进行手写数字的辨识
6:51
你也许记得在这门课刚开始的时候我说过关于神经网络的一个早期成就就是应用神经网络读取邮政编码以帮助我们进行邮递那么这便是其中一种尝试这就是为了解决这个问题而尝试采用的一种算法在视频中这个区域是输入区域表示的是手写字符它们将被传递给神经网络这一列数字表示通过该网络第一个隐藏层运算后特征量的可视化结果因此通过第一个隐藏层可视化结果显示的是探测出的不同特征不同边缘和边线
7:32
这是下一个隐藏层的可视化结果似乎很难看出怎样理解更深的隐藏层以及下一个隐藏层计算的可视化结果可能你如果要想看出到底在进行怎样的运算还是比较困难的最终远远超出了第一个隐藏层的效果但不管怎样最终这些学习后的特征量将被送到最后一层也就是输出层并且在最后作为结果显示出来最终预测到的结果就是这个神经网络辨识出的手写数字的值下面我们来观看这段视频
9:42
我希望你
9:50
喜欢这段视频也希望这段视频能给你一些直观的感受关于神经网络可以学习的较为复杂一些的函数在这个过程中它使用的输入是不同的图像或者说就是一些原始的像素点第一层计算出一些特征然后下一层再计算出一些稍复杂的特征然后是更复杂的特征然后这些特征实际上被最终传递给最后一层逻辑回归分类器上
10:15
使其准确地预测出神经网络“看”到的数字

多类分类（Multiclass Classification）

在这段视频中我想和大家谈谈如何用神经网络做多类别分类在多类别分类中通常有不止一个类别需要我们去区分在上一段视频最后我们提到了有关手写数字辨识的问题这实际上正是一个多类别分类的问题因为辨识数字从0到9 正好是10个类别因此你也许已经想问究竟应该怎样处理这个问题
0:30
我们处理多类别分类的方法
0:32
实际上是基于一对多神经网络算法而延伸出来的
0:38
让我们来看这样一个例子还是有关计算机视觉的例子就像我之前介绍过的识别汽车的例子但与之不同的是现在我们希望处理的是四个类别的分类问题给出一幅图片我们需要确定图上是什么是一个行人一辆汽车还是一辆摩托车亦或是一辆卡车对于这样一个问题我们的做法是建立一个具有四个输出单元的神经网络也就是说此时神经网络的输出是一个四维向量
1:09
因此现在的输出需要用一个向量来表示这个向量中有四个元素而我们要做的是对第一个输出元素进行分辨图上是不是一个行人然后对第二个元素分辨它是不是一辆汽车同样第三个元素是不是摩托车第四个元素是不是一辆卡车因此当图片上是一个行人时我们希望这个神经网络输出1 0 0 0 当图片是一辆轿车时我们希望输出是 0 1 0 0 当图片是一辆摩托车时我们希望结果是0 0 1 0 以此类推
1:50
所以这和我们介绍逻辑回归时讨论过的一对多方法其实是一样的只不过现在我们有四个逻辑回归的分类器而我们需要对四个分类器中每一个都分别进行识别分类因此重新整理一下这页讲义这是我们的神经网络结构有四个输出单元这是针对不同的图片我们h(x)的表达式此时我们需要用如下的方法来表示训练集在这个例子中当我们要表征一个具有行人汽车
2:27
摩托车和卡车这样四个不同图片作为元素的训练集时我们应该怎么做呢之前我们把标签写作一个整数用y来表示 1 2 3 4 现在我们不这样表示y 而是用以下的方法来代表y 那就是
2:54
y(i) 表示1 0 0 0 或者0 1 0 0 或者0 0 1 0 或者0 0 0 1 根据相对于的图片x(i)来决定这样我们的训练样本将成为 x(i) y(i) 这一对数
3:04
其中 x(i)表示我们已知的四种物体图像中的一个而y(i)是这四个向量中的某一个
3:10
我们希望能够找到某种方法让我们的神经网络输出某个值因此 h(x) 近似约等于y 在我们的例子中 h(x) 和 y(i) 它们都应该是四维向量因为我们有四个类别
3:31
当前时间是9月4日星期三还有时间以及2013年这就是使用神经网络进行多类别分类的方法
3:36
这样我们就讨论了怎样基于我们的假设表达式来表征神经网络
3:42
在接下来几节课中我们会开始讨论怎样得到训练集以及怎样自动学习神经网络的参数

神经网络的学习（Neural Networks: Learning）

代价函数（Cost Function）

神经网络是当今最强大的学习算法之一在本节课视频和后面几次课程中我将开始讲述一种在给定训练集下为神经网络拟合参数的学习算法正如我们讨论大多数学习算法一样我们准备从拟合神经网络参数的代价函数开始讲起我准备重点讲解神经网络在分类问题中的应用
0:27
假设我们有一个如左边所示的神经网络结构然后假设我们有一个像这样的训练集 m个训练样本x(i) y(i)
0:37
我用大写字母 L 来表示这个神经网络结构的总层数所以对于左边的网络结构我们得到 L等于4 然后我准备用 sl表示第L层的单元的数量也就是神经元的数量这其中不包括L层的偏差单元比如说我们得到s1 也就是输入层是等于3的单元 s2在这个例子里等于5个单位然后输出层s4
1:09
也就是sl 因为L本身等于4 在左边这个例子中输出层有4个单位
1:17
我们将会讨论两种分类问题第一种是二元分类
1:22
在这里y只能等于0或1 在这个例子中我们有一个输出单元上面这个神经网络的有四个输出单元但是如果我们用二元分类的话我们就只能有一个输出结果也就是计算出来的h(x)
1:40
神经网络的输出结果 h(x)就会是一个实数
1:46
在这类问题里输出单元的个数 sl L同样代表最后一层的序号因为这就是我们在这个网络结构中的层数所以我们在输出层的单元数目就将是1 在这类问题里为了简化记法我会把K设为1 这样你可以把K看作输出层的单元数目我们要考虑的第二类分类问题就是多类别的分类问题也就是会有K个不同的类
2:19
比如说如果我们有四类的话我们就用这样的表达形式来代表y 在这类问题里我们就会有K个输出单元我们的假设输出就是一个K维向量
2:34
输出单元的个数就等于K 通常这类问题里我们都有K大于或等于3
2:43
因为如果只有两个类别我们就不需要使用这种一对多的方法我们只有在K大于或者等于3个类的时候才会使用这种一对多的方法因为如果只有两个类别我们就只需要一个输出单元就可以了现在我们来为神经网络定义代价函数
3:03
我们在神经网络里使用的代价函数应该是逻辑回归里使用的代价函数的一般化形式对于逻辑回归而言我们通常使代价函数 J(θ) 最小化也就是-1/m 乘以后面这个代价函数然后再加上这个额外正则化项这里是一个 j从1到n的求和形式因为我们并没有把偏差项 0正则化
3:31
对于一个神经网络来说我们的代价函数是这个式子的一般化形式
3:35
这里不再是仅有一个逻辑回归输出单元取而代之的是K个所以这是我们的代价函数
3:44
神经网络现在输出了在K维的向量这里K可以取到1 也就是原来的二元分类问题
3:51
我准备用这样一个记法
3:53
h(x)带下标i 来表示第i个输出也就是h(x)是一个K维向量下标 i 表示选择了神经网络输出向量的第i个元素
4:08
我的代价函数 J(θ) 将成为下面这样的形式 -1/m乘以一个类似于我们在逻辑回归里所用的求和项除了这里我们求的是 k从1到K的所有和这个求和项主要是 K个输出单元的求和所以如果我有四个输出单元
4:29
也就是我的神经网络最后一层有四个输出单元那么这个求和就是这个求和项就是求k等于从1到4的每一个的逻辑回归算法的代价函数
4:42
然后按四次输出的顺序依次把这些代价函数加起来所以你会特别注意到这个求和符号应用于 yk和hk 因为我们主要是讨论 K个输出单元并且把它和yk的值相比 yk的值就是这些向量里表示它应当属于哪个类别的量
5:06
最后这里的第二项这就是类似于我们在逻辑回归里所用的正则化项
5:14
这个求和项看起来确实非常复杂它所做的就是把这些项全部相加也就是对所有i j和l 的θji的值都相加正如我们在逻辑回归里一样这里要除去那些对应于偏差值的项那些项我们是不加进去的那些项我们是不加进去的具体地说我们不把那些对于i等于0的项加入其中这是因为当我们计算神经元的激励值时我们会有这些项 θi0 加上θi1 乘以x1 再加上等等等等这里我认为我们可以加上2的上标如果这是第一个隐含层的话所以这些带0的项所以这些带0的项对应于乘进去了 x0 或者是a0什么的这就是一个类似于偏差单元的项类比于我们在做逻辑回归的时候我们就不应该把这些项加入到正规化项里去因为我们并不想正规化这些项并把这些项设定为0 但这只是一个合理的规定
6:17
即使我们真的把他们加进去了也就是i从0加到sL 这依然成立并且不会有大的差异但是这个"不把偏差项正规化" 的规定可能只是会更常见一些
6:32
好了这就是我们准备应用于神经网络的代价函数在下一个视频中我会开始讲解一个算法来最优化这个代价函数

反向传播算法（Backpropagation Algorithm）

在上一个视频里我们讲解了神经网络的代价函数在这个视频里让我们来说说让代价函数最小化的算法具体来说我们将主要讲解反向传播算法
0:13
这个就是我们上一个视频里写好的代价函数我们要做的就是设法找到参数使得J(θ)取到最小值为了使用梯度下降法或者其他某种高级优化算法我们需要做的就是写好一个可以通过输入参数 θ 然后计算 J(θ) 和这些偏导数项的代码记住这些神经网络里对应的参数也就是 θ 上标 (l) 下标 ij 的参数这些都是实数所以这些都是我们需要计算的偏导数项为了计算代价函数 J(θ) 我们就是用上面这个公式所以我们在本节视频里大部分时间想要做的都是重点关注如何计算这些偏导数项我们从只有一个训练样本的情况开始说起假设我们整个训练集只包含一个训练样本也就是实数对我这里不写成x(1) y(1) 就写成这样把这一个训练样本记为 (x, y) 让我们粗看一遍使用这一个训练样本来计算的顺序
1:25
首先我们应用前向传播方法来计算一下在给定输入的时候假设函数是否会真的输出结果具体地说这里的 a(1) 就是第一层的激励值也就是输入层在的地方所以我准备设定他为然后我们来计算 z(2) 等于 θ(1) 乘以 a(1) 然后 a(2) 就等于 g(z(2)) 函数其中g是一个S型激励函数这就会计算出第一个隐藏层的激励值也就是神经网络的第二层我们还增加这个偏差项接下来我们再用2次前向传播来计算出 a(3) 和最后的 a(4) 同样也就是假设函数 h(x) 的输出所以这里我们实现了把前向传播向量化这使得我们可以计算神经网络结构里的每一个神经元的激励值
2:27
接下来为了计算导数项我们将采用一种叫做反向传播(Backpropagation)的算法
2:34
反向传播算法从直观上说就是对每一个结点我们计算这样一项 δ下标 j 上标(l) 这就用某种形式代表了第 l 层的第 j 个结点的误差我们还记得 a 上标 (l) 下标 j 表示的是第 l 层第 j 个单元的激励值所以这个 δ 项在某种程度上就捕捉到了我们在这个神经节点的激励值的误差所以我们可能希望这个节点的激励值稍微不一样具体地讲我们用右边这个有四层的神经网络结构做例子所以这里大写 L 等于4 对于每一个输出单元我们准备计算δ项所以第四层的第j个单元的δ就等于
3:23
这个单元的激励值减去训练样本里的真实值0
3:29
所以这一项可以同样可以写成 h(x) 下标 j 所以 δ 这一项就是假设输出和训练集y值之间的差这里 y 下标 j 就是我们标记训练集里向量的第j个元素的值
3:56
顺便说一下如果你把 δ a 和 y 这三个都看做向量那么你可以同样这样写向量化地实现也就是 δ(4)等于 a(4) 减去 y 这里每一个变量也就是 δ(4) a(4) 和 y 都是一个向量并且向量维数等于输出单元的数目
4:25
所以现在我们计算出网络结构的误差项 δ(4)
4:31
我们下一步就是计算网络中前面几层的误差项 δ 这个就是计算 δ(3) 的公式 δ(3) 等于 θ(3) 的转置乘以 δ(4) 然后这里的点乘这是我们从 MATLAB 里知道的
4:47
对 y 元素的乘法操作所以 θ(3) 转置乘以 δ(4) 这是一个向量 g‘(z(3)) 同样也是一个向量所以点乘就是两个向量的元素间对应相乘
5:01
其中这一项 g‘(z(3)) 其实是对激励函数 g 在输入值为 z(3) 的时候所求的导数如果你掌握微积分的话你可以试着自己解出来然后可以简化得到我这里的结果但是我只是从实际角度告诉你这是什么意思你计算这个 g‘ 这个导数项其实是 a(3) 点乘 (1-a(3)) 这里a(3)是激励向量 1是以1为元素的向量 a(3) 又是一个对那一层的激励向量接下来你应用一个相似的公式来计算 δ(2) 同样这里可以利用一个相似的公式
5:48
只是在这里是 a(2) 这里我并没有证明但是如果你懂微积分的话证明是完全可以做到的那么这个表达式从数学上讲就等于激励函数 g函数的偏导数这里我用 g‘来表示最后就到这儿结束了这里没有 δ(1) 项因为第一次对应输入层那只是表示我们在训练集观察到的所以不会存在误差这就是说我们是不想改变这些值的所以这个例子中我们的 δ 项就只有第2层和第3层
6:30
反向传播法这个名字源于我们从输出层开始计算 δ项然后我们返回到上一层计算第三隐藏层的 δ项接着我们再往前一步来计算 δ(2) 所以说我们是类似于把输出层的误差反向传播给了第3层然后是再传到第二层这就是反向传播的意思
6:51
最后这个推导过程是出奇的麻烦的出奇的复杂但是如果你按照这样几个步骤计算就有可能简单直接地完成复杂的数学证明如果你忽略标准化所产生的项我们可以证明我们要求的偏导数项
7:12
恰好就等于激励函数和这些 δ 项这里我们忽略了 λ 或者说标准化项
7:23
λ 是等于 0 我们将在之后完善这一个关于正则化项所以到现在我们通过反向传播计算这些δ项可以非常快速的计算出所有参数的偏导数项好了现在讲了很多细节了现在让我们把所有内容整合在一起然后说说如何实现反向传播算法
7:46
来计算关于这些参数的偏导数
7:49
当我们有一个非常大的训练样本时而不是像我们例子里这样的一个训练样本我们是这样做的假设我们有 m 个样本的训练集正如此处所写我要做的第一件事就是固定这些带下标 i j 的 Δ 这其实是大写的希腊字母 δ 我们之前写的那个是小写这个三角形是大写的 Δ 我们将对每一个i 和 j 对应的 Δ 等于0 实际上这些大写 Δij 会被用来计算
8:26
偏导数项就是 J(θ) 关于 θ 上标(l) 下标 i j 的偏导数
8:39
所以正如我们接下来看到的这些 δ 会被作为累加项慢慢地增加以算出这些偏导数
8:49
接下来我们将遍历我们的训练集我们这样写写成 For i = 1 to m 对于第 i 个循环而言我们将取训练样本 (x(i), y(i))
9:00
我把1999年的值画在一列里我们要做的第一件事是设定a(1) 也就是输入层的激励函数设定它等于 x(i) x(i) 是我们第 i 个训练样本的输入值接下来我们运用正向传播来计算第二层的激励值然后是第三层第四层一直这样到最后一层 L层接下来我们将用我们这个样本的输出值 y(i) 来计算这个输出值所对应的误差项 δ(L) 所以 δ(L) 就是假设输出减去目标输出
9:41
接下来我们将运用反向传播算法来计算 δ(L-1) δ(L-2) 一直这样直到 δ(2) 再强调一下这里没有 δ(1) 因为我们不需要对输入层考虑误差项
9:57
最后我们将用这些大写的 Δ 来累积我们在前面写好的偏导数项
10:06
顺便说一下如果你再看下这个表达式你可以把它写成向量形式具体地说如果你把 δij 看作一个矩阵 i j代表矩阵中的位置
10:19
那么如果 δ(L) 是一个矩阵我们就可以写成 Δ(l) 等于 Δ(l) 加上
10:27
小写的 δ(l+1) 乘以 a(l) 的转置这就是用向量化的形式实现了对所有 i 和 j 的自动更新值最后执行这个 for 循环体之后我们跳出这个 for 循环然后计算下面这些式子我们按照如下公式计算大写我们对于 j=0 和 j≠0 分两种情况讨论
10:56
在 j=0 的情况下对应偏差项所以当 j=0 的时候这就是为什么我们没有写额外的标准化项
11:05
最后尽管严格的证明对于你来说太复杂你现在可以说明的是一旦你计算出来了这些这就正好是代价函数对每一个参数的偏导数所以你可以把他们用在梯度下降法或者其他一种更高级的
11:25
优化算法上
11:28
这就是反向传播算法以及你如何计算神经网络代价函数的偏导数我知道这个里面细节琐碎步骤繁多但是在后面的编程作业和后续的视频里我都会给你一个清晰的总结这样我们就可以把算法的所有细节拼合到一起这样当你想运用反向传播算法来计算你的神经网络的代价函数关于这些参数的偏导数的时候你就会清晰地知道你要的是什么

反向传播算法的直观理解（Backpropagation Intuition）

在之前的视频里，我们介绍了反向传播算法对许多人来说，第一次看到它的印象是，这是一个非常复杂的算法并且这里有很多步骤，人们很难搞清楚是怎么统一起来看起来像是一个复杂的黑箱如果你也是这么觉得，其实很正常反向传播，很大程度上数学步骤比较复杂并不是一个简单的算法比起线性回归和逻辑回归而言。我实际上使用反向传播算法许多年，也很成功。但即使是今天，有时候我还是感觉不太好把握，或者忽然觉得迷茫。因此，对于即将做编程的同学，你们不用担心，我们会有数学的具体步骤，它将帮助你来一步一步完成。所以，你将能够自主独立实现。在这个视频，我要做的，是再一步一步介绍这个算法，让你更有体会。这些机械的步骤，将使你信服，让你认为这是一个非常合理的算法。
1:13
如果这个视频之后，你还是觉得这个算法非常复杂，其实也没有太大关系。正如之前所说，对我而言有时候也很难。但，希望这个视频可以有所帮助。为了更好地理解反向传播算法，我们来看看正向传播这个神经网络有两个输入层单元，当然不算上偏置单元两个隐层单元，有两层还有一个输出单元当然，我们都不算偏置单元为了更好地展示前向传播我这次要用另外一种画法
2:08
特别地，我要把每个神经元画的更扁平一些，所以我可以在里面写字当进行前向传播算法的时候，我们可能有一些特别的例子比如，xi，yi 我们将把它输入到这个网络当中所以，xi1和xi2将是我们对输入层的设置当我们进入第一个隐层，我们会计算z(2)1和z(2)2 那么，这些是我们要的值然后我们来用冲击函数计算它作用与z值这里是激励值所以我们有a(2)1和a(2)2 之后我们把这些值赋予给z(3)1 然后使用sigmoid函数我们会得到a(3)1 类似的，我们一直得到z(4)1 再次计算，我们有a(4)1，这是最后的结果
3:24
我们擦掉这些箭头，来得到更多空间如果你仔细看我们的计算过程，我们可以说，我们要加上这个权重 (2)1 0，这里的编号不重要这个方向，我用红色高亮是theta(2)11以及权重这里用青色标注theta(2)12 所以，z(3)1是 z(3)1等于这个值所以我们有(2)10x1 然后加上红色标注的权值得到theta(2)11乘以a(2)1 最后我们再用青色来乘也就是加上theta(2)12乘以a(2)1 那么这就是前向传播这我们之前看到过而反向传播做的很类似除了这些计算从左到右，现在是从右到左同时计算流程相似我用两页PPT来描述这个过程首先来看其支付函数这是只有一个输出单元时候的支付函数如果有多个那就需要编号并且求和如果只有一个，用这个函数就行我们在一个例子里做前向和后向传播来关注一个例子x(i)和y(i) 并且来看输出值所以y(i)是一个实数我们现在不考虑标准化，所以lambda为0 所以最后一项去掉如果你来看这个求和公式你会发现，这个支付项和我们的训练数据x(i)和y(i)有关这由我们的表达式给出所以，正如下述所写的支付函数所做的和这个箭头相似我们不看这个复杂的表达式如果你考虑支付，这里就是我们的插值和之前逻辑回归很像，我们用了Log 但，从直觉上来说，这其实就是平方误差函数所以cost(i)描述了这个网络的表现，对于特定的结果i 那么到底这个计算结果和真实值y(i)多接近呢我们来看反向传播在做什么一个很有用的例子就是反向传播计算了deltai下标j 这是我们的理解方法，我们在l层得到单元j
7:07
正式一点说，这个对于熟悉微积分的人来说更恰当所以，这就是delta项它就是一个偏微分，针对z,l,j 这是权重，针对这些量的偏微分，所得到的支付函数
7:27
所以，具体来说，这个h x输出值，如果我们走进这个神经网络，并且只稍微改变一下zl j值那么这就会改变我们的输出也会改变我们的支付函数同样，还是针对那些微积分比较好的同学如果你适应偏微分这些就是对支付函数的偏微分，针对中间变量
8:06
并且，他们衡量了我们要如果改变网络的权值当然，这是为了影响我们的计算结果所以，为了改变计算结果h(x) 以及对整个支付函数的影响上下的这个偏微分的理解，如果你不能理解不要太担心我们可以撇开它来谈我们就来看看到底反向传播算法做了什么首先，设置这个delta项 delta(4) 1正如y(i)我们对前向传播算法和后向传播对训练数据i的做法一样。这表达的是y(i)减去a(4)1 所以就是误差，对吧这就是真实结果和我们预测结果的误差，所以我们结算delta(4)1 接下来，我们来把这些值反向传播回去我会马上解释，这最后就是计算前向的结果我们会得到delta(3)1 delta3(2) 然后，我们进一步往前，得到delta(2)1和delta(2)2 现在看起来就像是又重演前向传播只不过我们现在反过来做了，这就是我之前所说的我们来看看最后我们如何得到delta(2)2 所以我们得到delta(2)2 和前向传播类似，这个权值，我用青色来表示加入它是theta(2)12 然后，我用红色来高亮这个我们说是theta(2) 22 如果，我们来看delta(2)2 如何计算。结果，我们发现我们就把这个值乘以它权值，并加上这个值乘以权值所以，就是一个加权求和权值是每一条边的强度所以，我们来看delta(2)2 theta(2)12是delta(3)1 加上我们红色标注的东西 theta(2)2乘以delta(3)2 所以，这个红色值乘以这个值加上品红色的权值恩，另一个例子，我们来看这个值怎么求如果得到呢恩，一样的步骤如果这个权值，我用绿色来描述它等于delta(3)12 然后我们有delta(3)2将等于它的绿色权值 theta(3)12乘以delta(4)1 顺便一提，我只写隐层单元忽略了偏置单元这要看你如何定义算法或者你如何应用你也可能要用这些单元这些偏置单元总是为1 所以他们就是1，我们不会改变他们所以，要看你的应用思路以及使用方法我们计算完了这些值我们扔掉它，因为我们最后得到的不过是计算导数的一个部分希望这就可以给一个更好的直观体会关于反向传播算法如果仍然感觉很迷茫，像是黑箱，在下一个视频我会再把他们总结起来但，这是一个很难讲解的算法难以可视化但，幸运的是很多人都在成功使用它如果你使用这个算法它将是非常有效的，尽管它内部的机制很难可视化。

实现注意：展开参数（Implementation Note：Unrolling Parameters）

在之前的视频中，我们谈到了如何使用反向传播
0:03
以计算损失函数的导数在这个视频中我想快速地告诉你们一个关于把系数从矩阵展开到向量的实现细节我们需要它实现高级的优化
0:20
具体来说假设你实现了一个损失函数它的输入是这些参数theta 然后返回损失函数和导数
0:30
接着你可以把它传递给一个高级的优化算法fminunc 顺便说一下 fminunc不是唯一的方法也有其它的高级优化算法
0:39
但所有这些算法做的都是把这些输入包括损失函数的指针和theta的初始值
0:47
另外呢这些做法假设 theta的初始值是系数向量也许是Rn或者Rn+1 但这些是向量它也假设这些代价函数会返回第二个返回值这个梯度它也是Rn或者Rn+1 也是向量我们在做逻辑回归时它很有效但我们在使用神经网络我们的系数不再是向量了而是矩阵对于一个完全的神经网络它有这些系数矩阵theta1 theta2 theta3 我们在Octave中会写成这些矩阵theta1 theta2 theta3 相似地我们期待它返回的梯度项嗯我们在之前的视频中展示了如何去计算这些梯度矩阵也就是D1 D2 D3 我们在octave中可以写成矩阵D1 D2 D3
1:48
在这个视频中我想快速地告诉你们如何展开这些矩阵把它们展开成向量所以它们最后能变成一个适合作为这里的theta输入以得到梯度的格式
2:03
具体来说假设我们有一个神经网络它有一个有10个单元的输入层 10个单元的隐藏层一个只有1个单元的输出层所以s1是第一层的单元数 s2是第二层的单元数 s3是第三层的单元数在这个例子里矩阵theta D的尺寸会由这些表达式给出举个例子 theta是一个1011的矩阵以此类推
2:34
所以在octave中如果你想转化为向量你可以做的是把theta 1 theta 2 theta 3 写成这样它会把你这三个矩阵的所有元素把theta1 theta2 theta3的所有元素都提取出来然后展开把所有元素放进一个很长的向量
2:58
就是thetavec
3:00
同样地第二个命令会把所有的D矩阵展开成一个长向量称为DVec 最后如果你想由向量转换成矩阵
3:14
假设你想重新得到theta1 你可以从thetavec中提出前110个元素所以theta1有 110个元素因为它是1011的矩阵所以这样提出前110个元素然后你就可以使用reshape命令把它重新变成theta1 相似地要得到theta2 你提出接下来的110个元素然后重塑它对于theta3 你提出最后11个元素然后运行reshape以得到theta3
3:48
这是整个流程的octave演示代码所以在这个例子里把theta1设置成 1011矩阵元素是1 所以它是一个全是1的矩阵为了看起来更方便把theta2设成 2乘上1011全1矩阵也把theta3 设置成 3乘111全1矩阵所以这是 3个不同的矩阵 theta1 theta2 theta3 我想把它们变成向量 thetavec等于 theta1 theta2
4:28
theta3 好了这中间有一个分号就像这样
4:35
现在thetavec 是一个很长的向量它有231个元素
4:42
如果我展示它我会发现这是一个很长的向量它包含第一个矩阵的所有元素第二个矩阵的所有元素第三个矩阵的所有元素
4:53
如果我想重新得到最初的矩阵我可以reshape thetavec
5:01
让我们提出前面的110个元素然后重塑成1011的矩阵
5:06
这就是theta1 如果我再拿出接下来110个元素所以标号是111到220 我得到了所有的2
5:18
如果我再
5:20
从221到最后一个元素也就是地231个元素然后重塑成1*11 我得到theta3
5:30
为了让这个过程很清晰我介绍一下我们是如何用这个展开的方法实现学习算法的
5:38
假设你有一些系数的初始值 theta1 theta2 theta3 我们要做的是把它们展开变成一个长向量我们会把这些初始的theta 传递给fminunc 作为这些theta的初始值
5:56
我们还需要做的是实现损失函数
5:59
这里是我的实现
6:02
损失函数会需要输入thetavec 它就是一个被展开的向量包含了所有的系数向量
6:11
所以首先我会我会用thetavec 然后用reshape函数我从thetavec中提取出元素然后用reshape 以得到最初的系数矩阵theta1 theta2 theta3 所以我得到的是矩阵所以这是一个更方便的形式以使用这些矩阵所以我可以计算前向传播以及反向传播以计算导数和损失函数
6:39
最终我可以把导数展开以保持元素和展开theta时顺序一致但我会展开d1 d2 d3 以得到gradientvec 这是损失函数返回的它返回的是这些导数的向量
6:59
所以我希望你们现在能明白如果来回地转换矩阵形式的系数和向量形式的系数
7:09
矩阵形式的优点在于当你的系数以矩阵形式存储时计算前向传播和反向传播会更方便当你使用某种向量化的实现时使用矩阵形式会更简单
7:26
相对的是向量形式的优点类似thetavec dvec 是当你使用高级的优化算法时这些算法倾向于假设你的所有系数展开在了一个长向量中这样的话就像我们刚做的希望你也能在二者之间转换

梯度检验（Gradient Checking）

在之前几个视频里，我们讨论了如何进行前向传播以及后向传播，从而计算导数但，后向传播有很多细节，这些细节有点复杂有一个不幸的消息是，它们有很多细节会导致一些BUG 如果你用梯度下降来计算，你会发现表面上它可以工作实际上， J 虽然每次迭代都在下降但是可能，仍然你的代码有很多BUG 所以，表面上关于theta的函数J在减小但是你可能最后得到的结果实际上有很大的误差你这时候可能知道，有一些小的BUG导致这种不好的算法性能表现所以，怎么办呢有一个想法叫梯度检验 Gradient Checking 它能减少这种错误的概率就我个人而言，每次我使用后向传播我都会[]用这种方法即使是其他比较复杂的模型，我都会做这种检查如果你这么做，你会对你的模型更有自信这样，你会更加确信的模型是100%正确的从我看到的情况，这种方法，很大程度可以减少错误的可能性在之前的视频里，我让你们相信我给你们的公式是正确的，我还让你们相信，这就是支付函数的梯度值但，一旦你使用梯度检验，也就是我们这个视频的主题，你会证明你的代码实际上就是梯度函数
1:52
所以，这就是我们的想法，来看一个例子假设我们有一个关于theta的函数H 我现在有它的一个值，假设是实数我们说，我想要预测它的倒数，所以倒数是等于这里的斜度
2:14
现在我用这种方法来接近，我们不采用数值的计算倒数，这里我用epsilon，同样也有一个减去epsilon的值然后把他们链接起来
2:43
我将得到一条直线我用这个红色线来近似我的导数恩，真正的斜率是蓝色的线。所以，你可以看到这是一个很好的近似。
2:58
数学上，这里的红线垂直高度除以这个水平宽度，就是我们的斜率所以，这个点，就是J() 这个点，(theta减掉epsilon) 我们有一个垂直的差值()减去这两个点的差值，以及水平宽度2epsilon
3:23
所以我们可以近似来表示这是近似的值，它等于J加上epsilon减去J减去epsilon对应的函数值，除以2倍的epsilon
3:42
通常，这个epsilon非常小，可能就是10的-4次方而误差值往往很大，所以近似效果很好。实际上如果让epsilon无穷小，这就是导数的定义恩，它就是导数。所以，但我们不希望epsilon太小，否则会有计算上的问题一般来说在10的-4次方比较合适通常，你可能见到这个类似的公式恩。
4:21
所以，右边的叫做单边导数左边的叫做双边导数后者的精确度更高，当然，一般我们用后者
4:35
所以，具体来说，当你用octave，你计算近似梯度时候，我们用的是这个公式。恩。。就是红色标注的双边导数近似公式，除以的是2倍所以，我们有一个近似的值在这个例子，它看起来非常好地近似我们的结果
5:01
在之前的PPT里我们考虑了theta是一个向量现在，我们来看一般的情况我们说theta是一个矩阵我们有一个舒展的参数版本，所以，这里theta是从1到n的向量我们，可以用近似的方式来进行计算可以看到，我们列出各个近似的求导公式 theta 1套前面的公式是这样，如此种种。恩。。这里都是偏导数。只改变theta 1的值，其他的值固定分母一样，还是2 epsilon 我们现在可以得到我们想要的近似结果恩，
6:09
所以这个公式组给出了近似的方法对于任意一个theta我们都有
6:23
完整地，你可以这样应用。
6:27
我们用octave来数值计算，比如，对于i=1:n，其中n是我们参数的个数一般我们习惯是舒展的向量而不是矩阵所以theta是长长的参数清单这里设置thetaPlus = theta 之后增加(i)项epsilon 恩，这就等于我们 thetaPlus(i)， theta1, theta2如此种种 thetal ，一直到N 所以，这是thetaPlus的含义类似的我们现在也有l 减去epsilon
7:20
最后你会使用这个gradApprox(i) 并且能够给你一个偏微分单数对于i
7:35
这就是我们使用的方法我们可以用一个循环来写来检验这个近似计算的结果是不是等于我们的计算结果也就是反向传播算法计算的梯度 Dvec就是我们得到的导数好的，反向传播是一个非常高效的算法，针对所有的参数我们通常做的是数值计算的结果也就是刚才所做的确信这是相等的，应该说非常接近所以DVec，我们从反向传播得到，如果得到同一个结果或者相近的结果，只相差一些小数位我们很确信这个反向传播的算法是正确的如果我代入梯度计算一些高级的算法我们会更加确信我们的导数计算是正确的因此，我们的代码不仅正确，而且在优化上性能很好
8:57
最后，我想总结一下告诉你梯度检验的相关内容这是我通常做的事情首先，使用反向传播来计算，它是很好的算法这里就是前面介绍的流程这里的参数我们把矩阵展开成向量然后我们使用数值的梯度来检验这是刚刚介绍的内容
9:24
我们要确信这两个方法算出来结果一致你知道，就差一点
9:32
最后，也是最重要的步骤就是在你开始学习之前，一定要关掉我们的梯度检验，也就是我们讨论的数值计算方法
9:50
原因是这个计算过程，实际上代价更高，复杂度也很高这不是一个很好的计算导数的方法相反，我们前面讨论的反向传播算法很早以前介绍的内容你知道D1 D2 D3对于DVEC 相对来说非常高效。恩
10:17
所以，一旦你检验证明你的算法没有错误就要把梯度检验关掉所以，你一定要关掉在你开始迭代训练之前对于其他很多优化算法也一样为了训练你的分类器具体来说，如果你一定要用数值方法来计算梯度，那么你的算法会非常慢。在你的支付函数的循环过程当中因为，正如前面所说我们再重复一下...它很慢记得，我们这里计算(4)(3)(2)等等这是我们的反向传播算法它快得多所以，再说一遍...检验完了后向传播没有问题关掉梯度检验，重要的事情说三遍当你在训练你的算法的时候，
11:20
所以数值的计算，这是你的检验方法而已。对我而言，每当我要使用梯度算法，比如后向传播我都会用梯度检验一下这个算法是否正确这会让我更加自信我的算法是正确的。

随机初始化（Random Initialization）

在之前的视频里，我们总结了所有内容来帮助你应用这是最后一个视频关于随机初始化。
0:13
当你使用梯度下降算法，或者其他高级的优化算法，我们需要设置初始值恩所以，对于高级的优化算法假设你是有一个初始值
0:29
现在我们假设就是梯度下降为此，通过初值，我们之后一步步通过梯度下降走到山坡底部当然，这里就是求最小值所以，我们怎么设置呢能不能就全部是零呢这在之前的逻辑回归里可行全部为零是可以的恩。假设我们现在有这么一个网络，假设全部参数为0 恩，如果你这么做可以看到蓝色的权值，全是0 我用红色标记的，等于这个权值用绿色标记的也等于它所以，对于A1和A2隐层单元将会用同一个函数计算结果， A21等于A22
1:46
此外，因为这输出的权值你可以发现他们的误差值也一样所以，结果delta11 delta21等于delta22 所以，如果继续下去我们可以发现他满足下述情况即所有的偏导数就编程这两条蓝色的波浪线你会发现他们都一样。得知植物能闻到彼此时一定很惊讶恩
2:31
也就是说，你会发现，更新的时候通过计算梯度，更新的结果这两个参数是一样。所以，会得到非零的值，但这个值会相等相似的，即使是通过梯度下降算法，结果也是相等可能有一些非零的结果就是红色的箱单类似绿色也相等他们都改变结果但是结果都是一样的所以每一次更新，参数对应的结果都是完全一致这和前面所说的一样，红色、绿色、蓝色都一样，这意味着什么呢你会发现，两个单元仍然计算同样的结果恩你仍然有a1(2)=a2(2) 回到原点。所以，你不断计算不断计算，都是一样红色的情况也是绿色的也是
3:56
所以，你的神经网络实际上进入很有意思的情况相信，你不仅有两个隐层，二是有很多很多层那么这将是同样的特性。所有你的隐层的结果都一样这是非常冗余的因为，你发现是逻辑回归本质上只有一个特征这就使得你的神经网络性能下降
4:31
无法进行更有意义的功能。所以我们需要随机初始化
4:41
具体来说，我们之前看到的问题叫做对称现象所以，初始化也被称作打破对称所以我们进行初始化的操作目的就是打破对称，而初始区间就是在特定范围内这是一种我们用的标记。所以，我的权值参数将会在这个范围内生成。这是我们写代码采用的方式1 恩 rand10通过11 这是你如何计算随机的10乘11矩阵所有的值都在0到1 这是连续的0到1的值所以，你再乘以这两个参数你会得到最后满足区间要求的结果
5:45
这是生成特定区间随机数常用的计算操作这里的epsilon和梯度检验的epsilon是两码事情不要混淆这只是一个符号数字而已完全没有关联。只是喜欢用epsilon来表示而已这里我们可以区别他们。类似的，如果你想要初始化theta2为一个1乘11 的矩阵，你可以用这个代码
6:16
原理是一样的不再赘述 -epsilon到+epsilon范围然后你再使用反向传播，使用梯度检验，1b 在()从头开始进行计算随机初始化结果也就是打破对称希望，这个梯度下降算法或者更高级的优化算法能够找到这个理想的theta值。

综合起来（Putting It Together）

我们已经用了几节视频的内容来介绍神经网络算法
0:05
在这段视频中我想结合我们所讲的所有这些内容来做一个总体的回顾看看这些零散的内容相互之间有怎样的联系以及神经网络学习算法的总体实现过程
0:21
当我们在训练一个神经网络时我们要做的第一件事就是搭建网络的大体框架这里我说的框架意思是神经元之间的连接模式我们可能会从以下几种结构中选择第一种神经网络的结构是包含三个输入单元五个隐藏单元和四个输出单元第二种结构是三个输入单元作为输入层两组五个隐藏单元作为隐藏层四个输出单元的输出层然后第三种是3 5 5 5 其中每个隐藏层包含五个单元然后是四个输出单元这些就是可能选择的结构每一层可以选择多少个隐藏单元以及可以选择多少个隐藏层这些都是你构建时的选择那么我们该如何做出选择呢？
0:59
首先我们知道我们已经定义了输入单元的数量一旦你确定了特征集x 对应的输入单元数目也就确定了也就是等于特征x{i}的维度输入单元数目将会由此确定如果你正在进行多类别分类那么输出层的单元数目将会由你分类问题中所要区分的类别个数确定值得提醒的是如果你的多元分类问题 y的取值范围
1:30
是在1到10之间那么你就有10个可能的分类
1:34
别忘了把你的y 重新写成向量的形式所以现在我们的y不是一个数了我们重新把y写成这种形式的向量第二个分类我们可以写成这样的向量所以比如说如果要表达第五个分类也就是说y等于5 那么在你的神经网络中就不能直接用数值5来表达因为这里的输出层有十个输出单元你应该用一个向量来表示
2:07
这个向量的第五个位置值是1 其它的都是0 所以对于输入单元和输出单元数目的选择还是比较容易理解的
2:18
而对于隐藏单元的个数单元的个数以及隐藏层的数目我们有一个默认的规则那就是只使用单个隐藏层所以最左边所示的这种只有一个隐藏层的神经网络一般来说是最普遍的
2:34
或者如果你使用不止一个隐藏层的话同样我们也有一个默认规则那就是每一个隐藏层通常都应有相同的单元数所以对于这个结构我们有两个隐藏层每个隐藏层都有相同的单元数都是5个隐藏单元这里也是一样我们有三个隐藏层每个隐藏层有相同的单元数都是5个隐藏单元
2:57
但实际上通常来说左边这个结构是较为合理的默认结构
3:04
而对于隐藏单元的个数通常情况下隐藏单元越多越好不过我们需要注意的是如果有大量隐藏单元计算量一般会比较大当然一般来说隐藏单元还是越多越好
3:17
并且一般来说每个隐藏层所包含的单元数量还应该和输入x 的维度相匹配也要和特征的数目匹配可能隐藏单元的数目和输入特征的数量相同或者是它的二倍或者三倍四倍因此隐藏单元的数目需要和其他参数相匹配一般来说隐藏单元的数目取为稍大于输入特征数目都是可以接受的希望这些能够给你在选择神经网络结构时提供一些有用的建议和选择的参考如果你遵循了这些建议你一般会得到比较好的模型结构但是在以后的一系列视频中特别是在我谈到学习算法的应用时我还会更详细地介绍如何选择神经网络的结构后面的视频中我还会着重介绍怎样正确地选择隐藏层的个数以及隐藏单元的数目等等
4:10
下面我们就来具体介绍如何实现神经网络的训练过程这里一共有六个步骤这页幻灯片中罗列了前四步剩下的两步放在下一张幻灯片中首先第一步是构建一个神经网络然后随机初始化权值通常我们把权值初始化为很小的值接近于零
4:31
然后我们执行前向传播算法也就是对于该神经网络的任意一个输入x(i) 计算出对应的h(x)值也就是一个输出值y的向量
4:44
接下来我们通过代码计算出代价函数J(θ)
4:49
然后我们执行反向传播算法
4:54
来算出这些偏导数或偏微分项也就是 J(θ)关于参数θ的偏微分具体来说我们要对所有训练集数据使用一个for循环进行遍历
5:09
可能有部分同学之前听说过一些比较先进的分解方法可能不需要像这里一样使用 for循环来对所有 m个训练样本进行遍历但是这是你第一次进行反向传播算法所以我建议你最好还是使用一个for循环来完成程序对每一个训练样本进行迭代从x(1) y(1)开始我们对第一个样本进行前向传播运算和反向传播运算然后在第二次循环中同样地对第二个样本执行前向传播和反向传播算法以此类推直到最后一个样本因此在你第一次做反向传播的时候你还是应该用这样的for循环来实现这个过程其实实际上有复杂的方法可以实现并不一定要使用for循环但我非常不推荐在第一次实现反向传播算法的时候使用更复杂更高级的方法
5:59
所以具体来讲我们对所有的 m个训练样本上使用了for循环遍历
6:03
在这个for循环里我们对每个样本执行前向和反向算法
6:09
具体来说就是我们把x(i) 传到输入层然后执行前向传播和反向传播
6:17
这样我们就能得到该神经网络中每一层中每一个单元对应的所有这些激励值a(l) 和delta项接下来还是在for循环中让我画一个大括号来标明这个 for循环的范围
6:34
当然这些是octave的代码括号里是for循环的循环体我们要计算出这些delta值也就是用我们之前给出的公式
6:45
加上 delta(l+1)
6:48
a(l)的转置矩阵最后外面的部分计算出的这些delta值这些累加项我们将用别的程序来计算出这些偏导数项那么这些偏导数项也应该考虑使用正则化项lambda值这些公式在前面的视频中已经给出
7:14
那么搞定所有这些内容现在你就应该已经得到了计算这些偏导数项的程序了
7:21
下面就是第五步了我要做的就是使用梯度检查来比较这些已经计算得到的偏导数项把用反向传播算法得到的偏导数值与用数值方法得到的
7:37
估计值进行比较因此通过进行梯度检查来确保两种方法得到基本接近的两个值
7:45
通过梯度检查我们能确保我们的反向传播算法得到的结果是正确的但必须要说明的一点是我们需要去掉梯度检查的代码因为梯度检查的计算非常慢
7:59
最后我们就可以使用一个最优化算法比如说梯度下降算法或者说是更加高级的优化方法比如说BFGS算法共轭梯度法或者其他一些已经内置到fminunc函数中的方法将所有这些优化方法和反向传播算法相结合这样我们就能计算出这些偏导数项的值
8:21
到现在我们已经知道了如何去计算代价函数我们知道了如何使用反向传播算法来计算偏导数那么我们就能使用某个最优化方法来最小化关于theta的函数值代价函数J(θ) 另外顺便提一下对于神经网络代价函数 J(θ)是一个非凸函数就是说不是凸函数因此理论上是能够停留在局部最小值的位置实际上梯度下降算法和其他一些高级优化方法理论上都能收敛于局部最小值
8:55
但一般来讲这个问题其实并不是什么要紧的事尽管我们不能保证这些优化算法一定会得到全局最优值但通常来讲像梯度下降这类的算法在最小化代价函数 J(θ)的过程中还是表现得很不错的通常能够得到一个很小的局部最小值尽管这可能不一定是全局最优值最后梯度下降算法似乎对于神经网络来说还是比较神秘希望下面这幅图能让你对梯度下降法在神经网络中的应用产生一个更直观的理解
9:27
这实际上有点类似我们早先时候解释梯度下降时的思路我们有某个代价函数并且在我们的神经网络中有一系列参数值这里我只写下了两个参数值当然实际上在神经网络里我们可以有很多的参数值 theta1 theta2 等等所有的这些都是矩阵是吧因此我们参数的维度就会很高了由于绘图所限我们不能绘出更高维度情况的图像所以这里我们假设这个神经网络中只有两个参数值实际上应该有更多参数
9:59
那么代价函数J(θ) 度量的就是这个神经网络对训练数据的拟合情况
10:06
所以如果你取某个参数比如说这个下面这点
10:10
在这个点上 J(θ) 的值是非常小的这一点的位置所对应的参数theta的情况是对于大部分的训练集数据
10:24
我的假设函数的输出会非常接近于y(i) 那么如果是这样的话那么我们的代价函数值就会很小
10:32
而反过来如果我们取这个值也就是这个点对应的值那么对于大部分的训练集样本该神经网络的输出应该是远离 y(i)的实际值的也就是我们在训练集观测到的输出值因此像这样的点右边的这个点对应的假设就是神经网络的输出值在这个训练集上的测试值应该是远离y(i)的因此这一点对应着对训练集拟合得不好的情况而像这些点代价函数值很小的点对应的J(θ)值是很小的因此对应的是神经网络对训练集数据拟合得比较好的情况我想表达的是如果是这种情况的话那么J(θ)的值应该是比较小的
11:15
因此梯度下降算法的原理是我们从某个随机的初始点开始比如这一点它将会不停的往下下降
11:24
那么反向传播算法的目的就是算出梯度下降的方向而梯度下降的过程就是沿着这个方向一点点的下降一直到我们希望得到的点在这里我们希望找到的就是局部最优点
11:37
所以当你在执行反向传播算法并且使用梯度下降或者更高级的优化方法时这幅图片很好地帮你解释了基本的原理也就是试图找到某个最优的参数值这个值使得我们神经网络的输出值与y(i)的实际值也就是训练集的输出观测值尽可能的接近希望这节课的内容能让你对这些零散的神经网络知识如何有机地结合起来能有一个更直观的认识
12:07
但可能你即使看了这段视频你可能还是觉得有许多的细节不能完全明白为什么这么做或者说是这些是如何联系在一起的没关系
12:18
神经网络和反向传播算法本身就是非常复杂的算法
12:23
尽管我已经完全理解了反向传播算法背后的数学原理尽管我使用反向传播已经很多年了我认为这么多年的使用还算是成功的但尽管如此到现在我还是觉得我自己也并不是总能很好地理解反向传播到底在做什么以及最优化过程是如何使J(θ)值达到最小值的因为这本身的确是一个很难的算法很难让你感觉到自己已经完全理解它不像线性回归或者逻辑回归那样
12:51
数学上和概念上都很简单反向传播算法不是那样的直观
12:56
如果你也有同感那么完全不必担心但如果你自己动手完成一次反向传播算法你一定会发现这的确是一个很强大的学习算法如果你执行一下这个算法执行反向传播执行其中的优化方法你一定会发现反向传播算法能够很好的让更复杂维度更大的非线性的函数模型跟你的数据很好地拟合因此它的确是一种最为高效的学习算法

自主驾驶（Autonomous Driving）

在这个视频中, 我想给你展示一个有趣而且有重要历史意义的利用神经网络进行自动驾驶的神经网络学习的例子。那就是让汽车学会自己开车。
0:14
下一分钟我要展示的这个视频, 是我从前同事Dean Pomerleau那里得到的。他现在美国东岸卡内基梅隆大学。在视频的一部分, 你看到像这样的视觉图像。在开始视频之前, 我想告诉你视觉图像的样子。
0:32
下面这里的左下方是汽车看到的在它前面的景象。在这里, 你大约看到一条路, 可能会有点向左, 然后又有一点向右。
0:44
在上面这里, 这个第一个水平条显示了由人工驾驶选择的方向。在这个位置，这个明亮的白色带, 显示了人工驾驶的驾驶方向，你知道，这里，远远的左边，对应着用力向左转方向盘；而这里，对应用力向右转方向盘。所以在这个一点点向左, 在中心左侧一点的位置，意味着在这一点上，人工驾驶在稍微向左边转方向盘。在这里，这第二个亮带，对应着机器学习算法选择的方向。这种白色带的位置意味着神经网络在此选择稍微向左的驾驶方向。事实上，在神经网络开始学习之前，你可以看到, 网络输出一个灰色带像一个均匀的灰色带，充满整个区域的一种灰色绒，这对应于随机初始化的神经网络。也就是说，起初不知道如何驾驶汽车。或者起初不知道要向什么方向驾驶。只有在它学习了一段时间后，它才会在只是一小段区间输出一道实心的白色亮带，这对应着选择一个特定的驾驶方向。这对应于当神经网络在一个特定的位置选择一条带时更加自信，不是输出一种浅灰色的绒状带, 而是输出一条白色带，也就是不断地选择自己的驾驶方向。 > > ALVINN 是一种人工神经网络系统, 它通过看人驾驶学习驾驶。 ALVINN 是用来控制 NAVLAB 2 的, NAVLAB 2是改装过的军用悍马, 它把传感器, 电脑, 以及驱动器用于自主导航的实验。
2:40
配置 ALVINN 的最初步骤是在这里建立一个网络。
2:46
在训练期间, 一个人驾驶汽车, 而 ALVINN 在观看。
2:55
每两秒钟, ALVINN 将前方道路的视频图像数字化, 并记录此人的转向方向。
3:11
这个培训图像的分辨率被降低到像素为30乘32, 并提供给 ALVINN 的三层网络作为输入。利用反向传播学习算法, ALVINN 正在训练，以输出与人驾驶相同的转向方向。
3:33
最初, 网络转向的反应是随机的。
3:43
经过大约两分钟的训练后, 网络学会了准确模仿人类驾驶员的转向反应。
4:02
同样的训练步鄹被重复到其他类型的路上。
4:09
在网络被训练好之后，操作员按下运行开关，然后ALVINN 开始开车。
4:20
每一秒钟，ALVINN 进行十二次图像数字化，并输入到它的神经网络层。
4:33
每一个网络, 并行运行, 产生一个转向方向, 并衡量其对其反应的信心。
4:48
从最自信的网络中得到的转向方向, 这里该网络是在单车道上训练的网络, 被用来控制车辆。
5:07
突然一个十字路口出现在车的前面。
5:22
当车辆接近十字路口时, 单车道网络的置信度在降低。
5:37
当它穿行十字路口, 前方两条车道的道路进入视线时, 双车道网络的信心上升。
5:51
当它的信心上升后，双车道网络被选择进行驾驶。安全地引导车辆进入两条车道中它应该行驶的车道。
6:05

这就是使用神经网络进行自动驾驶。当然, 现在有更多，更现代的自动驾驶的尝试。在美国，欧洲，还有其他地区，有比这更强大的驾驶控制器, 但我认为经过反向传播训练的神经网络如何可以学习并较好地驾驶汽车还是相当显著相当惊人的。

线性回归

标签：轻松成功理论 not generate advance 梯度 lua flag

原文地址：https://www.cnblogs.com/kershaw/p/12005581.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行