Machine Learning – 第2周

时间：2016-06-29 06:34:34 阅读：287 评论：0 收藏：0 [点我收藏+]

标签：

Octave for Microsoft Windows

MathWorks

Linear Regression with Multiple Variables

Environment Setup Instructions

Setting Up Your Programming Assignment Environment
Installing Octave/MATLAB on Windows
Installing Octave/MATLAB on Mac OS X (10.10 Yosemite and 10.9 Mavericks)
Installing Octave/MATLAB on Mac OS X (10.8 Mountain Lion and Earlier)
Installing Octave/MATLAB on GNU/Linux
More Octave/MATLAB resources (**)

Multivariate Linear Regression

Multiple Features

在这段视频中我们将开始介绍一种新的更为有效的线性回归形式这种形式适用于多个变量或者多特征量的情况

比如说在之前我们学习过的线性回归中我们只有一个单一特征量房屋面积 x 我们希望用这个特征量来预测房子的价格这就是我们的假设

但是想象一下如果我们不仅有房屋面积作为预测房屋价格的特征量或者变量我们还知道卧室的数量楼层的数量以及房子的使用年限这样就给了我们更多可以用来预测房屋价格的信息

先简单介绍一下记法我们开始的时候就提到过我要用 x下标1 x 下标2 等等来表示这种情况下的四个特征量 然后仍然用 Y来表示我们所想要预测的输出变量 让我们来看看更多的表示方式现在我们有四个特征量

我要用小写n 来表示特征量的数目 因此在这个例子中我们的n等于4 因为你们看我们有 1 2 3 4 共4个特征量这里的n和我们之前使用的n不同

之前我们是用的“m”来表示样本的数量 所以如果你有47行那么m就是这个表格里面的行数或者说是训练样本数

然后我要用x 上标 (i) 来表示第i个训练样本的输入特征值 举个具体的例子来说 x上标 (2) 就是表示第二个训练样本的特征向量因此这里 x(2)就是向量因为这四个数字对应了我用来预测房屋价格的第二个房子的四个特征量因此在这种记法中这个上标2 就是训练集的一个索引而不是x的2次方这个2就对应着你所看到的表格中的第二行即我的第二个训练样本 x上标(2) 这样表示就是一个四维向量 事实上更普遍地来说这是n维的向量 用这种表示方法 x上标2就是一个向量因此我用x上标(i) 下标j 来表示 第i个训练样本的第j个特征量 因此具体的来说 x上标(2)下标3代表着第2个训练样本里的第3个特征量对吧？这个是3 我写的不太好看所以说x上标(2)下标3就等于2

既然我们有了多个特征量让我们继续讨论一下我们的假设形式应该是怎样的这是我们之前使用的假设形式 x就是我们唯一的特征量 但现在我们有了多个特征量 我们就不能再使用这种简单的表示方式了取而代之的我们将把线性回归的假设改成这样 θ0加上 θ1 乘以 x1 加上 θ2乘以x2 加上 θ3 乘以x3 加上θ4乘以x4 然后如果我们有n个特征量 那么我们要将所有的n个特征量相加而不是四个特征量我们需要对n个特征量进行相加

举个具体的例子在我们的设置的参数中我们可能有h(x)等于 80 + 0.1 x1 + 0.01x2 + 3x3 - 2x4 这就是一个假设的范例别忘了假设是为了预测大约以千刀为单位的房屋价格就是说一个房子的价格可以是 80 k加上 0.1乘以x1 也就是说每平方尺100美元然后价格会随着楼层数的增加再继续增长 x2是楼层数接着价格会继续增加随着卧室数的增加因为x3是卧室的数量但是呢房子的价格会随着使用年数的增加而贬值

这是重新改写过的假设的形式 接下来我要来介绍一点简化这个等式的表示方式为了表示方便我要将x下标0的值设为1 具体而言这意味着对于第i个样本都有一个向量x上标(i) 并且x上标(i) 下标0等于1 你可以认为我们定义了一个额外的第0个特征量因此我过去有n个特征量因为我们有x1 x2 直到xn 由于我另外定义了额外的第0个特征向量并且它的取值总是1 所以我现在的特征向量x 是一个从0开始标记的 n+1维的向量所以现在就是一个 n+1维的特征量向量 但我要从0开始标记同时我也想把我的参数都看做一个向量 所以我们的参数就是我们的θ0 θ1 θ2 等等直到θn 我们要把所有的参数都写成一个向量 θ0 θ2...一直到直到θn 这里也有一个从0开始标记的矢量下标从0开始这是另外一个所以我的假设现在可以写成θ0乘以x0 加上θ1乘以x1直到 θn 乘以xn 这个等式和上面的等式是一样的因为你看 x0等于1

下面我要把这种形式假设等式写成 θ转置乘以X 取决于你对 向量内积有多熟悉如果你展开 θ转置乘以X 那么就得到 θ0 θ1直到θn 这个就是θ转置实际上这就是一个 n+1乘以1维的矩阵也被称为行向量用行向量与X向量相乘 X向量是 x0 x1等等直到xn 因此内积就是 θ转置乘以X 就等于这个等式这就为我们提供了一个表示假设的更加便利的形式即用参数向量θ以及特征向量X的内积这就是改写以后的表示方法这样的表示习惯就让我们可以以这种紧凑的形式写出假设这就是多特征量情况下的假设形式起另一个名字就是所谓的多元线性回归多元一词也就是用来预测的多个特征量或者变量就是一种更加好听的说法罢了

Gradient Descent for Multiple Variables

在之前的视频中我们谈到了一种线性回归的假设形式这是一种有多特征或者是多变量的形式在本节视频中我们将会谈到如何找到满足这一假设的参数尤其是如何使用梯度下降法 来解决多特征的线性回归问题

为尽快让你理解现假设现有多元线性回归并约定 x0=1 该模型的参数是从 θ0 到 θn 不要认为这是 n+1 个单独的参数你可以把这 n+1 个 θ 参数想象成一个 n+1 维的向量 θ 所以你现在就可以把这个模型的参数想象成其本身就是一个 n+1 维的向量我们的代价函数是从 θ0 到 θn 的函数 J 并给出了误差项平方的和

但同样地不要把函数 J 想成是一个关于 n+1 个自变量的函数而是看成带有一个 n+1 维向量的函数这就是梯度下降法我们将会不停地用 θj 减去 α 倍的导数项来替代 θj 同样的方法我们写出函数J(θ) 因此 θj 被更新成 θj 减去学习率 α 与对应导数的乘积就是代价函数的对参数 θj 的偏导数当我们实现梯度下降法后你可以仔细观察一下尤其是它的偏导数项下面是我们当特征 n=1 时梯度下降的情况我们有两条针对参数 θ0 和 θ1 不同的更新规则希望这些对你来说并不陌生这一项是代价函数里部分求导的结果就是代价函数相对于 θ0 的偏导数同样对参数 θ1 我们有另一个更新规则仅有的一点区别是当我们之前只有一个特征我们称该特征为x(i) 但现在我们在新符号里我们会标记它为 x 上标 (i) 下标1 来表示我们的特征

以上就是当我们仅有一个特征时候的算法下面我们来讲讲当有一个以上特征时候的算法现有数目远大于1的很多特征我们的梯度下降更新规则变成了这样有些同学可能知道微积分如果你看看代价函数代价函数 J 对参数 θj 求偏导数你会发现求其偏导数的那一项我已经用蓝线圈出来了如果你实现了这一步你将会得到多元线性回归的梯度下降算法

最后我想让你明白为什么新旧两种算法实际上是一回事儿或者说为什么这两个是类似的算法为什么它们都是梯度下降算法考虑这样一个情况有两个或以上个数的特征同时我们有对θ1、θ2、θ3的三条更新规则当然可能还有其它参数如果你观察θ0的更新规则你会发现这跟之前 n=1的情况相同它们之所以是等价的这是因为在我们的标记约定里有 x(i)0=1 也就是我用品红色圈起来的两项是等价的同样地如果你观察 θ1 的更新规则你会发现这里的这一项是和之前对参数θ1的更新项是等价的在这里我们只是用了新的符号x(i)1来表示我们的第一个特征现在我们有个更多的特征那么就可以用与之前相同的更新规则我们可以用同样的规则来处理 θ2 等其它参数这张幻灯片的内容不少

请务必仔细理解如果觉得幻灯片上数学公式没看懂尽管暂停视频请确保理解了再继续后面的学习如果你将这些算法都实现了那么你就可以直接应用到多元线性回归中了

Gradient Descent in Practice I - Feature Scaling

在这段视频以及下一段视频中我想告诉你一些关于梯度下降运算中的实用技巧在这段视频中我会告诉你一个称为特征缩放 (feature scaling) 的方法这个方法如下如果你有一个机器学习问题这个问题有多个特征如果你能确保这些特征都处在一个相近的范围我的意思是确保不同特征的取值在相近的范围内这样梯度下降法就能更快地收敛具体地说假如你有一个具有两个特征的问题其中 x1 是房屋面积大小它的取值在0到2000之间 x2 是卧室的数量可能这个值取值范围在1到5之间如果你画出代价函数 J(θ) 的轮廓图那么这个轮廓看起来应该是像这样的 J(θ) 是一个关于参数 θ0 θ1 和 θ2 的函数但我要忽略 θ0 所以暂时不考虑 θ0 并假想一个函数的变量只有 θ1 和 θ2 但如果 x1 的取值范围远远大于 x2 的取值范围的话那么最终画出来的代价函数 J(θ) 的轮廓图就会呈现出这样一种非常偏斜并且椭圆的形状 2000 和 5的比例会让这个椭圆更加瘦长所以这是一个又瘦又高的椭圆形轮廓图就是这些非常高大细长的椭圆形构成了代价函数 J(θ) 而如果你用这个代价函数来运行梯度下降的话你要得到梯度值最终可能需要花很长一段时间并且可能会来回波动然后会经过很长时间最终才收敛到全局最小值事实上你可以想像如果这些轮廓再被放大一些的话如果你画的再夸张一些把它画的更细更长那么可能情况会更糟糕梯度下降的过程可能更加缓慢需要花更长的时间反复来回振荡最终才找到一条正确通往全局最小值的路在这样的情况下一种有效的方法是进行特征缩放(feature scaling) 具体来说把特征 x 定义为房子的面积大小除以2000的话并且把 x2 定义为卧室的数量除以5 那么这样的话表示代价函数 J(θ) 的轮廓图的形状就会变得偏移没那么严重可能看起来更圆一些了如果你用这样的代价函数来执行梯度下降的话那么梯度下降算法你可以从数学上来证明梯度下降算法就会找到一条更捷径的路径通向全局最小而不是像刚才那样沿着一条让人摸不着头脑的路径一条复杂得多的轨迹来找到全局最小值因此通过特征缩放通过"消耗掉"这些值的范围在这个例子中我们最终得到的两个特征 x1 和 x2 都在0和1之间这样你得到的梯度下降算法就会更快地收敛更一般地我们执行特征缩放时也就是我们经常我们通常的目的是将特征的取值约束到 -1 到 +1 的范围内你的特征 x0 是总是等于1 因此这已经是在这个范围内但对其他的特征你可能需要通过除以不同的数来让它们处于同一范围内 -1 和 +1 这两个数字并不是太重要所以如果你有一个特征 x1 它的取值在0和3之间这没问题如果你有另外一个特征取值在-2 到 +0.5之间这也没什么关系这也非常接近 -1 到 +1的范围这些都可以但如果你有另一个特征比如叫 x3 假如它的范围在 -100 到 +100之间那么这个范围跟-1到+1就有很大不同了所以这可能是一个不那么好的特征类似地如果你的特征在一个非常非常小的范围内比如另外一个特征 x4 它的范围在 0.0001和+0.0001之间那么这同样是一个比-1到+1小得多的范围比-1到+1小得多的范围因此我同样会认为这个特征也不太好所以可能你认可的范围也许可以大于或者小于 -1 到 +1 但是也别太大只要大得不多就可以接受比如 +100 或者也别太小比如这里的0.001 不同的人有不同的经验但是我一般是这么考虑的如果一个特征是在 -3 到 +3 的范围内那么你应该认为这个范围是可以接受的但如果这个范围大于了 -3 到 +3 的范围我可能就要开始注意了如果它的取值在-1/3 到+1/3的话我觉得还不错可以接受或者是0到1/3 或-1/3到0 这些典型的范围我都认为是可以接受的但如果特征的范围取得很小的话比如像这里的 x4 你就要开始考虑进行特征缩放了因此总的来说不用过于担心你的特征是否在完全相同的范围或区间内但是只要他们都只要它们足够接近的话梯度下降法就会正常地工作除了在特征缩放中将特征除以最大值以外有时候我们也会进行一个称为均值归一化的工作(mean normalization) 我的意思是这样的如果你有一个特征 xi 你就用 xi - μi 来替换通过这样做让你的特征值具有为0的平均值很明显我们不需要把这一步应用到 x0中因为 x0 总是等于1的所以它不可能有为0的的平均值但是对其他的特征来说比如房子的大小取值介于0到2000 并且假如房子面积的平均值是等于1000的那么你可以用这个公式将 x1 的值变为 x1 减去平均值 μ1 再除以2000 类似地如果你的房子有五间卧室并且平均一套房子有两间卧室那么你可以使用这个公式来归一化你的第二个特征 x2 在这两种情况下你可以算出新的特征 x1 和 x2 这样它们的范围可以在-0.5和+0.5之间当然这肯定不对 x2的值实际上肯定会大于0.5 但很接近更一般的规律是你可以用这样的公式你可以用 (x1 - μ1)/S1 来替换原来的特征 x1 其中定义 μ1的意思是在训练集中特征 x1 的平均值而 S1 是该特征值的范围我说的范围是指最大值减去最小值最大值减去最小值或者学过标准差的同学可以记住也可以把 S1 设为变量的标准差但其实用最大值减最小值就可以了类似地对于第二个特征 x2 你也可以用同样的这个特征减去平均值再除以范围来替换原特征范围的意思依然是最大值减最小值这类公式将把你的特征变成这样的范围也许不是完全这样但大概是这样的范围顺便提一下有些同学可能比较仔细如果我们用最大值减最小值来表示范围的话这里的5有可能应该是4 如果最大值为5 那么减去最小值1 这个范围值就是4 但不管咋说这些取值都是非常近似的只要将特征转换为相近似的范围就都是可以的特征缩放其实并不需要太精确只是为了让梯度下降能够运行得更快一点而已好的现在你知道了什么是特征缩放通过使用这个简单的方法你可以将梯度下降的速度变得更快让梯度下降收敛所需的循环次数更少这就是特征缩放在接下来的视频中我将介绍另一种技巧来使梯度下降在实践中工作地更好

Gradient Descent in Practice II - Learning Rate

在本段视频中我想告诉大家一些关于梯度下降算法的实用技巧我将集中讨论学习率 α 具体来说这是梯度下降算法的更新规则这里我想要告诉大家如何调试也就是我认为应该如何确定梯度下降是正常工作的此外我还想告诉大家如何选择学习率 α 也就是我平常如何选择这个参数我通常是怎样确定梯度下降正常工作的梯度下降算法所做的事情就是为你找到一个 θ 值并希望它能够最小化代价函数 J(θ) 我通常会在梯度下降算法运行时绘出代价函数 J(θ) 的值这里的 x 轴是表示梯度下降算法的迭代步数你可能会得到这样一条曲线注意这里的 x 轴是迭代步数在我们以前看到的 J(θ) 曲线中 x 轴也就是横轴曾经用来表示参数 θ 但这里不是具体来说这一点的含义是这样的当我运行完100步的梯度下降迭代之后无论我得到什么 θ 值总之 100步迭代之后我将得到一个 θ 值根据100步迭代之后得到的这个 θ 值我将算出代价函数 J(θ) 的值而这个点的垂直高度就代表梯度下降算法 100步迭代之后得到的 θ 算出的 J(θ) 值而这个点则是梯度下降算法迭代200次之后得到的 θ 算出的 J(θ) 值所以这条曲线显示的是梯度下降算法迭代过程中代价函数 J(θ) 的值如果梯度下降算法正常工作那么每一步迭代之后 J(θ) 都应该下降

这条曲线的一个用处在于它可以告诉你如果你看一下我画的这条曲线当你达到 300步迭代之后也就是300步到400步迭代之间也就是曲线的这一段看起来 J(θ) 并没有下降多少所以当你到达400步迭代时这条曲线看起来已经很平坦了也就是说在这里400步迭代的时候梯度下降算法基本上已经收敛了因为代价函数并没有继续下降所以说看这条曲线可以帮助你判断梯度下降算法是否已经收敛顺便说一下对于每一个特定的问题梯度下降算法所需的迭代次数可以相差很大也许对于某一个问题梯度下降算法只需要30步迭代就可以收敛然而换一个问题也许梯度下降算法就需要3000步迭代对于另一个机器学习问题则可能需要三百万步迭代实际上我们很难提前判断梯度下降算法需要多少步迭代才能收敛通常我们需要画出这类曲线画出代价函数随迭代步数数增加的变化曲线通常我会通过看这种曲线来试着判断梯度下降算法是否已经收敛另外也可以进行一些自动的收敛测试也就是说用一种算法来告诉你梯度下降算法是否已经收敛自动收敛测试一个非常典型的例子是如果代价函数 J(θ) 的下降小于一个很小的值 ε 那么就认为已经收敛比如可以选择 1e-3 但我发现通常要选择一个合适的阈值 ε 是相当困难的因此为了检查梯度下降算法是否收敛我实际上还是通过看左边的这条曲线图而不是依靠自动收敛测试此外这种曲线图也可以在算法没有正常工作时提前警告你具体地说如果代价函数 J(θ) 随迭代步数的变化曲线是这个样子 J(θ) 实际上在不断上升那么这就很明确的表示梯度下降算法没有正常工作而这样的曲线图通常意味着你应该使用较小的学习率 α 如果 J(θ) 在上升那么最常见的原因是你在最小化这样的一个函数这时如果你的学习率太大当你从这里开始梯度下降算法可能将冲过最小值达到这里而如果你的学习率太大你可能再次冲过最小值达到这里然后一直这样下去而你真正想要的是从这里开始慢慢的下降但是如果学习率过大那么梯度下降算法将会不断的冲过最小值然后你将得到越来越糟糕的结果得到越来越大的代价函数 J(θ) 值所以如果你得到了这样一个曲线图如果你看到这样一个曲线图通常的解决方法是使用较小的 α 值当然也要确保你的代码中没有错误但通常最可能出现的错误是 α 值过大同样的有时你可能看到这种形状的 J(θ) 曲线它先下降然后上升接着又下降然后又上升然后再次下降再次上升如此往复而解决这种情况的方法通常同样是选择较小 α 值我不打算证明这一点但对于我们讨论的线性回归可以很容易从数学上证明只要学习率足够小那么每次迭代之后代价函数 J(θ) 都会下降因此如果代价函数没有下降那可能以为着学习率过大这时你就应该尝试一个较小的学习率当然你也不希望学习度太小因为如果这样如果你这么做那么梯度下降算法可能收敛得很慢如果学习率 α 太小你可能从这里开始然后很缓慢很缓慢向最低点移动这样一来你需要迭代很多次才能到达最低点因此如果学习率 α 太小梯度下降算法的收敛将会很缓慢总结一下如果学习率 α 太小你会遇到收敛速度慢的问题而如果学习率 α 太大代价函数 J(θ) 可能不会在每次迭代都下降甚至可能不收敛在某些情况下如果学习率 α 过大也可能出现收敛缓慢的问题但更常见的情况是你会发现代价函数 J(θ) 并不会在每次迭代之后都下降而为了调试所有这些情况绘制J(θ)随迭代步数变化的曲线通常可以帮助你弄清楚到底发生了什么具体来说当我运行梯度下降算法时我通常会尝试一系列α值所以在运行梯度下降算法制请尝试不同的 α 值比如0.001, 0.01 这里每隔10倍取一个值然后对于这些不同的 α 值绘制 J(θ) 随迭代步数变化的曲线然后选择看上去使得 J(θ) 快速下降的一个 α 值事实上我通常并不是隔10倍取一个值你可以看到这里是每隔10倍取一个值我通常取的是这些 α 值一直这样下去你看先取0.001 然后将学习率增加3倍得到0.003 然后这一步从0.003到0.01 又大约增加了3倍所以在为梯度下降算法选择合适的学习率时我大致是按3的倍数来取值的所以我会尝试一系列α值直到我找到一个值它不能再小了同时找到另一个值它不能再大了然后我尽量挑选其中最大的那个 α 值或者一个比最大值略小一些的合理的值而当我做了以上工作时我通常就可以得到一个不错的学习率如果也你这样做那么你也能够为你的梯度下降算法找到一个合适的学习率值

Features and Polynomial Regression

你现在了解了多变量的线性回归在本段视频中我想告诉你一些用来选择特征的方法以及如何得到不同的学习算法当选择了合适的特征后这些算法往往是非常有效的另外我也想给你们讲一讲多项式回归它使得你们能够使用线性回归的方法来拟合非常复杂的函数甚至是非线性函数以预测房价为例假设你有两个特征分别是房子临街的宽度和垂直宽度这就是我们想要卖出的房子的图片临街宽度被定义为这个距离其实就是它的宽度或者说是你拥有的土地的宽度如果这块地都是你的的话而这所房子的纵向深度就是你的房子的深度这是正面的宽度这是深度我们称之为临街宽度和纵深你可能会像这样建立一个线性回归模型其中临街宽度是你的第一个特征x1 纵深是你的第二个特征x2 但当我们在运用线性回归时你不一定非要直接用给出的 x1 和 x2 作为特征其实你可以自己创造新的特征因此如果我要预测房子的价格我真正要需做的也许是确定真正能够决定我房子大小或者说我土地大小的因素是什么因此我可能会创造一个新的特征我称之为 x 它是临街宽度与纵深的乘积这是一个乘法符号它是临街宽度与纵深的乘积这得到的就是我拥有的土地的面积然后我可以把假设选择为使其只使用一个特征也就是我的土地的面积对吧？由于矩形面积的计算方法是矩形长和宽相乘因此这取决于你从什么样的角度去审视一个特定的问题而不是只是直接去使用临街宽度和纵深这两个我们只是碰巧在开始时使用的特征有时通过定义新的特征你确实会得到一个更好的模型与选择特征的想法密切相关的一个概念被称为多项式回归(polynomial regression) 比方说你有这样一个住房价格的数据集为了拟合它可能会有多个不同的模型供选择其中一个你可以选择的是像这样的二次模型因为直线似乎并不能很好地拟合这些数据因此也许你会想到用这样的二次模型去拟合数据你可能会考量是关于价格的一个二次函数也许这样做会给你一个像这样的拟合结果但是然后你可能会觉得二次函数的模型并不好用因为一个二次函数最终会降回来而我们并不认为房子的价格在高到一定程度后会下降回来因此也许我们会选择一个不同的多项式模型并转而选择使用一个三次函数在这里现在我们有了一个三次的式子我们用它进行拟合我们可能得到这样的模型也许这条绿色的线对这个数据集拟合得更好因为它不会在最后下降回来那么我们到底应该如何将模型与我们的数据进行拟合呢？使用多元线性回归的方法我们可以通过将我们的算法做一个非常简单的修改来实现它按照我们以前假设的形式我们知道如何对这样的模型进行拟合其中 ?θ(x) 等于 θ0 +θ1×x1 + θ2×x2 + θ3×x3 那么如果我们想拟合这个三次模型就是我用绿色方框框起来的这个现在我们讨论的是为了预测一栋房子的价格我们用 θ0 加 θ1 乘以房子的面积加上 θ2 乘以房子面积的平方因此这个式子与那个式子是相等的然后再加 θ3 乘以房子面积的立方为了将这两个定义互相对应起来为了做到这一点我们自然想到了将 x1 特征设为房子的面积将第二个特征 x2 设为房屋面积的平方将第三个特征 x3 设为房子面积的立方那么仅仅通过将这三个特征这样设置然后再应用线性回归的方法我就可以拟合这个模型并最终将一个三次函数拟合到我的数据上我还想再说一件事那就是如果你像这样选择特征那么特征的归一化就变得更重要了因此如果房子的大小范围在 1到1000之间那么比如说从1到1000平方尺那么房子面积的平方的范围就是一到一百万也就是 1000的平方而你的第三个特征 x的立方抱歉你的第三个特征 x3 它是房子面积的立方范围会扩大到 1到10的9次方因此这三个特征的范围有很大的不同因此如果你使用梯度下降法应用特征值的归一化是非常重要的这样才能将他们的值的范围变得具有可比性最后这里是最后一个例子关于如何使你真正选择出要使用的特征此前我们谈到一个像这样的二次模型并不是理想的因为你知道也许一个二次模型能很好地拟合这个数据但二次函数最后会下降这是我们不希望的就是住房价格往下走像预测的那样出现房价的下降但是除了转而建立一个三次模型以外你也许有其他的选择特征的方法这里有很多可能的选项但是给你另外一个合理的选择的例子另一种合理的选择可能是这样的一套房子的价格是 θ0 加 θ1 乘以房子的面积然后加 θ2 乘以房子面积的平方根可以吧？平方根函数是这样的一种函数也许θ1 θ2 θ3 中会有一些值会捕捉到这个模型从而使得这个曲线看起来是这样的趋势是上升的但慢慢变得平缓一些而且永远不会下降回来因此通过深入地研究在这里我们研究了平方根函数的形状并且更深入地了解了选择不同特征时数据的形状有时可以得到更好的模型在这段视频中我们探讨了多项式回归也就是如何将一个多项式如一个二次函数或一个三次函数拟合到你的数据上除了这个方面我们还讨论了在使用特征时的选择性例如我们不使用房屋的临街宽度和纵深也许你可以把它们乘在一起从而得到房子的土地面积这个特征实际上这似乎有点难以抉择这里有这么多不同的特征选择我该如何决定使用什么特征呢在之后的课程中我们将探讨一些算法它们能够自动选择要使用什么特征因此你可以使用一个算法观察给出的数据并自动为你选择到底应该选择一个二次函数或者一个三次函数还是别的函数但是在我们学到那种算法之前现在我希望你知道你需要选择使用什么特征并且通过设计不同的特征你能够用更复杂的函数去拟合你的数据而不是只用一条直线去拟合特别是你也可以使用多项式函数有时候通过采取适当的角度来观察特征就可以得到一个更符合你的数据的模型

Machine Learning – 第2周

标签：

原文地址：http://www.cnblogs.com/leezx/p/5625507.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行