步骤: def buildStump(dataArr,classLabels,D): 1。循环取出数据集中的一个特征(一列)输入 (for:) 2。循环调整阀值threshVal (for:) 3,。分成两个子树 左边:特征值xi<=threshVal 为-1,否则为1 获得预测结果1 右边:特征值 ...
分类:
其他好文 时间:
2018-10-31 23:22:36
阅读次数:
167
5位运动员参加了10米台跳水比赛,有人让他们预测比赛结果A选手说:B第二,我第三;B选手说:我第二,E第四;C选手说:我第一,D第二;D选手说:C最后,我第三;E选手说:我第四,A第一;比赛结束后,每位选手都说对了一半,请编程确定比赛的名次 1.首先将选手的话转换成编程语言; 2.将编程语言用逻辑表 ...
分类:
编程语言 时间:
2018-10-25 23:43:42
阅读次数:
217
1)机器学习模型理解 统计学习,神经网络 2)预测结果的衡量 代价函数(cost function)、损失函数(loss function) 3)线性回归是监督学习 ...
分类:
编程语言 时间:
2018-10-14 22:01:05
阅读次数:
230
1)回归与分类算法的区别 回归的预测结果是连续的,分类的预测结果是离散的。 2)spark实现的回归算法有: 3)通过相关系数衡量线性关系的程度 ...
分类:
其他好文 时间:
2018-10-14 21:54:03
阅读次数:
165
先验知识 我们首先将数据的类别统一分为两类:正类和负类。例如:一个数据集中的数据一共有3类,小学生、中学生、高中生。我们的目标是预测小学生,那么标记为小学生的数据就是正类,标记为其他类型的数据都是负类。 数据有两种状态:测试集数据和预测结果数据。 对一批测试数据进行预测,结果可以分成四种。 TP(T ...
分类:
其他好文 时间:
2018-09-27 00:03:29
阅读次数:
327
机器学习的大致流程如上图所示,x表示输入变量,表示影响预测结果y的特征(features),强特征对结果影响比较大,弱特征对结果影响较小,甚至有些特征根本对结果无影响,所以衍生出来特征工程和特征选择这两个对结果非常重要的分支。h表示训练的模型,将训练数据灌入model,使用学习算法,训练出模型的参数 ...
分类:
其他好文 时间:
2018-09-26 14:53:49
阅读次数:
112
训练模型 在上一篇文章中,我们已经通过LearningPipeline训练好了一个“鸢尾花瓣预测”模型, 现在就可以让模型对一条没有人工标注结果的数据进行分析,返回一个预测结果。 或者一次预测一批数据 保存模型 但是大多数时候,已经训练好的模型以后还需要继续可以使用,因此需要把它持久化,写入到zip ...
分类:
Web程序 时间:
2018-09-23 18:06:18
阅读次数:
185
1.简单的线性回归 假定输入数据存放在矩阵X中,而回归系数存放在向量W中,则对于给定的数据X1,预测结果将会是 这里的向量都默认为列向量 现在的问题是手里有一些x和对应的y数据,怎样才能找到W呢?一个常用的方法是找到使误差最小的W,这里的误差是指预测y值与真实y值之间的差值,使用该误差的简单累加将使 ...
分类:
其他好文 时间:
2018-08-24 00:38:35
阅读次数:
203
在本节中,我们介绍Softmax回归模型,该模型是logistic回归模型在多分类问题上的推广,在多分类问题中,类标签 可以取两个以上的值。 Softmax回归模型对于诸如MNIST手写数字分类等问题是很有用的,该问题的目的是辨识10个不同的单个数字。Softmax回归是有监督的,不过后面也会介绍它 ...
分类:
其他好文 时间:
2018-08-23 23:10:36
阅读次数:
204
双语评估替换分数(简称BLEU)是一种对生成语句进行评估的指标。完美匹配的得分为1.0,而完全不匹配则得分为0.0。这种评分标准是为了评估自动机器翻译系统的预测结果而开发的,具备了以下一些优点: BLEU评分是由Kishore Papineni等人在他们2002年的论文BLEU a Method f ...
分类:
编程语言 时间:
2018-08-03 14:22:58
阅读次数:
202