问题描述: 给定线性可分数据集:T={(x1,y1),(x2,y2),...,(xN,yN)},存在超平面S:$w\cdot x+b=0$ $ \left\{\begin{matrix} w\cdot x+b>0,y=+1\\ w\cdot x+b<0,y=-1 \end{matrix}\right ...
分类:
编程语言 时间:
2018-01-31 18:32:25
阅读次数:
164
本文介绍了机器学习中基本的优化算法—梯度下降算法和随机梯度下降算法,以及实际应用到线性回归、Logistic回归、矩阵分解推荐算法等ML中。 梯度下降算法基本公式 常见的符号说明和损失函数 X :所有样本的特征向量组成的矩阵 x(i) 是第i个样本包含的所有特征组成的向量x(i)=(x(i)1,x( ...
分类:
编程语言 时间:
2018-01-31 14:39:56
阅读次数:
221
随机:数据采样随机,特征选择随机 (数据采样,有放回) ...
分类:
编程语言 时间:
2018-01-30 21:20:54
阅读次数:
148
决策树的训练与测试 如何切分特征(选择节点) 衡量标准-熵 衡量标准-熵 信息增益 信息增益 决策树构造实例 信息增益:表示特征X使得类Y的不确定性减小的程度。(分类后的专一性,希望分类后的结果是同类在一起) Outlook = sunny时,熵值 = (-2/5)*log(2/5)/log2 - ...
分类:
编程语言 时间:
2018-01-29 17:33:56
阅读次数:
220
逻辑回归(Logistic regression) ...
分类:
编程语言 时间:
2018-01-28 14:41:34
阅读次数:
167
一、介绍 Logistic回归是广泛应用的机器学习算法,虽然名字里带“回归”,但是它实际上是一种分类方法,主要用于两分类问题(即输出只有两种,分别代表两个类别)。 面对一个回归或者分类问题,建立代价函数(损失函数),使用最优化算法(梯度上升法、改进的随机梯度上升法),找到最佳拟合参数,将数据拟合到一 ...
分类:
其他好文 时间:
2018-01-27 11:25:47
阅读次数:
209
数据预处理——构建好的训练数据集机器学习算法最终学习结果的优劣取决于两个主要因素:数据的质量和数据中蕴含的有用信息的数量。缺失数据的处理在实际应用过程中,样本由于各种原因缺少一个或多个值得情况并不少见。其原因主要有:数据采集过程中出现了错误,常用得度量方法不适用于某些特征,或者在调查过程中某些数据未... ...
分类:
编程语言 时间:
2018-01-26 22:45:50
阅读次数:
269
上次我们讲过《Spark机器学习(上)》,本文是Spark机器学习的下部分,请点击回顾上部分,再更好地理解本文。1.机器学习的常见算法 常见的机器学习算法有:l 构造条件概率:回归分析和统计分类;l 人工神经网络;l 决策树;l 高斯过程回归;l 线性判别分析;l 最近邻居法;l 感知器;l 径向基 ...
分类:
其他好文 时间:
2018-01-24 22:19:13
阅读次数:
229
特征:样本的属性。比如:西瓜的颜色、瓜蒂的形状、敲击的声音就是特征 标签:样本的类别。比如:好瓜”和“坏瓜”这两个判断就是标签 一、介绍 KNN分类算法,是理论比较成熟,最简单的机器学习算法之一,既可用于分类,又可应用于回归 核心思想:计算一个样本在特征空间中的k个最相邻的样本,k个样本大多数属于某 ...
分类:
编程语言 时间:
2018-01-23 20:44:25
阅读次数:
210
主要机器学习算法的project适用性分析 前段时间AlphaGo跟李世石的大战及相关的深度学习的新闻刷了一遍又一遍的朋友圈。只是这件事情,也仅仅是在机器学习的深度上进一步拓展,而机器学习的广度(也即project化实践)上,仍然没有什么突破性的理论或实践,用的领域继续用,不用的领域依旧 ...
分类:
编程语言 时间:
2018-01-23 20:23:51
阅读次数:
211