样本我就用的《machine learning in action》中提供的数据样例,据说是婚恋网站上各个候选人的特征,以及当前人对这些人的喜欢程度。一共1k条数据,前900条作为训练样本,后100条作为测试样本。
数据格式如下:
46893 3.562976 0.445386 didntLike
8178 3.230482 1.331698 smallDoses
55783 3.612548...
分类:
编程语言 时间:
2015-04-11 13:17:24
阅读次数:
159
大数据时代要转变的思维:要分析所有数据,而不是少量的数据样本;要追求数据的纷繁复杂,而不是精确性;要关注事物的相关关系,而不是因果关系。...
分类:
其他好文 时间:
2015-04-11 10:21:29
阅读次数:
176
概述K最近邻(k-Nearest Neighbor,KNN)分类算法可以说是最简单的机器学习算法了。它采用测量不同特征值之间的距离方法进行分类。它的思想很简单:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。算法总结k-邻近算法是分类...
分类:
其他好文 时间:
2015-04-11 01:11:04
阅读次数:
209
k临近算法(kNN)采用测量不同特征值之间的距离方法进行分类,也是一种非常直观的方法。本文主要记录了使用kNN算法改进约会网站的例子。任务一:分类算法classify0
就是使用距离公式计算特征值之间的距离,选择最邻近的k个点,通过统计这k个点的结果来得出样本的预测值。
tile函数用法在这里
argsort函数在这里def classify0(inX,dataset,labels,k):...
分类:
其他好文 时间:
2015-04-10 22:36:02
阅读次数:
233
监督学习应用与梯度下降本课内容:1、线性回归2、梯度下降3、正规方程组(复习)监督学习:告诉算法每个样本的正确答案,学习后的算法对新的输入也能输入正确的答案1、线性回归例:Alvin汽车,先让人开车,Alvin摄像头观看(训练),而后实现自动驾驶。本质是一个回归问题,汽车尝试预测行驶方向。例:上一节...
分类:
其他好文 时间:
2015-04-10 19:46:58
阅读次数:
135
隐语义模型:物品 表示为长度为k的向量q(每个分量都表示 物品具有某个特征的程度)用户兴趣 表示为长度为k的向量p(每个分量都表示 用户对某个特征的喜好程度)用户u对物品i的兴趣可以表示为 其损失函数定义为- 使用随机梯度下降,获得参数p,q负样本生成:对于只有正反馈信息(用户收藏了,关注了...
分类:
其他好文 时间:
2015-04-09 23:26:50
阅读次数:
476
1.算法思想很简单:AdaBoost 是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器,即弱分类器,然后把这些弱分类器集合起来,构造一个更强的最终分类器。(三个臭皮匠,顶个诸葛亮)它的自适应在于:前一个基本分类器分错的样本会得到加强,加权后的全体样本再次被用来训练下一个基本分类器。同时,...
分类:
编程语言 时间:
2015-04-09 21:26:43
阅读次数:
278
0x00 背景近日,360网站卫士安全团队近期捕获一个基于PHP实现的webshell样本,其巧妙的代码动态生成方式,猥琐的自身页面伪装手法,让我们在分析这个样本的过程中感受到相当多的乐趣。接下来就让我们一同共赏这个奇葩的Webshell吧。0x01 细节Webshell代码如下:关键看下面这句代码...
分类:
Web程序 时间:
2015-04-09 06:27:21
阅读次数:
118
统计学意义(p值) 结果的统计学意义是结果真实程度(能够代表总体)的一种估计方法。专业上,p值为结果可信程度的一个递减指标,p值越大,我们越不能认为样本中变量的关联是总体中各变量关联的可靠指标。p值是将观察结果认为有效即具有总体代表性的犯错概率。如p=0.05提示样本中变量关联有5%的可能是由于.....
分类:
其他好文 时间:
2015-04-08 14:46:22
阅读次数:
768
以下所说的“大多数”是指在我们测试过的机型中,发生此类状况的手机占比达50%及以上,“部分”为20%到50%;“少数”为20%及以下。而这个概率也仅仅只限于我们所测试过的机型,虽然我们采集的样本尽量覆盖各种特征的手机,但并不代表所有手机的情况。XHTML部分大多数手机不支持..
分类:
移动开发 时间:
2015-04-07 19:53:41
阅读次数:
144