我们现在开始训练模型,还输入参数如下:
rank:ALS中因子的个数,通常来说越大越好,但是对内存占用率有直接影响,通常rank在10到200之间。
iterations:迭代次数,每次迭代都会减少ALS的重构误差。在几次迭代之后,ALS模型都会收敛得到一个不错的结果,所以大多情况下不需要太多的迭代(通常是10次)。
lambda:模型的正则化参数,控制着避免过度拟合,值越大,越正则化。我们将...
分类:
系统相关 时间:
2015-08-14 19:21:13
阅读次数:
368
注:原文中的代码是在spark-shell中编写执行的,本人的是在eclipse中编写执行,所以结果输出形式可能会与这本书中的不太一样。首先将用户数据u.data读入SparkContext中,然后输出第一条数据看看效果,代码如下:val sc = new SparkContext("local", "ExtractFeatures")
val rawData = sc.textFile("F:\\...
分类:
系统相关 时间:
2015-08-14 13:54:09
阅读次数:
208
1.引言
作为machine learning的初学者,看到如此多的问题都能够用数学简单的进行解决,再次感觉到数学的魅力。数学不仅仅是枯燥的考试题,而是人类理解世界的一种重要的工具。所以同样在搞ml的筒子们,我认为搞好数学是关键。在machine learning中有时候要测评两个特征之间的联系的程度,举ml中一个简单的例子,现在要预测房子的价格,告诉了房子的面积X和花园的面积Y这两个特征,我们要测评一下X和Y之间的相关程度,即房子的面积和花园的面积是否有联系或者相关。那么这里就会用到了协方差,即Cov(X...
分类:
其他好文 时间:
2015-08-12 21:45:31
阅读次数:
5875
编者按:本文收集了百来篇关于机器学习和深度学习的资料,含各种文档,视频,源码等。而且原文也会不定期的更新,望看到文章的朋友能够学到更多。《Brief History of Machine Learning》介绍:这是一篇介绍机器学习历史的文章,介绍很全面,从感知机、神经网络、决策树、SVM、Adab...
分类:
其他好文 时间:
2015-08-12 13:07:48
阅读次数:
509
print "Performing greedy feature selection..."
score_hist = []
N = 10
good_features = set([])
# Greedy feature selection loop
while len(score_hist) score_hist[-2][0]:
scores = []
for f in ran...
分类:
编程语言 时间:
2015-08-11 21:31:26
阅读次数:
269
# Hyperparameter selection loop
score_hist = []
Cvals = [0.001, 0.003, 0.006, 0.01, 0.02, 0.03, 0.04, 0.05, 0.06, 0.1]
for C in Cvals:
model.C = C
score = cv_loop(Xt, y, model, N)
score_hi...
分类:
编程语言 时间:
2015-08-11 21:28:54
阅读次数:
188
此文是斯坦福大学,机器学习界 superstar — Andrew Ng 所开设的 Coursera 课程:Machine Learning 的课程笔记。力求简洁,仅代表本人观点,不足之处希望大家探讨。...
分类:
系统相关 时间:
2015-08-11 01:25:45
阅读次数:
390
拼接原始数据:
train_data = pd.read_csv('train.csv')
test_data = pd.read_csv('test.csv')
all_data = np.vstack((train_data.ix[:,1:-1], test_data.ix[:,1:-1]))
numpy下的合并数组vstack和hstack函数:
>>> a = np.ones((...
分类:
编程语言 时间:
2015-08-10 22:09:51
阅读次数:
187
watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvenFoXzE5OTE=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center" alt="">watermark/2/...
分类:
系统相关 时间:
2015-08-09 13:48:14
阅读次数:
178
机器学习(Machine Learning,简称 ML)和计算机视觉(Computer Vision,简称 CV)是非常令人着迷、非常酷炫、颇具挑战性同时也是涉及面很广的领域。本文整理了机器学习和计算机视觉的相关学习资源,目的是帮助许多和我一样希望深刻理解“智能”背后原理的人,用最为高效的方式学习最...
分类:
其他好文 时间:
2015-08-08 18:13:25
阅读次数:
145