Mahout提供推荐系统引擎是模块化的,分为5个主要部分组成:
1. 数据模型
2. 相似度算法
3. 近邻算法
4. 推荐算法
5. 算法评分器
今天好好看了看关于推荐算法以及算法评分部分的源码。
以http://blog.csdn.net/jianjian1992/article/details/46582713
里边数据的为例进行实验。整体流程的代码如下,依...
分类:
其他好文 时间:
2015-08-07 13:24:42
阅读次数:
246
本人最近在某咨询公司实习,涉及到了一些数据分析的工作,用的是R语言来处理数据。但是在应用的过程中,发现用R很不熟练,所以再打算学一遍R。曾经花一个月的时间看过一遍《R语言编程艺术》,还用R做过阿里的推荐算法比赛,对R语言有一些最初级、基本的了解。不过 ,上面那本书虽然挺好,但是不适合速成,是从程序员...
分类:
编程语言 时间:
2015-07-31 20:00:19
阅读次数:
130
赛题地址:http://tianchi.aliyun.com/competition/information.htm?raceId=1
登录即可下载数据
从4月到7月,学习了很多也收获了很多
题目就不多说了,一句话表达就是根据过去一个月的行为预测14年12月19号的购买情况。
看题目貌似推荐算法,自然就有队伍想到用协同过滤什么的,当然效果不好。
首先是特征的问题,然后是这是基于行...
分类:
移动开发 时间:
2015-07-29 01:07:16
阅读次数:
769
一 什么是机器学习
机器学习是近年来互联网行业耳熟能详的词,伴随着大数据、云计算、物联网等新兴概念,预示着信息社会的又一轮浪潮的到来。那么什么是机器学习呢?这个听起来很高大上的计算机术语,其实它在我们日常生活中无处不在。以前很喜欢在亚马逊上买书,常常因为点开了下面的根据自己喜好推荐的链接而买了很多;网易云音乐是一款很不错的音乐软件,很大程度上得益于它歌曲推荐算法的准确;还有邮箱能自...
分类:
其他好文 时间:
2015-07-23 17:57:53
阅读次数:
110
Mahout推荐算法API详解Hadoop家族系列文章,主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项目包括,YARN, Hcatalog, Oo...
分类:
编程语言 时间:
2015-07-20 19:20:32
阅读次数:
168
隐性反馈行为数据的协同过滤推荐算法
《Collaborative Filtering for Implicit Feedback Datasets》论文笔记
本文是我阅读《CollaborativeFiltering for Implicit Feedback Datasets》论文的笔记,介绍的是对于隐性反馈行为数据协同过滤算法,采取的是隐语义模型(LFM),求解方式是ALS...
分类:
编程语言 时间:
2015-07-16 22:11:37
阅读次数:
250
移动推荐算法比赛已经结束了一个多星期了,现在写一篇文章来回顾一下自己的参赛历程。
首先,对不了解这个比赛的同学们介绍一下这个比赛(引用自官网):
赛题简介
2014年是阿里巴巴集团移动电商业务快速发展的一年,例如2014双11大促中移动端成交占比达到42.6%,超过240亿元。相比PC时代,移动端网络的访问是随时随地的,具有更丰富的场景数据,比如用户的位置信息、用户访问的时间规律等。
本次...
分类:
移动开发 时间:
2015-07-10 22:21:32
阅读次数:
21578
在知乎看到了这个问题“网易云音乐的歌单推荐算法是怎样的?” 关于这个问题我也想过,为什么网易云可以做的这么好,推荐的这么到位,他们的算法团队是如何去描述一个首歌,描述一个用户的。点进这个问题后,我看了当时排名第一的回答,答主介绍了一个算法,“潜在因子(Latent Factor)”。看完这个算法让我...
分类:
编程语言 时间:
2015-06-28 14:01:35
阅读次数:
176
互联网给用户带来了大量的信息,满足了用户在信息时代对信息的需求,也使得用户在面对大量信息时无法从中获得对自己真正有用的那部分信息,对信息的使用效 率反而降低了,而通常解决这个问题最常规的办法是推荐系统,推荐系统能有效帮助用户快速发现感兴趣和高质量的信息,提升用户体验,增加用户使用产品时间, 并有.....
分类:
编程语言 时间:
2015-06-21 17:12:59
阅读次数:
3677
一、什么是推荐算法互联网的出现和普及给用户带来了大量的信息,满足了用户在信息时代对信息的需求,但随着网络的迅速发展而带来的网上信息量的大幅增长,使得用户在面对大量信息时无法从中获得对自己真正有用的那部分信息,对信息的使用效率反而降低了,这就是所谓的信息超载(informationoverload)问...
分类:
编程语言 时间:
2015-06-17 15:06:29
阅读次数:
157