背景信息什么是用户行为数据,用户行为数据是怎么积累的。为什么我们需要研究用户理解以及为什么用户理解这么重要。在第二部分,我会介绍我们最近关于移动规律理解应用的研究工作。例如,怎样处理用户轨迹中的数据缺失问题,怎么样为用户推荐有趣的地点。在最后一部分,我会展示我们近期在用户分析和隐私保护方面的研究项目。
这张图展示了每分钟用户在一些网站上产生的数据量。
用户数据是怎么样收集的
二十多年之前,...
分类:
其他好文 时间:
2016-04-28 07:07:02
阅读次数:
289
大规模网络搜索的设计大规模搜索引擎的逻辑结构
上图来自1998年Google两个创始人发表的论文。
crawler:爬虫,从互联网上获取文档信息
index:读取这些信息,并记住哪些单词出现在哪些文档中,称为索引
search:使关键词查询成为可能,并对查询结果进行排序
Google的独特性在于:使用anchor text描述目标文档,并利用文档之间的链接对文档的重要性排序,这就是PageRank...
分类:
其他好文 时间:
2016-04-26 21:02:49
阅读次数:
196
用大数据分析大数据市场 现今科技界红到发紫的大数据革命的代表性技术就是Hadoop(注:一个分布式系统基础架构)。Hadoop是一个由一系列不同的技术组成的生态系统。做 Hadoop相关产品的公司有很多,其中也有很多不一样的选择和变种,比如Cloudera,Hortonworks,亚马逊EMR,St ...
分类:
其他好文 时间:
2016-04-13 11:22:12
阅读次数:
176
WordCount程序中Map和Reduce过程分析(网易云课堂Hadoop与大数据学习笔记) Map过程: (1)文件的拆分,测试用的文件较小,每个文件为一个split,并将文件按行分成<key,value>对,如下图,这一步是由框架完成: (2)将分割好的<key ,value>对交给用户定义的 ...
分类:
其他好文 时间:
2016-03-31 12:29:10
阅读次数:
203
ZooKeeper:ZooKeeper浅析:http://www.cnblogs.com/sharpxiajun/archive/2013/06/02/3113923.htmlHDFS:MapReduce程序的工作过程:http://www.aboutyun.com/thread-15494-1-2...
分类:
其他好文 时间:
2016-01-24 12:55:34
阅读次数:
177
第一次接触王老师的大数据课程是在2014年底,当时在51CTO上有了spark六阶段,当时真的太吸引我了,但是由于是学生,所以没那么多钱去买教程,真的太后悔了,但是呢!后来看到了《大数据不眠夜:Spark内核天机解密(共100讲)》:http://pan.baidu.com/s/1eQsHZAq和《...
分类:
其他好文 时间:
2016-01-01 16:59:21
阅读次数:
720
大数据是用scala语言,和java有些不同又比java强大,省去了很多繁琐的东西,scala中的的接口用trait来定义,不同于java的接口,trait中可以有抽象方法也可以有不抽象方法。scala中的方法中还可以定义方法,这在java中是从来没有的。大数据未来几年发展的重点方向,大数据战略已经...
分类:
其他好文 时间:
2015-12-30 21:52:16
阅读次数:
201
之前未习惯发布学习心德博文,后续会采用这种方式发布学习心得,希望能够很好的督促自己。计划会按scala,Hadoop,Spark的顺序去学习。刚学scala的时候,眼前一亮,这语法跟python,java很像啊,刚好两者很熟悉,偷笑,后面果然学的得心应手。今天就不发表具体的技术内容。反正王学林老师的...
分类:
其他好文 时间:
2015-12-23 22:44:19
阅读次数:
186
spark是用scala语言,和java有些不同又比java强大,省去了很多繁琐的东西,scala中的的接口用trait来定义,不同于java的接口,trait中可以有抽象方法也可以有不抽象方法。scala中的方法中还可以定义方法,这在java中是从来没有的。大数据未来几年发展的重点方向,大数据战略...
分类:
其他好文 时间:
2015-11-25 11:01:22
阅读次数:
182
大数据未来几年发展的重点方向,大数据战略已经在十八届五中全会上作为重点战略方向当前相关的项目有hadoop、Spark、Aaka、kafka、flink等等,使用语言有java、scala、python等等对大数据有兴趣者可以参考王老师提供的相关内容,具体如下:王家林的第一个中国梦:免费为全社会培养...
分类:
其他好文 时间:
2015-11-14 20:39:03
阅读次数:
393