郑昀 基于刘金鑫文档 最后更新于2014/12/1 关键词: recsys 、推荐评测、Evaluation of Recommender System、piwik、flume、kafka、storm、redis、mysql 本文档适用人员:研发 ? 推荐系统可不仅仅是围着推荐算法...
分类:
其他好文 时间:
2014-12-17 16:38:41
阅读次数:
458
最近接到一个日志收集的需求,经过测试和修改,目前基本实现想要的功能,记录一下。 先说一下日志收集的需求,每隔1小时收集一次log日志,按照类别生成不同的lzo压缩文件,而且生成的日志要放在到前一个小时的目录中。 拿到这个需求先想到使用flume来进行日志收集,再用Interceptor进行过...
分类:
Web程序 时间:
2014-12-17 01:34:44
阅读次数:
280
http://blog.csdn.net/zxcvg/article/details/18600335http://www.aboutyun.com/thread-8317-1-1.htmlhttp://blog.csdn.net/lskyne/article/details/37564449美团数...
分类:
Web程序 时间:
2014-12-13 12:09:38
阅读次数:
207
采集层 主要可以使用Flume, Kafka两种技术。 Flume:Flume 是管道流方式,提供了很多的默认实现,让用户通过参数部署,及扩展API. Kafka:Kafka是一个可持久化的分布式的消息队列。 Kafka 是一个非常通用的系统。...
分类:
Web程序 时间:
2014-12-12 13:27:34
阅读次数:
209
在使用flume中发现由于网络、HDFS等其它原因,使得经过Flume收集到HDFS上得日志有一些异常,表现为:1、有未关闭的文件:以tmp(默认)结尾的文件。加入存到HDFS上得文件应该是gz压缩文件,以tmp为结尾的文件就无法使用;2、有大小为0的文件,比如gz压缩文件大小为0,我们单独拿下这个...
分类:
Web程序 时间:
2014-12-11 13:46:24
阅读次数:
299
出自:http://my.oschina.net/jinp/blog/350293一些常用命令:storm相关:storm nimbus >/dev/null 2>&1 &storm supervisor >/dev/null 2>&1 &storm ui >/dev/null 2>&1 &关闭st...
分类:
Web程序 时间:
2014-12-08 00:45:15
阅读次数:
346
以下内容都为自己浅显的理解,用作备忘的流水账,所以写的比较混乱。如理解有错误,请帮忙指正 FLUME-NG中没有之前的对文件的实时流SOURCE,只提供了spoolDir的source,这个source的功能监控指定文件夹,放入文件夹内的文件不能再做任何修改(包括修改时间和文件大小),这2个错...
分类:
Web程序 时间:
2014-12-05 15:30:59
阅读次数:
349
说明:本来研究开源日志的系统是flume,后来发现配置比较麻烦,网上搜索到fluentd也是开源的日志收集系统,配置简单多了,性能不错,所以就改研究这个东东了!官方主页,大家可以看看:fluentd.org,支持300+的plugins,应该是不错的!fluentd是通过hadoop中的webHDFS与HDFS进..
分类:
其他好文 时间:
2014-12-04 18:18:05
阅读次数:
497
摘自:http://my.oschina.net/leejun2005/blog/2881361、Flume 的一些核心概念:1.1 数据流模型1.2 高可靠性1.3 可恢复性2、Flume 整体架构介绍2.1 Exec source2.2 Spooling Directory Source3、常用...
分类:
Web程序 时间:
2014-11-26 15:51:08
阅读次数:
180