最近工作需要,调研了一下LinkedIn开源的用于复杂大数据分析的高性能计算引擎Cubert。自己测了下,感觉比较适合做报表统计中的Cube计算和Join计算,效率往往比Hive高很多倍,节省资源和时间。下面看下这个框架的介绍:
Cubert完全用Java开发,并提供一种脚本语言。它是针对报表领域里经常出现的复杂连接和聚合而设计的。Cubert使用MeshJoin算法处理大时间窗口下的大数据集,...
分类:
其他好文 时间:
2015-06-18 13:41:54
阅读次数:
253
Kafka[1]是linkedin用于日志处理的分布式消息队列,linkedin的日志数据容量大,但对可靠性要求不高,其日志数据主要包括用户行为(登录、浏览、点击、分享、喜欢)以及系统运行日志(CPU、内存、磁盘、网络、系统及进程状态)。当前很多的消息队列服务提供可靠交付保证,并默认是即时消费(不适...
分类:
其他好文 时间:
2015-06-17 11:04:37
阅读次数:
132
CODE:#!/usr/bin/python # -*- coding: utf-8 -*-'''Created on 2014-8-18@author: guaguastd@name: job_position_display.py'''# import loginfrom login impor...
分类:
编程语言 时间:
2015-06-10 22:12:02
阅读次数:
250
“我在LinkedIn上开账号了,没错,我正在寻找一份新工作。”近日,为了竞选2016年的美国总统,希拉里·克林顿开通了职业社交网站LinkedIn(领英)账号,并幽默地称自己是来”找工作“的。在希拉里的个人档案中,她用这样的标签来介绍自己:“妻子,母亲,祖母…养狗的人,头发..
分类:
其他好文 时间:
2015-05-23 18:38:33
阅读次数:
239
1、 概述Kafka是Linkedin于2010年12月份开源的消息系统,它主要用于处理活跃的流式数 据。活跃的流式数据在web网站应用中非常常见,这 些数据包括网站的pv、用户访问了什么内容,搜索了什么内容等。 这些数据通常以日志的形式记录下来,然后每隔一段时间进行一次统计处理。传统的日志分析系统...
分类:
其他好文 时间:
2015-05-10 20:14:37
阅读次数:
159
QCon 2015阅读笔记QCon 2015 阅读笔记 - 移动开发最佳实践QCon 2015 阅读笔记 - 团队建设中西对话:团队管理的五项理论和实战 - 谢欣、董飞(今日头条,LinkedIn)两位讲解人其实都是比较有经验的,来自国内外一线互联网企业。谢欣:微软-》百度-》酷讯(创业)-》今日头...
分类:
其他好文 时间:
2015-05-05 10:19:22
阅读次数:
191
最近同行们应该对LinkedIn收购了做在线教育的Lynda.com这个新闻并不陌生,但纵观国内整个网络,对这个新闻的描述也仅仅是将之当成新闻来看待而已。那么这个收购案究竟存在着什么更深层的意义呢?这个问题应该是身处在线教育的人最有发言权。所谓他山之石可以攻玉,我们看看国外的在线教育总监Kirsten Bailey究竟是如何在她的文章中对这个收购案做出深入的解读的…...
分类:
其他好文 时间:
2015-04-30 10:49:59
阅读次数:
100
国内被多家注明媒体进行头条报道。作者通过组织160位专家对100多个著名的企业的成功规律进行了深入的研究,然后对这些“独角兽“级别的企业的成功经验进行了史无前例的总结…...
分类:
其他好文 时间:
2015-04-17 15:52:21
阅读次数:
236
随着移动互联网的成熟,越来越多人进入了这个领域,只要你在北上广深的地铁上站上两站,就能听到旁边的人在谈他参与的移动互联网创业。随着“大众创业、万众创新”这把加在烈火的上干柴落实下来,作为珠三角技术沙龙 的组织者,越来越觉得下面的情况已经成为了事实:
创业者太多,程序员不够用了。
是的,随便加入哪个程序员的QQ群、微信群,甚至你都不用加入,每天都有不同的猎头会加你的QQ、微信或在 linkedin...
分类:
其他好文 时间:
2015-04-08 01:10:58
阅读次数:
148
分布式消息系统:KafkaKafka是分布式发布-订阅消息系统。它最初由LinkedIn公司开发,之后成为Apache项目的一部分。Kafka是一个分布式的,可划分的,冗余备份的持久性的日志服务。它主要用于处理活跃的流式数据。在大数据系统中,常常会碰到一个问题,整个大数据是由各个子系统组成,数据需要...
分类:
其他好文 时间:
2015-04-03 12:57:02
阅读次数:
199