分布式系统实践 1. Google和Linkedin的老司机是如何管理海量数据的 http://dwz.cn/66Tkqx 摘要: 一直都听说数据仓库里需要元数据管理, 但是没看见过具体的设计. 这篇文章总结了Google和Linkedin发布的元数据管理系统的论文和开源实现, 值得学习. 2. 聊 ...
分类:
其他好文 时间:
2017-06-16 20:16:33
阅读次数:
122
什么是OKROKR全称是Objectives and Key Results,即目标与关键成果法。OKR是一套定义和跟踪目标及其完成情况的管理工具和方法。1999年 Intel公司发明了这种方法,后来被 John Doerr推广到Oracle、Google、LinkedIn等高科技公司并逐步流传开来... ...
分类:
其他好文 时间:
2017-06-12 16:12:45
阅读次数:
281
Kafka起初是由LinkedIn公司开发的一个分布式的消息系统,后成为Apache的一部分,它使用Scala编写,以可水平扩展和高吞吐率而被广泛使用。目前越来越多的开源分布式处理系统如Cloudera、Apache Storm、Spark等都支持与Kafka集成。 1 概述 Kafka与传统消息系 ...
分类:
其他好文 时间:
2017-06-09 23:35:14
阅读次数:
316
关注群主朋友圈的人都知道,本周群主过得RIO充实,每天工作到半夜写爬虫,先后写了Linkedin,生E经、生意参谋以及淘宝关键词搜索结果等爬虫。记得去年写工商信息爬虫时是灰头土脸的,虽然每爬一次随机sleep几秒,但还是频繁被封!对比之下,爬淘宝是相当愉快的,爬爬歇歇是spider基本礼仪,淘宝也回 ...
分类:
其他好文 时间:
2017-05-27 23:04:15
阅读次数:
358
我们为什么要搭建该系统 Kafka是一个消息系统,原本开发自LinkedIn,用作LinkedIn的活动流(activity stream)和运营数据处理管道(pipeline)的基础。如今它已为多家不同类型的公司 作为多种类型的数据管道(data pipeline)和消息系统使用。 活动流数据是全 ...
分类:
其他好文 时间:
2017-05-27 10:52:27
阅读次数:
450
常见的开源数据收集系统有: 非结构数据(日志)收集 Flume 结构化数据收集(传统数据库与 Hadoop 同步) Sqoop:全量导入 Canal(alibaba):增量导入 Databus(linkedin):增量导入 Flume是什么: 由Cloudera公司开源 分布式、可靠、高可用的海量日 ...
分类:
Web程序 时间:
2017-05-24 19:15:25
阅读次数:
407
优步自己没有车,只是用车平台;阿里自己没有货,只是交易平台;微博自己不生产内容,只是内容平台…… 优步自己没有车,只是用车平台;阿里自己没有货,只是交易平台;微博自己不生产内容,只是内容平台…… 那么人才呢?是否也没必要用企业的形式组织起来,而用平台的方式呢? 实际上,追溯回去的话,“企业”这种组织 ...
分类:
其他好文 时间:
2017-05-21 01:06:18
阅读次数:
238
上周一个叫 Abhishek Thakur 的数据科学家,在他的 Linkedin 发表了一篇文章 Approaching (Almost) Any Machine Learning Problem,...
分类:
其他好文 时间:
2017-05-06 20:51:59
阅读次数:
176
最近公共祖先 给定一棵二叉树,找到两个节点的最近公共父节点(LCA)。 最近公共祖先是两个节点的公共的祖先节点且具有最大深度。 注意事项 假设给出的两个节点都在树中存在 样例 对于下面这棵二叉树 4 / \ 3 7 / \ 5 6 LCA(3, 5) = 4 LCA(5, 6) = 7 LCA(6, ...
分类:
其他好文 时间:
2017-05-03 13:21:11
阅读次数:
167
1 概述Kakfa起初是由LinkedIn公司开发的一个分布式的消息系统,后成为Apache的一部分,它使用Scala编写,以可水平扩展和高吞吐率而被广泛使用。目前越来越多的开源分布式处理系统如Clo...
分类:
其他好文 时间:
2017-05-02 22:17:34
阅读次数:
333