码迷,mamicode.com
首页 > Web开发 > 详细

[Big Data - Suro] Netflix开源数据流管理器Suro

时间:2017-02-26 10:49:00      阅读:174      评论:0      收藏:0      [点我收藏+]

标签:http   process   elastic   管道   last   nbsp   big data   数据源   bsp   

Netflix近日开源了一个叫做Suro的工具,公司可以利用它来做数据源主机到目标主机的实时定向。它不只在Netflix的数据管道上扮演重要角色,大规模下的应用场景同样令人印象深刻。

Netflix各种应用程序每天生成数百亿的事件,Suro可以在数据被发送之前收集到它们,然后部分经过Amazon S3给Hadoop批处理,另一部分经过Apache Kafka给Druid 和 ElasticSearch做实时分析。从Netflix博客了解到,公司也在考虑如何让Suro支持Storm或Samza这样的实时处理引擎去执行事件数据的机器学习。

技术分享

熟悉大数据领域的人们都知道,很多技术都与公司挂钩,例如Netflix 创建了Suro, LinkedIn 创建了Kafka 和 Samza , Twitter创建了Storm,Metamarkets 创建了Druid 。Suro博客也承认它是基于Apache Chukwa项目,类似 Apache的Flume , Facebook的Scribe 。诚然,这些项目中最显著的无疑是Hadoop。

公司为什么要建立自己的技术一直是争议的热点,因为他们的需求,一般都会被创建,就像在生活中的很多东西,不过,这个问题的答案还得具体问题具体分析。例如Storm,正在成为一个非常受欢迎的流处理工具,但LinkedIn觉得它需要不同的东西,因此创建Samza。取代使用一些已有的技术,Netflix创建了Suro,主要因为该公司虽然是一个重度的云服务用户(主要基于AWS),但也有一些非AWS业务,包括Apache Cassandra数据库。

技术分享

这场技术创新最终赢家必然归结于采用这些主流技术的用户,无需在公司内部招聘专业人士,就可让公司从这些开源技术中获益。例如,我们已经看到Hadoop供应商试图让Storm和Spark框架用于其企业客户。同时,我们也相信Hadoop绝对不是最后一个这样的技术。AWS有非常多的用户,毕竟他们希望Suro这样技术提供的能力,而不是被AWS推出的服务绑定。

[Big Data - Suro] Netflix开源数据流管理器Suro

标签:http   process   elastic   管道   last   nbsp   big data   数据源   bsp   

原文地址:http://www.cnblogs.com/licheng/p/6443571.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!