码迷,mamicode.com
首页 > 其他好文 > 详细

大数据生态开源工具

时间:2015-06-10 15:27:14      阅读:141      评论:0      收藏:0      [点我收藏+]

标签:

1. Flume:日志收集软件,里面的重要概念是agent,包括 source -> channel -> slink,sourc,slink 可以为hdfs,jdbc ... 一个简单的场景是用Flume监测一个文件夹fdir的数据变化,这时fdir就是source,并将变化传送到hdfs_path上,hdfs_path就是slink。

2. Sqoop:主要用于hadoop data(hdfs/hive/hbase)和 structured database(relational database)之间的 data export/import,比如 Hive->mysql,mysql->HBase。

3. ZooKeeper:现在大多的数据存储,server都以集群的形式出现。Zookeeper就是协调集群一致性问题。还没看懂~~

4. Hive:是个数据仓库,适用于全表查询的一些操作。Hive本身不存储数据,其本身依赖于HDFS和MapReduce,其将HDFS上的结构化文件映射为一张逻辑数据表。

5. HBase:是个数据库,可以建索引。

6. Pig:数据流编程语言,提供了比MapReduce更丰富的API操作,比如join。

大数据生态开源工具

标签:

原文地址:http://www.cnblogs.com/lbingkuai/p/4566035.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!