大数据生态开源工具

时间：2015-06-10 15:27:14 阅读：141 评论：0 收藏：0 [点我收藏+]

标签：

1. Flume：日志收集软件，里面的重要概念是agent，包括 source -> channel -> slink，sourc,slink 可以为hdfs,jdbc ... 一个简单的场景是用Flume监测一个文件夹fdir的数据变化，这时fdir就是source，并将变化传送到hdfs_path上，hdfs_path就是slink。

2. Sqoop：主要用于hadoop data（hdfs/hive/hbase）和 structured database(relational database)之间的 data export/import，比如 Hive->mysql，mysql->HBase。

3. ZooKeeper：现在大多的数据存储，server都以集群的形式出现。Zookeeper就是协调集群一致性问题。还没看懂~~

4. Hive：是个数据仓库，适用于全表查询的一些操作。Hive本身不存储数据，其本身依赖于HDFS和MapReduce，其将HDFS上的结构化文件映射为一张逻辑数据表。

5. HBase：是个数据库，可以建索引。

6. Pig：数据流编程语言，提供了比MapReduce更丰富的API操作，比如join。

大数据生态开源工具

标签：

原文地址：http://www.cnblogs.com/lbingkuai/p/4566035.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行