码迷,mamicode.com
首页 > 系统相关 > 详细

Linux-Bigdata

时间:2020-03-15 22:17:01      阅读:90      评论:0      收藏:0      [点我收藏+]

标签:api   apache   zook   持久化   under   linkedin   软件   组件   努力   

总结一下大数据开发基本常识

JDK(做java开发必备的开发工具包)

Hadoop(Apache开发的分布式系统的基础框架)三大组件:MapReduce,Yarn,Hdfs

Sqoop(数据迁移,清洗)

Kettle(数据清洗,格式转换)

Hive(基于Hadoop的数据仓库,并不是数据库,需要安装mysql和驱动包)

Flume(Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统)

Redis(一个开源的使用ANSI C语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库,并提供多种语言的API)

Zookeeper(一个分布式的,开放源码的分布式应用程序协调服务)

Azkaban(Linkedin开源的一个批量工作流任务调度器)

Hbase(一个分布式的、面向列的开源数据库)

Kafka(Apache软件基金会开发的一个开源流处理平台,由Scala和Java编写)

Kylin(Apache Kylin™是一个开源的、分布式的分析型数据仓库,提供Hadoop/Spark 之上的 SQL 查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由 eBay 开发并贡献至开源社区,它能在亚秒内查询巨大的表)

Phoenix(构建在HBase上的一个SQL层)

Scala(是一门多范式的编程语言,设计初衷是要集成面向对象编程和函数式编程的各种特性)

Spark(Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎)

次文章为个人所用,即学即用,努力。

Linux-Bigdata

标签:api   apache   zook   持久化   under   linkedin   软件   组件   努力   

原文地址:https://www.cnblogs.com/suhaohao/p/12500082.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!