码迷,mamicode.com
首页 > 其他好文 > 详细

大数据总结

时间:2021-04-05 12:37:34      阅读:0      评论:0      收藏:0      [点我收藏+]

标签:主从架构   mapr   数据库   数据表   flume   ase   连接   park   结构   

学习过得技术

  • HDFS
  • YARN
  • MR
  • HIVE
  • HBASE
  • SPARK
  • SPARK(sparkCore、sparkSql、sparkStreaming)

 

HDFS

  • 数据库管理、
  • 存磁盘
  • Ha模式(在zookeeper之上)
  • 联邦机制(把大象装进冰箱)
  • split切片

Hbase

  • 列式数据库
  • 半结构化
  • 非结构化
  • 读写缓存
  • 布隆过滤器
  • 有多节点:node01、node02、node03
  • dataNode

yarn

  • 资源管理框架,就是内存和CPU分配
  • 主从架构
  • ha模式
  • 主是RM 从事NM

分布式任务MapReduce计算框架

  • 任务多的时候,资源乱抢,会带来很多问题,多以需要资源框架管理,基于磁盘
  • sparkCore、sparkSq、sparkStreaming: 计算框架、基于内存(性能高)

Hive: 

  • 计算 默认依赖MR
  • 存储 默认依赖HDFS+mysql(存储元数据)
  • hive原默认使用的是derby,因为derby只支持单链接,不支持多客户端连接,所以更换mysql
  • hive基础元数据提供了meta服务,可以通过这个服务提供元数据,也就是spark可以通过访问meta服务,也就是可以访问hive上的数据表,也就能拿到hdfs上的数据

hive on spark

  • sql在hive上运行,解析成spark, 计算引擎是spark, 基于内存  spark找yarn

spark on hive

  • sql在spark上运行,解析成hive语句,计算引擎是MR,基于磁盘 慢! MR找yarn

 

flume

  • 数据采集

sqoop

  • 关系型数据和非关系型数据迁移

kafka 

  • mq

 

大数据总结

标签:主从架构   mapr   数据库   数据表   flume   ase   连接   park   结构   

原文地址:https://www.cnblogs.com/bigdata-familyMeals/p/14613795.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!