码迷,mamicode.com
首页 > 其他好文 > 详细

大数据图谱

时间:2020-09-17 18:33:30      阅读:37      评论:0      收藏:0      [点我收藏+]

标签:ima   直接   logstash   com   news   延迟   mys   消息队列   聚集   

技术图片

 

 

 

  • Sqoop

在hadoop和关系型数据库之间转换数据

  • Flume

Flume是一个分布式的高可用的数据收集、聚集和移动的工具。通常用于从其他系统搜集数据,如web服务器产生的日志,通过Flume将日志写入到Hadoop的HDFS中

  • Canal

数据抽取是 ETL 流程的第一步。我们会将数据从 RDBMS 或日志服务器等外部系统抽取至数据仓库,进行清洗、转换、聚合等操作。在现代网站技术栈中,MySQL 是最常见的数据库管理系统,我们会从多个不同的 MySQL 实例中抽取数据,存入一个中心节点,或直接进入 Hive。市面上已有多种成熟的、基于 SQL 查询的抽取软件,如著名的开源项目 Apache Sqoop,然而这些工具并不支持实时的数据抽取。MySQL Binlog 则是一种实时的数据流,用于主从节点之间的数据复制,我们可以利用它来进行数据抽取。借助阿里巴巴开源的 Canal 项目,我们能够非常便捷地将 MySQL 中的数据抽取到任意目标存储中

  • Logstash

Logstash是开源的服务器端数据处理管道,能够同时从多个来源采集数据,转换数据,然后将数据发送到‘‘存储库’中

  • Kafka

消息队列,一个分布式流平台

  • RocketMQ

阿里巴巴开源的消息队列

  • HBase

HBase是Hadoop数据库,一个分布式的、可扩展的大数据存储

  • Alluxio/Redis/lgnite

Alluxio以内存为中心分布式存储系统

Redis是一个开源的内存键值数据库

lgnit是一个以内存为中心的分布式数据库,缓存和处理平台。用于事务,分析和流式工作负载,在PB级别的数据上提供接近内存速度访问数据

从上述分析可知,Alluxio/Redis/Ignite主要都是通过内存来实现加速

  • TiDB

TiDB是有PingCap开源的分布式NewSQL关系型数据库

  • HDFS

Hadoop的分布式文件系统

  • Ceph

Linux中备受关注的开源分布式存储系统,除了GlusterFS,当属Ceph。目前Ceph已经成为RedHat旗下重要的分布式存储产品,并继续开源。Ceph提供了块储存RDB、分布式文件储存Ceph FS、以及分布式对象存储Radosgw三大储存功能,是目前为数不多的集各种存储能力于一身的开源存储中间件

  • Kudu

Kudu是cloudera开源的运行在hadoop平台上的列式存储系统,拥有Hadoop生态系统应用的常见技术特性,运行在一般的商用硬件上,支持水平扩展,高可用,目前是Apache Hadoop生态圈的新成员之一(incubating)。

Kudu的设计与众不同,它定位于应对快速变化数据的快速分析型数据仓库,希望靠系统自身能力,支撑起同时需要高吞吐率的顺序和随机读写的应用场景,提供一个介于HDFS和HBase的性能特点之间的一个系统,在随机读写和批量扫描之间找到一个平衡点,并保障稳定可预测的响应延迟。可与MapReduce, Spark和其它hadoop生态系统集成。

 

大数据图谱

标签:ima   直接   logstash   com   news   延迟   mys   消息队列   聚集   

原文地址:https://www.cnblogs.com/yayazhang221/p/13632596.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!