在弄清楚这个问题之前,我们先了解一下什么是分布式的CAP定理。 根据百度百科的定义,CAP定理又称CAP原则,指的是在一个分布式系统中,Consistency(一致性)、 Availability(可用性)、Partition tolerance(分区容错性),最多只能同时三个特性中的两个,三者不可 ...
分类:
其他好文 时间:
2020-05-10 12:35:44
阅读次数:
235
JDBC 以MySQL为例 读取 import java.sql.DriverManager import org.apache.spark.rdd.JdbcRDD import org.apache.spark.{SparkConf, SparkContext} /** * Author atgu ...
分类:
数据库 时间:
2020-05-09 23:21:09
阅读次数:
86
规划:nn1.hadoop nn2.hadoop s1.hadoop s2.hadoop ZK: nn1 nn2 s1journalnode: nn1 nn2 s1DataNode: nn1 nn2 s1 s2NodeManager: nn1 nn2 s1 s2NameNode: nn1 nn2Re ...
分类:
系统相关 时间:
2020-05-09 21:12:33
阅读次数:
83
二者对比 1.Hive 数据仓库:本质其实就相当于将hdfs中已经存储的文件在Mysql中做了一个双射关系,以方便用HQL去管理查询。 用于数据分析、清洗:Hive适用于离线的数据分析和清洗,延迟较高。 基于HDFS、MapReduce:Hive存储的数据依旧在DataNode上,编写的HQL语句终 ...
分类:
其他好文 时间:
2020-05-09 01:23:51
阅读次数:
63
1,Pinpoint的架构: Pinpoint的组件介绍: Pinpoint-Collector:收集各种性能数据 Pinpoint-Web:将收集到的数据显示成WEB网页形式 HBase Storage:收集到的数据存到HBase中 Pinpoint-Agent:和自己运行的应用关联起来的探针 P ...
分类:
其他好文 时间:
2020-05-09 00:26:14
阅读次数:
114
将jar包放置服务器运行 1.环境配置 + 在/etc/profile中配置 + 在hadoop env.sh配置,==在for循环后面添加== 直接在开发平台运行,连接到HBase服务端(以IDEA为例) 1.环境配置,添加hbase site.xml,将远程的hbase site.xml文件内容 ...
分类:
其他好文 时间:
2020-05-07 22:58:36
阅读次数:
83
Hbase API删除数据详解 一:代码实现如下: 二:分析和实践 ==javaAPI删除Hbase的数据有三种方式,hbase删除数据,并不是马上删掉,只是对数据打一个删除标记,真正删除数据是等到下一次major_compact(除非KEEP_DELETED_CELLS=true)。== 1) 删 ...
NoSQL的四大种类 NoSQL数据库在整个数据库领域的江湖地位已经不言而喻。在大数据时代,虽然RDBMS很优秀,但是面对快速增长的数据规模和日渐复杂的数据模型,RDBMS渐渐力不从心,无法应对很多数据库处理任务,这时NoSQL凭借易扩展、大数据量和高性能以及灵活的数据模型成功的在数据库领域站稳了脚 ...
分类:
数据库 时间:
2020-05-06 12:12:17
阅读次数:
86
本文源码:GitHub·点这里||GitEE·点这里一、DataX工具简介1、设计理念DataX是一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。解决异构数据源同步问题,DataX将复杂的网状的同步链路变成了星型数据链路,DataX作为中间传输载体负责连接各种数据源。当
分类:
其他好文 时间:
2020-05-06 10:30:40
阅读次数:
73
HBase分布式数据库,面向列存储(准确的说是面向列族),支持实时、随机读写。HDFS 为 Hbase 提供可靠的底层数据存储服务,MapReduce 为 Hbase 提供高性能的计算能力,Zookeeper 为 Hbase 提供 稳定服务和Failover机制,因此,Hbase 是一个通过大量廉价 ...
分类:
其他好文 时间:
2020-05-06 01:13:24
阅读次数:
103