1、Hbase集群的高可用性与伸缩性 HBase可以实现对Regionserver的监控,当个别Regionserver不可访问时,将其负责的分区分给其他Regionsever,其转移过程较快,因为只需要将分区的相关信息转移。Hlog和表中数据实际存储在HDFS上,本身具有多副本机制容错。 Mast ...
分类:
其他好文 时间:
2020-05-23 20:00:09
阅读次数:
88
org.apache.hadoop.fs.FileSystem是Hadoop中一个相当通用的文件系统的抽象基类,它是一个面向最终用户的接口类。应该将所有可能使用Hadoop分布式文件系统的用户代码编写为使用一个FileSystem对象。Hadoop DFS是一种多机系统,显示为单个磁盘,由于其容错能 ...
1、presto是什么 Presto是由Facebook开发的一个分布式SQL查询引擎,是专门设计为用来专门进行大数据实时查询计算而设计和开发的产品。 它是为了解决Hive的MapReduce模型太慢以及不能通过BI或Dashboards直接展现HDFS数据等问题。 2、presto特点 prest ...
分类:
其他好文 时间:
2020-05-23 18:05:11
阅读次数:
249
导入数据 导入到 hdfs sqoop import \#--connect jdbc:mysql://hadoop102:3306/$db_name \--connect "jdbc:oracle:thin:@192.156.456.456:1521:SYNTONG" \--username "s ...
分类:
其他好文 时间:
2020-05-21 19:04:25
阅读次数:
40
高可用性的HDFS:Hadoop分布式文件系统深度实践专注于Hadoop分布式文件系统(HDFS)的主流HA解决方案,内容包括:HDFS元数据解析、Hadoop元数据备份方案、Hadoop Backup Node方案、AvatarNode解决方案以及最新的HA解决方案Cloudrea HA Name ...
分类:
其他好文 时间:
2020-05-21 16:29:51
阅读次数:
73
前言 用了这么久的Hive,而没有认真的学习和使用过Hive的分区,现在学习记录一下。 分区表一般在数据量比较大,且有明确的分区字段时使用,这样用分区字段作为查询条件查询效率会比较高。 Hive分区分为静态分区和动态分区 1、建表语句 先用一个有分区字段的分区表进行学习,静态分区和动态分区的建表语句 ...
分类:
其他好文 时间:
2020-05-19 22:46:55
阅读次数:
50
网上看到的关于Executor,Cores和Memory的分配相关博客,先记录下来,再汇总。 <1>第一篇 Spark处理多少数据是否需要多少内存 Spark处理1Tb数据不需要1Tb的内存。 具体需要多少内存是根据executor的core数量和每次读取数据集的block大小决定的。以读取hdfs ...
分类:
其他好文 时间:
2020-05-19 16:47:03
阅读次数:
82
通用监控指标 对于每个RPC服务应该监控 RpcProcessingTimeAvgTime(PRC处理的平均时间) 通常hdfs在异常任务突发大量访问时,这个参数会突然变得很大,导致其他用户访问hdfs时,会感觉到卡顿,从而影响任务的执行时间 CallQueueLength(RPC Call队列的长 ...
分类:
其他好文 时间:
2020-05-18 20:44:08
阅读次数:
170
Hive产生背景: mapreduce编程的不便性 HDFS上的文件缺少Schema Hive Facebook开源的,最初用于海量结构化的日志数据统计问题 构建在hadoop之上的数据仓库 hive定义了一种类SQL查询语言:HQL(类似SQL但不完全相同) 通常用于离线数据处理(采用mapred ...
分类:
其他好文 时间:
2020-05-18 16:01:16
阅读次数:
183
配置本地hadoop开发环境
配置在Eclipse环境中管理hdfs目录 ...
分类:
其他好文 时间:
2020-05-15 14:07:05
阅读次数:
81