Hive产生背景: mapreduce编程的不便性 HDFS上的文件缺少Schema Hive Facebook开源的,最初用于海量结构化的日志数据统计问题 构建在hadoop之上的数据仓库 hive定义了一种类SQL查询语言:HQL(类似SQL但不完全相同) 通常用于离线数据处理(采用mapred ...
分类:
其他好文 时间:
2020-05-18 16:01:16
阅读次数:
183
一、Hive-sql优化 #增加reducer任务数量(拉取数量分流) set mapred.reduce.tasks=20; #在同一个sql中的不同的job是否可以同时运行,默认为false set hive.exec.parallel=true; #增加同一个sql允许并行任务的最大线程数 s ...
分类:
数据库 时间:
2020-05-11 01:21:52
阅读次数:
80
MapReduce的默认输出数据的间隔符是制表符,现在想改成逗号间隔,可通过Configuration对象修改 configuration.set("mapred.textoutputformat.ignoreseparator","true"); configuration.set("mapred ...
分类:
其他好文 时间:
2020-05-07 13:40:29
阅读次数:
67
作用 保存执行job任务节点的执行日志 将多个节点执行map任务的日志和最终reduce日志聚合在一起 在mapred-site.xml中添加配置 1 <property> 2 <name>mapreduce.jobhistory.address</name> 3 <value>hostname:1 ...
分类:
其他好文 时间:
2020-04-18 15:52:26
阅读次数:
80
前言: 说起HBase这门技术,在认知上对于稍微接触或使用过它的人来讲,可能只是百千数据库中一个很普通的库,大概就像我对Redis的认知一样:缓存嘛!可对于HBase,我确实是带着某些感情在的。今日突然萌生了一个生趣的想法,想抛开技术的视角,从情感的角度,像写小说一样,写写这位老朋友,这可能会有点滑 ...
分类:
数据库 时间:
2020-04-18 09:46:13
阅读次数:
79
学习了这么久hadoop,都没有搭过集群,是不合格的。这次搭建完,细扣具体的Job运行情况,日志信息,对Hadoop了解更深了。后面也要陆续搭建分布式flume,kafka,hbase,mysql来完成最终的离线批处理分析项目。 搭建步骤 1. 虚拟机环境准备(IP地址、主机名、新用户、防火墙、SS ...
分类:
其他好文 时间:
2020-04-04 15:00:32
阅读次数:
81
一、什么是Presto? 背景知识:Hive的缺点和Presto的背景 Hive使用MapReduce作为底层计算框架,是专为批处理设计的。但随着数据越来越多,使用Hive进行一个简单的数据查询可能要花费几分到几小时,显然不能满足交互式查询的需求。Presto是一个分布式SQL查询引擎,它被设计为用 ...
分类:
其他好文 时间:
2020-04-04 11:41:05
阅读次数:
80
./bin/hdfs zkfc -formatZK 初始安装时初始化zk,在Zookeeper中创建了路径/hadoop-ha/hacluster ./bin/hdfs haadmin -getServiceState master1 查看主节点的状态,是active还是standby ./bin/ ...
分类:
其他好文 时间:
2020-04-01 19:33:47
阅读次数:
55
Input阶段将数据节点上的数据进行反序列化,然后划分切片。 数据切片:(1)一个job的map阶段并行度由客户端在提交job时的切片数决定 (2)每个切片分配一个MapTask并行实例处理 (3)默认情况下,切片的大小等于BlockSize,也就是数据块大小 ...
分类:
其他好文 时间:
2020-03-18 13:37:49
阅读次数:
85
发现最近很多人关注CDH版本更新的问题,CDH6更新有一年多的时间了,2019年2月19日,迭代的版本为CDH6.1.1,现在CDH最新的版本已经到CDH6.3.3了。为了方便比较,本文内容主要基于CDH5.16.1和CDH6.1.1进行说明。CDH6是基于Hadoop3同时包含大量其他组件的大版本更新的发布版本,许多用户考虑到未来CDH的版本主要是基于CDH6,而CDH5会慢慢的停止更新,所以考
分类:
其他好文 时间:
2020-03-10 12:04:30
阅读次数:
53