搜索关键字：mapred，搜索到464个结果！码迷,mamicode.com！

Hive

Hive产生背景： mapreduce编程的不便性 HDFS上的文件缺少Schema Hive Facebook开源的，最初用于海量结构化的日志数据统计问题构建在hadoop之上的数据仓库 hive定义了一种类SQL查询语言：HQL（类似SQL但不完全相同）通常用于离线数据处理（采用mapred ...

分类：其他好文时间：2020-05-18 16:01:16 阅读次数：183

3、Hive-sql优化，数据倾斜处理

一、Hive-sql优化 #增加reducer任务数量（拉取数量分流） set mapred.reduce.tasks=20; #在同一个sql中的不同的job是否可以同时运行,默认为false set hive.exec.parallel=true; #增加同一个sql允许并行任务的最大线程数 s ...

分类：数据库时间：2020-05-11 01:21:52 阅读次数：80

MapReduce怎么设置输出的间隔符

MapReduce的默认输出数据的间隔符是制表符，现在想改成逗号间隔，可通过Configuration对象修改 configuration.set("mapred.textoutputformat.ignoreseparator","true"); configuration.set("mapred ...

分类：其他好文时间：2020-05-07 13:40:29 阅读次数：67

MapReduce历史服务器

作用保存执行job任务节点的执行日志将多个节点执行map任务的日志和最终reduce日志聚合在一起在mapred-site.xml中添加配置 1 <property> 2 <name>mapreduce.jobhistory.address</name> 3 <value>hostname:1 ...

分类：其他好文时间：2020-04-18 15:52:26 阅读次数：80

全方位认识HBase：一个值得拥有的NoSQL数据库（一）

前言：说起HBase这门技术，在认知上对于稍微接触或使用过它的人来讲，可能只是百千数据库中一个很普通的库，大概就像我对Redis的认知一样：缓存嘛！可对于HBase，我确实是带着某些感情在的。今日突然萌生了一个生趣的想法，想抛开技术的视角，从情感的角度，像写小说一样，写写这位老朋友，这可能会有点滑 ...

分类：数据库时间：2020-04-18 09:46:13 阅读次数：79

完全分布式Hadoop集群搭建

学习了这么久hadoop，都没有搭过集群，是不合格的。这次搭建完，细扣具体的Job运行情况，日志信息，对Hadoop了解更深了。后面也要陆续搭建分布式flume,kafka,hbase,mysql来完成最终的离线批处理分析项目。搭建步骤 1. 虚拟机环境准备(IP地址、主机名、新用户、防火墙、SS ...

分类：其他好文时间：2020-04-04 15:00:32 阅读次数：81

【赵强老师】大数据分析引擎：Presto

一、什么是Presto？背景知识：Hive的缺点和Presto的背景 Hive使用MapReduce作为底层计算框架，是专为批处理设计的。但随着数据越来越多，使用Hive进行一个简单的数据查询可能要花费几分到几小时，显然不能满足交互式查询的需求。Presto是一个分布式SQL查询引擎，它被设计为用 ...

分类：其他好文时间：2020-04-04 11:41:05 阅读次数：80

hadoop hbase 命令集合

./bin/hdfs zkfc -formatZK 初始安装时初始化zk，在Zookeeper中创建了路径/hadoop-ha/hacluster ./bin/hdfs haadmin -getServiceState master1 查看主节点的状态，是active还是standby ./bin/ ...

分类：其他好文时间：2020-04-01 19:33:47 阅读次数：55

MapReduce_input阶段

Input阶段将数据节点上的数据进行反序列化，然后划分切片。数据切片：（1）一个job的map阶段并行度由客户端在提交job时的切片数决定（2）每个切片分配一个MapTask并行实例处理（3）默认情况下，切片的大小等于BlockSize，也就是数据块大小 ...

分类：其他好文时间：2020-03-18 13:37:49 阅读次数：85

CDH5到CDH6都更新了些什么

发现最近很多人关注CDH版本更新的问题，CDH6更新有一年多的时间了，2019年2月19日，迭代的版本为CDH6.1.1，现在CDH最新的版本已经到CDH6.3.3了。为了方便比较，本文内容主要基于CDH5.16.1和CDH6.1.1进行说明。CDH6是基于Hadoop3同时包含大量其他组件的大版本更新的发布版本，许多用户考虑到未来CDH的版本主要是基于CDH6，而CDH5会慢慢的停止更新，所以考

分类：其他好文时间：2020-03-10 12:04:30 阅读次数：53

共464条上一页 1 2 3 4 5 ... 47 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)