Hive列转行: select school,concat_ws('|',collect_set(name)) as name from tmp_01 group by school; 注意:collect_set 有重复的会去重, collect_list 有重复的不去重 hive行转列: sel ...
分类:
其他好文 时间:
2021-06-19 19:05:46
阅读次数:
0
原文链接: https://data-flair.training/blogs/data-locality-in-hadoop-mapreduce/ 1、什么是数据本地化 数据本地化(Data locality)是指将计算移动到数据所在的节点,而不是移动数据移动到计算所在的节点。在Hadoop中,一 ...
分类:
其他好文 时间:
2021-06-18 19:09:26
阅读次数:
0
InputSplit是block和mapper之间的代理,也即是为mapper提供了一个数据视图。 我们以HDFS的block的大小为128MB举例,当一行日志为130MB(包括行分隔符),这一行数据会被分在两个block中,如果mapper直接读block的话,会读到一个被截断的行日志。这是为什么 ...
分类:
其他好文 时间:
2021-06-18 18:49:59
阅读次数:
0
ke01开启: nc -lk 8888 Map package com.text.transformation import org.apache.flink.streaming.api.scala.StreamExecutionEnvironment import org.apache.flink ...
分类:
其他好文 时间:
2021-06-11 18:25:57
阅读次数:
0
运行环境 centos 5.6 hadoop hivesqoop是让hadoop技术支持的clouder公司开发的一个在关系数据库和hdfs,hive之间数据导入导出的一个工具 在使用过程中可能遇到的问题: sqoop依赖zookeeper,所以必须配置ZOOKEEPER_HOME到环境变量中。sq ...
分类:
数据库 时间:
2021-06-07 20:36:05
阅读次数:
0
1. 阐述Hadoop生态系统中,HDFS, MapReduce, Yarn, Hbase及Spark的相互关系,为什么要引入Yarn和Spark。 HDFS是Hadoop体系中数据存储管理的基础,它是一个高度容错的系统,能检测和应对硬件故障,在低成本的通用硬件上运行。 HBase构建在HDFS之上 ...
分类:
其他好文 时间:
2021-06-07 20:05:58
阅读次数:
0
Flink 1.12.1 java.lang.NoClassDefFoundError: org/apache/flink/streaming/api/functions/source/SourceFunction 错误信息描述 使用Idea运行项目,抛出以下异常 java.lang.NoClass ...
分类:
其他好文 时间:
2021-06-06 18:47:58
阅读次数:
0
@ 前言-MR概述 MapReduce是一个分布式计算框架,是用户开发“基于Hadoop的数据分析应用”的核心框架。主要由两部分组成:编程模型和运行时环 境。其中,编程模型为用户提供了非常易用的编程接口,用户只需要像编写串行程序 一样实现几个简单的函数即可实现一个分布式程序,而其他比较复杂的工作,如 ...
分类:
其他好文 时间:
2021-06-02 19:46:24
阅读次数:
0
1.统计出IP的文件,哪个ip出现的次数最多,一行一个ip。如果文件很大,超过内存。 2.给定a、b两个文件,各存放50亿个url,每个url各占64B,内存限制是4GB,请找出a、b两个文件共同的url? 3.现在有一个非常庞大的URL库(100E),然后现在还有一个URL,(迅速)判断这个URL ...
分类:
其他好文 时间:
2021-05-24 14:14:27
阅读次数:
0
Docker Hadoop 配置常见错误及解决办法 问题1:wordcount运行卡住,hadoop 任务运行到running job就卡住了 INFO mapreduce.Job: Running job: job_.... 解决如下: 1. 修改mapred-site.xml配置,配置文件在Ha ...
分类:
其他好文 时间:
2021-04-20 14:54:20
阅读次数:
0