码迷,mamicode.com
首页 >  
搜索关键字:mapreduce streaming    ( 5217个结果
Hive不常用操作记录
Hive列转行: select school,concat_ws('|',collect_set(name)) as name from tmp_01 group by school; 注意:collect_set 有重复的会去重, collect_list 有重复的不去重 hive行转列: sel ...
分类:其他好文   时间:2021-06-19 19:05:46    阅读次数:0
MapReduce(八)Hadoop中的数据本地化
原文链接: https://data-flair.training/blogs/data-locality-in-hadoop-mapreduce/ 1、什么是数据本地化 数据本地化(Data locality)是指将计算移动到数据所在的节点,而不是移动数据移动到计算所在的节点。在Hadoop中,一 ...
分类:其他好文   时间:2021-06-18 19:09:26    阅读次数:0
MapReduce(七)InputSplit和HDFS block的关系
InputSplit是block和mapper之间的代理,也即是为mapper提供了一个数据视图。 我们以HDFS的block的大小为128MB举例,当一行日志为130MB(包括行分隔符),这一行数据会被分在两个block中,如果mapper直接读block的话,会读到一个被截断的行日志。这是为什么 ...
分类:其他好文   时间:2021-06-18 18:49:59    阅读次数:0
Flink-transformation(三)
ke01开启: nc -lk 8888 Map package com.text.transformation import org.apache.flink.streaming.api.scala.StreamExecutionEnvironment import org.apache.flink ...
分类:其他好文   时间:2021-06-11 18:25:57    阅读次数:0
利用sqoop将hive数据导入导出数据到mysql
运行环境 centos 5.6 hadoop hivesqoop是让hadoop技术支持的clouder公司开发的一个在关系数据库和hdfs,hive之间数据导入导出的一个工具 在使用过程中可能遇到的问题: sqoop依赖zookeeper,所以必须配置ZOOKEEPER_HOME到环境变量中。sq ...
分类:数据库   时间:2021-06-07 20:36:05    阅读次数:0
01 Spark架构与运行流程
1. 阐述Hadoop生态系统中,HDFS, MapReduce, Yarn, Hbase及Spark的相互关系,为什么要引入Yarn和Spark。 HDFS是Hadoop体系中数据存储管理的基础,它是一个高度容错的系统,能检测和应对硬件故障,在低成本的通用硬件上运行。 HBase构建在HDFS之上 ...
分类:其他好文   时间:2021-06-07 20:05:58    阅读次数:0
Flink 1.12.1 NoClassDefFoundError SourceFunction
Flink 1.12.1 java.lang.NoClassDefFoundError: org/apache/flink/streaming/api/functions/source/SourceFunction 错误信息描述 使用Idea运行项目,抛出以下异常 java.lang.NoClass ...
分类:其他好文   时间:2021-06-06 18:47:58    阅读次数:0
Hadoop MapReduce 一文详解MapReduce及工作机制
@ 前言-MR概述 MapReduce是一个分布式计算框架,是用户开发“基于Hadoop的数据分析应用”的核心框架。主要由两部分组成:编程模型和运行时环 境。其中,编程模型为用户提供了非常易用的编程接口,用户只需要像编写串行程序 一样实现几个简单的函数即可实现一个分布式程序,而其他比较复杂的工作,如 ...
分类:其他好文   时间:2021-06-02 19:46:24    阅读次数:0
Mapreduce思想常见面试问题
1.统计出IP的文件,哪个ip出现的次数最多,一行一个ip。如果文件很大,超过内存。 2.给定a、b两个文件,各存放50亿个url,每个url各占64B,内存限制是4GB,请找出a、b两个文件共同的url? 3.现在有一个非常庞大的URL库(100E),然后现在还有一个URL,(迅速)判断这个URL ...
分类:其他好文   时间:2021-05-24 14:14:27    阅读次数:0
Docker Hadoop 配置常见错误及解决办法
Docker Hadoop 配置常见错误及解决办法 问题1:wordcount运行卡住,hadoop 任务运行到running job就卡住了 INFO mapreduce.Job: Running job: job_.... 解决如下: 1. 修改mapred-site.xml配置,配置文件在Ha ...
分类:其他好文   时间:2021-04-20 14:54:20    阅读次数:0
5217条   上一页 1 2 3 4 ... 522 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!