搜索关键字：rdd spark hive hadoop，搜索到23938个结果！码迷,mamicode.com！

Hive 默认分隔符

引言 Hive 中的默认分隔符是 ^A (\001) ，这是一种特殊的分隔符，使用的是 ASCII 编码的值，键盘是打不出来的查看 Hive 默认分隔符文件 Linux 上的文件以 \001 作为分隔符时，下载后用 notePad++ 打开时看到的 SOH 以 \002 作为分隔符时，下载后用n ...

分类：其他好文时间：2021-04-23 11:54:19 阅读次数：0

Sqoop 的安装使用

1:下载地址 http://mirrors.hust.edu.cn/apache/sqoop/1.4.6/ 2:上传压缩包 scp sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz root@hadoop2:/opt/software 3:解压并重命名 tar - ...

分类：其他好文时间：2021-04-21 12:09:16 阅读次数：0

05RDD

读文本文件生成RDD lines 将一行一行的文本分割成单词 words flatmap() 全部转换为小写 lower() 去掉长度小于3的单词 filter() 去掉停用词转换成键值对 map() 统计词频 reduceByKey() 按字母顺序排序 sortBy(f) 按词频排序 sortB ...

分类：其他好文时间：2021-04-21 12:03:05 阅读次数：0

Transfor类算子（转换类算子）

1、对RDD的分区重新进行划分：rdd1.coalesce(num,boolean) 1 val rdd1 = sc.parallelize(Array[String]("love1", "love2", "love3", "love4", "love5", "love6", "love7", "l ...

分类：其他好文时间：2021-04-21 11:54:31 阅读次数：0

05 RDD编程2

一、词频统计： 1.读文本文件生成RDD lines 2.将一行一行的文本分割成单词 words flatmap() 3.全部转换为小写 lower() 4.去掉长度小于3的单词 filter() 5.去掉停用词 6.转换成键值对 map() 7.统计词频 reduceByKey() 8.按字母顺序 ...

分类：其他好文时间：2021-04-20 15:35:56 阅读次数：0

05 RDD编程

一、词频统计： 1.读文本文件生成RDD lines 2.将一行一行的文本分割成单词 words flatmap() 3.全部转换为小写 lower() 4.去掉长度小于3的单词 filter() 5.去掉停用词 6.转换成键值对 map() 7.统计词频 reduceByKey() 8.按字母顺序 ...

分类：其他好文时间：2021-04-20 15:35:16 阅读次数：0

RDD编程

1.读文本文件生成RDD lines 2.将一行一行的文本分割成单词 words flatmap() 3.全部转换为小写 lower() 4.去掉长度小于3的单词 filter() 5.去掉停用词 6.转换成键值对 map() 7.统计词频 reduceByKey() 8.按字母顺序排序 sortB ...

分类：其他好文时间：2021-04-20 15:17:39 阅读次数：0

Spark OneHot编码原理

python - How to interpret results of Spark OneHotEncoder - Stack Overflow ...

分类：其他好文时间：2021-04-20 15:16:33 阅读次数：0

RDD编程

一、词频统计： 1.读文本文件生成RDD lines lines = sc.textFile('file:///home/hadoop/word.txt') 2.将一行一行的文本分割成单词 words flatmap() words=lines.flatMap(lambda line:line.sp ...

分类：其他好文时间：2021-04-20 15:02:06 阅读次数：0

Docker Hadoop 配置常见错误及解决办法

Docker Hadoop 配置常见错误及解决办法问题1：wordcount运行卡住，hadoop 任务运行到running job就卡住了 INFO mapreduce.Job: Running job: job_.... 解决如下： 1. 修改mapred-site.xml配置，配置文件在Ha ...

分类：其他好文时间：2021-04-20 14:54:20 阅读次数：0