搜索关键字：rdd spark hive hadoop，搜索到23938个结果！码迷,mamicode.com！

RDD练习：词频统计

一、词频统计： 1.读文本文件生成RDD lines 2.将一行一行的文本分割成单词 words flatmap() 3.全部转换为小写 lower() 4.去掉长度小于3的单词 filter() 5.去掉停用词 6.转换成键值对 map() 7.统计词频 reduceByKey() 二、学生课程分 ...

分类：其他好文时间：2021-04-07 11:00:42 阅读次数：0

05 RDD练习：词频统计，学习课程分数

一、词频统计： #1.读文本文件生成RDD lines #2.将一行一行的文本分割成单词 words flatmap() #3.全部转换为小写 lower() #4.去掉长度小于3的单词 filter() #5.去掉停用词 #6.转换成键值对 map() 7.统计词频 reduceByKey() 二 ...

分类：其他好文时间：2021-04-07 10:49:31 阅读次数：0

RDD练习：词频统计

一、词频统计： 1.读文本文件生成RDD lines 2.将一行一行的文本分割成单词 words flatmap() 3.全部转换为小写 lower() 4.去掉长度小于3的单词 filter() 5.去掉停用词 6.转换成键值对 map() 7.统计词频 reduceByKey() 二、学生课程分 ...

分类：其他好文时间：2021-04-07 10:40:25 阅读次数：0

RDD练习：词频统计

一、词频统计： 1.读文本文件生成RDD 2.将文本分割成单词 words 3.全部转换为小写 4.去掉长度小于3的单词 5.去掉停用词 6.转换成键值对 map() 7.统计词频 reduceByKey() 二、学生课程分数 groupByKey() -- 按课程汇总全总学生和分数 1. 分解出字 ...

分类：其他好文时间：2021-04-06 15:20:05 阅读次数：0

05RDD

一、词频统计： 1.读文本文件生成RDD lines 2.将一行一行的文本分割成单词 words flatmap() 3.全部转换为小写 lower() 4.去掉长度小于3的单词 filter() 5.去掉停用词 6.转换成键值对 map() 7.统计词频 reduceByKey() 二、学生课程分 ...

分类：其他好文时间：2021-04-06 15:15:03 阅读次数：0

RDD练习：词频统计

一、词频统计： 1.读文本文件生成RDD lines 2.将一行一行的文本分割成单词 words flatmap() lines=sc.textFile("file:///usr/local/spark/mycode/wordcount/word.txt") words = lines.flatMa ...

分类：其他好文时间：2021-04-06 15:08:22 阅读次数：0

05 RDD练习：词频统计

一、filter,map,flatmap练习： 1.读文本文件生成RDD lines 2.将一行一行的文本分割成单词 words 3.全部转换为小写 4.去掉长度小于3的单词 5.去掉停用词二、groupByKey练习 6.练习一的生成单词键值对 7.对单词进行分组 8.查看分组结果学生科目成绩 ...

分类：其他好文时间：2021-04-06 15:04:43 阅读次数：0

PySpark第一篇.PySpark简介

1.Spark概述 Apache Spark是一个闪电般快速的实时处理框架。它进行内存计算以实时分析数据。由于 Apache Hadoop MapReduce 仅执行批处理并且缺乏实时处理功能，因此它开始出现。因此，引入了Apache Spark，因为它可以实时执行流处理，也可以处理批处理。除了实 ...

分类：其他好文时间：2021-04-06 15:01:09 阅读次数：0

spark中的持久化(cache()、persist()、checkpoint())

分类：系统相关时间：2021-04-06 14:53:55 阅读次数：0

Hadoop序列化

2.1 序列化概述 1）什么是序列化序列化就是把内存中的对象，转换成字节序列（或其他数据传输协议）以便于存储到磁盘（持久化）和网络传输。反序列化就是将收到字节序列（或其他数据传输协议）或者是磁盘的持久化数据，转换成内存中的对象。 2）为什么要序列化一般来说，“活的”对象只生存在内存里，关机断电 ...

分类：其他好文时间：2021-04-06 14:52:31 阅读次数：0