搜索关键字：大数据 Spark 大数据开发，搜索到18881个结果！码迷,mamicode.com！

PySpark第一篇.PySpark简介

1.Spark概述 Apache Spark是一个闪电般快速的实时处理框架。它进行内存计算以实时分析数据。由于 Apache Hadoop MapReduce 仅执行批处理并且缺乏实时处理功能，因此它开始出现。因此，引入了Apache Spark，因为它可以实时执行流处理，也可以处理批处理。除了实 ...

分类：其他好文时间：2021-04-06 15:01:09 阅读次数：0

spark中的持久化(cache()、persist()、checkpoint())

分类：系统相关时间：2021-04-06 14:53:55 阅读次数：0

大数据总结

学习过得技术 HDFS YARN MR HIVE HBASE SPARK SPARK(sparkCore、sparkSql、sparkStreaming) HDFS 数据库管理、存磁盘 Ha模式(在zookeeper之上) 联邦机制(把大象装进冰箱) split切片 Hbase 列式数据库半结构 ...

分类：其他好文时间：2021-04-05 12:37:34 阅读次数：0

省选模拟测试23

考的是某年 \(FJWC\) 的题。 \(T1\) 比较简单的构造题，但自己考试的时候犯了个 \(zz\) 错误，把边权搞错了，就只拿了 \(50\) 分。 \(T2\) 大数据结构题，一开始想打暴力的，但要分类讨论好多种情况，就没写。 \(T3\) 思维题，打死都想不出正解的那照片那种。 T1 直 ...

分类：其他好文时间：2021-04-01 13:19:13 阅读次数：0

Spark RDD编程基础

准备文本文件从文件创建RDD lines=sc.textFile() 筛选出含某个单词的行 lines.filter()lambda 参数：条件表达式 2. 生成单词的列表从列表创建RDD words=sc.parallelize()筛选出长度大于2 的单词 words.filter() ...

分类：其他好文时间：2021-03-30 13:26:11 阅读次数：0

03 Spark RDD编程基础

1. 准备文本文件从文件创建RDD lines=sc.textFile()筛选出含某个单词的行 lines.filter()lambda 参数：条件表达式 2. 生成单词的列表从列表创建RDD words=sc.parallelize()筛选出长度大于2 的单词 words.filter() ...

分类：其他好文时间：2021-03-30 13:18:46 阅读次数：0

Kafka 概述

1.1 定义 Kafka 是一个分布式的基于发布/订阅模式的消息队列（Message Queue），主要应用于大数据实时处理领域 1.2 消息队列 1.2.1 传统消息队列的应用场景 ? 使用消息队列的好处 1）解耦允许你独立的扩展或修改两边的处理过程，只要确保它们遵守同样的接口约束。 2） ...

分类：其他好文时间：2021-03-30 13:07:59 阅读次数：0

Spark RDD编程基础

1. 准备文本文件从文件创建RDD lines=sc.textFile()筛选出含某个单词的行 lines.filter() 2. 生成单词的列表从列表创建RDD words=sc.parallelize()筛选出长度大于2 的单词 words.filter() ...

分类：其他好文时间：2021-03-30 13:05:37 阅读次数：0

03 Spark RDD基础编程

1. 准备文本文件从文件创建RDD lines=sc.textFile()筛选出含某个单词的行 lines.filter()lambda 参数：条件表达式 2. 生成单词的列表从列表创建RDD words=sc.parallelize()筛选出长度大于2 的单词 words.filter() ...

分类：其他好文时间：2021-03-30 12:53:37 阅读次数：0

Spark RDD编程

1. 准备文本文件从文件创建RDD lines=sc.textFile()筛选出含某个单词的行 lines.filter()lambda 参数：条件表达式 2. 生成单词的列表从列表创建RDD words=sc.parallelize()筛选出长度大于2 的单词 words.filter() 3. ...

分类：其他好文时间：2021-03-30 12:53:01 阅读次数：0