搜索关键字：spark streaming事务处理，搜索到7001个结果！码迷,mamicode.com！

Spark学习--Structured Streaming

Structured Streaming Structured Streaming 是 Spark Streaming 的进化版 Spark 编程模型的进化过程总结 RDD 的优点面向对象的操作方式可以处理任何类型的数据 RDD 的缺点运行速度比较慢, 执行过程没有优化 API 比较僵硬, ...

分类：其他好文时间：2021-01-18 11:40:47 阅读次数：0

pyspark dataframe save into hive

# 先定义dataframe各列的数据类型 from pyspark.sql.types import *schema = StructType([ StructField("a", NullType(), True), StructField("b", AtomicType(), True), S ...

分类：其他好文时间：2021-01-18 11:29:36 阅读次数：0

spark学习进度25（SparkCore实战案例）

词频统计：要求：统计Harry Potter.txt文件中出现最多单词前十位内容样例：代码及结果： @Test//词频统计 def WordCount(): Unit ={ val conf=new SparkConf().setMaster("local[6]").setAppName("w ...

分类：其他好文时间：2021-01-18 11:17:13 阅读次数：0

Spark学习之SparkSQL

##SparkSQL 是什么 ##SparkSQL 初体验 ##Catalyst 优化器 ##Dataset 的特点 ##DataFrame 的作用和常见操作 ##Dataset 和 DataFrame 的异同 ...

分类：数据库时间：2021-01-18 11:03:21 阅读次数：0

hive性能调优

1. 设置执行引擎 set hive.execution.engine=mr;set hive.execution.engine=spark; 如果设置执行引擎为MR，那么调用Hadoop的maprecude来运行需要执行的job的程序；如果设置执行引擎为spark，那么就会调用spark来执行任 ...

分类：其他好文时间：2021-01-15 12:15:21 阅读次数：0

Spark应用程序-任务的划分

任务的划分 ? DAGScheduler类的handleJobSubmitted方法中，有一个提交阶段的的方法： var finalStage: ResultStage = null …… finalStage = createResultStage(finalRDD, func, partitio ...

分类：其他好文时间：2021-01-12 10:29:01 阅读次数：0

spark学习进度07（深入了解RDD）

一、案例： 1、明确需求：在访问日志中，统计独立ip数量TOP10 2、查看数据结构： ip：是时间戳Http Method Url..... 3、明确编码步骤： 3.1 取出ip，生成一个只有ip的数据集 3.2简单清晰 3.3统计ip出现的次数 3.4排序按照ip出现的次数 3.5取出前十 4 ...

分类：其他好文时间：2021-01-11 11:19:54 阅读次数：0

Spark应用程序执行-阶段的划分

阶段的划分 ? SparkContext对象包含有一个私有属性DAGScheduler阶段调度器，主要用于阶段的划分。在一个应用程序中，任务的提交都是从行动算子触发的。行动算子的方法内部会调用一个runJob方法，其中就有DAG调度器发挥运行Job的作用： dagScheduler.runJob(r ...

分类：其他好文时间：2021-01-08 11:26:05 阅读次数：0

spark (Java API) 在Intellij IDEA中开发并运行

概述：Spark 程序开发，调试和运行，intellij idea开发Spark java程序。分两部分，第一部分基于intellij idea开发Spark实例程序并在intellij IDEA中运行Spark程序.第二部分，将开发程序提交到Spark local或者hadoop YARN集群运行 ...

分类：编程语言时间：2021-01-08 10:56:23 阅读次数：0

Spark SQL 之 RDD、DataFrame 和 Dataset 如何选择

引言 Apache Spark 2.2 以及以上版本提供的三种 API - RDD、DataFrame 和 Dataset，它们都可以实现很多相同的数据处理，它们之间的性能差异如何，在什么情况下该选用哪一种呢？ RDD 从一开始 RDD 就是 Spark 提供的面向用户的主要 API。从根本上来说， ...

分类：数据库时间：2021-01-08 10:40:55 阅读次数：0

共7001条上一页 1 ... 11 12 13 14 15 ... 701 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)