搜索关键字：flume spark sparkflumeprotocol，搜索到7976个结果！码迷,mamicode.com！

Spark executor中task的数量与最大并发数

每个task处理一个partition，一个文件的大小/128M就是task的数量 Task的最大并发数当task被提交到executor之后，会根据executor可用的cpu核数，决定一个executor中最多同时运行多少个task。默认情况下一个task对应cpu的一个核。如果一个exec ...

分类：其他好文时间：2021-02-02 11:14:58 阅读次数：0

解决spark-submit的There is insufficient memory for the Java Runtime Environment to continue.（老顽固问题） failed; error='Cannot allocate memory' (errno=12)

Q：第一次提交wordcount案例，OK，一切正常。再次提交，出现下述错误。完整错误粘贴如下： 21/01/27 14:55:48 INFO spark.SecurityManager: Changing modify acls groups to: 21/01/27 14:55:48 INFO ...

分类：编程语言时间：2021-01-28 11:56:52 阅读次数：0

spark 从数据库中读取数据

spark 从数据库中读取数据的几种方式，以Mysql 为例创建spark val spark = SparkSession.builer().appName("用户标签").master("local[*]").getOrCreate() val url = "jdbc:mysql://数据库地 ...

分类：数据库时间：2021-01-27 13:56:39 阅读次数：0

spark-------------RDD 转换算子-----value类型(一)

引言 RDD 根据数据处理方式的不同将算子整体上分为 Value 类型、双 Value 类型和 Key-Value类型，本文主要讲一些Value 类型正文资源路径和资源内容 map ###函数签名:def map[U: ClassTag](f: T ? U): RDD[U] ###函数说明:将处 ...

分类：其他好文时间：2021-01-27 12:50:51 阅读次数：0

Spark实战(三)本地连接远程Spark(Python环境)

一、Python环境准备远程服务器上Python版本要与本地想匹配，这里本地使用Anaconda来进行安装，远程服务器之间安装。 wget --no-check-certificate https://www.python.org/ftp/python/3.6.7/Python-3.6.7.tgz ...

分类：编程语言时间：2021-01-25 11:30:39 阅读次数：0

Spark面试常见问题(一)--RDD基础

1 RDD基础知识 1.1 Spark的RDD五大特性 1.1.1 A list of partitions RDD是一个由多个partition（某个节点里的某一片连续的数据）组成的的List；将数据加载为RDD时，一般一个hdfs里的block会加载为一个partition。对于RDD来说，每 ...

分类：其他好文时间：2021-01-25 11:30:09 阅读次数：0

Trino总结

文章目录 1.Trino与Spark SQL的区别分析 2.Trino与Spark SQL解析过程对比 3.Trino基本概念 4.Trino架构 5.Trino SQL执行流程 6.Trino Task执行流程相关参考： 1.Trino与Spark SQL的区别分析 2.Trino与Spark ...

分类：其他好文时间：2021-01-22 12:05:01 阅读次数：0

Hive整合Hbase

HBase 虽然可以存储数亿或数十亿行数据，但是对于数据分析来说，不太友好，只提供了简单的基于 Key 值的快速查询能力，没法进行大量的条件查询。现有hbase的查询工具有很多如：Hive，Tez，Impala，Shark/Spark，Phoenix等。今天主要说Hive，Hive方便地提供了Hiv ...

分类：其他好文时间：2021-01-21 10:54:30 阅读次数：0

Spark学习--Structured Streaming

Structured Streaming Structured Streaming 是 Spark Streaming 的进化版 Spark 编程模型的进化过程总结 RDD 的优点面向对象的操作方式可以处理任何类型的数据 RDD 的缺点运行速度比较慢, 执行过程没有优化 API 比较僵硬, ...

分类：其他好文时间：2021-01-18 11:40:47 阅读次数：0

pyspark dataframe save into hive

# 先定义dataframe各列的数据类型 from pyspark.sql.types import *schema = StructType([ StructField("a", NullType(), True), StructField("b", AtomicType(), True), S ...

分类：其他好文时间：2021-01-18 11:29:36 阅读次数：0

共7976条上一页 1 ... 11 12 13 14 15 ... 798 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)