码迷,mamicode.com
首页 >  
搜索关键字:spark streaming jobscheduler    ( 7564个结果
10个优秀的数据挖掘工具,一定不要错过
在机器学习的流程中数据挖掘是重要的一环。数据挖掘是从大量数据中提取隐藏的或未知,但可能有用信息的过程。今天给大家介绍10个最强的数据挖掘工具,欢迎小伙伴们收藏起来。1.KNIMEKNIME可以完成常规的数据分析,进行数据挖掘,常见的数据挖掘算法,如回归、分类、聚类等等都有。而且它引入很多大数据组件,如Hive,Spark等等。它还通过模块化的数据流水线概念,集成了机器学习和数据挖掘的各种组件,能够
分类:其他好文   时间:2020-08-24 16:32:14    阅读次数:59
知识汇总之大数据(1)
1.mapReduce 的shuffle 过程 : https://www.iteye.com/blog/langyu-992916 2.spark streaming : https://www.jianshu.com/p/0691204282ab CAS的理解? https://www.jian ...
分类:其他好文   时间:2020-08-13 12:10:50    阅读次数:53
CDH开启kerberos后在第三方机器上部署Spark程序问题解决
一、概述 当CDH平台开启kerberos后,需要kdc服务验证通过和kerberos协议验证通过才可以。如果将spark程序部署在CDH 机器上,直接在生成keytab并使用principal登录kerberos即可。 如果当spark应用程序部署在第三方机器上时,还需要处理krb5.conf注册 ...
分类:其他好文   时间:2020-08-13 12:07:11    阅读次数:88
Spark-RDD-基本介绍
1.定义 RDD是只读的记录分区的集合,是一种基于工作集的应用抽象 创建RDD的方式有两种: 从驱动程序中的集合中并行创建 从外部数据集创建 2.底层存储原理 每个RDD的数据以Block的形式存储在多个机器上,对于每个Executor都会启动一个BlockManagerSlave,并且管理一部分B ...
分类:其他好文   时间:2020-08-08 00:33:32    阅读次数:73
Spark(十一)【SparkSQL的基本使用】
一. SparkSQL简介 Spark SQL是Spark用于结构化数据(structured data)处理的Spark模块。 Dremel > Drill(Apache) >Impala(Cloudrea) Presto(Hotonworks) Hive > Shark(对Hive的模仿,区别在 ...
分类:数据库   时间:2020-08-07 21:45:52    阅读次数:79
Spark-Streaming结合Redis
1、JedisConnectionPool.scala package sparkstreaming import redis.clients.jedis.{Jedis, JedisPool, JedisPoolConfig} object JedisConnectionPool{ val conf ...
分类:其他好文   时间:2020-08-07 18:03:42    阅读次数:62
spark sql/hive小文件问题
针对hive on mapreduce 1:我们可以通过一些配置项来使Hive在执行结束后对结果文件进行合并: 参数详细内容可参考官网:https://cwiki.apache.org/confluence/display/Hive/Configuration+Properties 1 2 3 4 ...
分类:数据库   时间:2020-08-03 19:56:21    阅读次数:103
Spark 数据处理相关代码
<dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.11</artifactId> <version>2.3.3</version> </dependency> <!-- https://mvnrepos ...
分类:其他好文   时间:2020-07-29 09:53:42    阅读次数:61
《hadoop 集群搭建、spark安装、Hbase安装、Hive安装、Kafka安装》
1 hadoop集群安装 https://blog.csdn.net/shshheyi/article/details/84893371 1.1 修改主机名 [root@localhost ~]# vim /etc/hosts # 三台机器都需要操作 192.168.28.131 master 19 ...
分类:其他好文   时间:2020-07-29 00:41:18    阅读次数:111
spark系列之基本概念
Spark的架构图 1、RDD(弹性分布式数据集) RDD是对象的分布式集合。 RDD以并行方式应用和记录数据转换 RDD也提供数据沿袭——以图形形式给出每个中间步骤的祖先树,当RDD的一个分区丢失,可以根据祖先树重建该分区。 RDD有两组操作,转换(transformation)和行动(actio ...
分类:其他好文   时间:2020-07-28 22:37:30    阅读次数:72
7564条   上一页 1 ... 18 19 20 21 22 ... 757 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!