码迷,mamicode.com
首页 >  
搜索关键字:park    ( 616个结果
09 spark连接mysql数据库
spark连接mysql数据库 安装启动检查Mysql服务。netstat -tunlp (3306) spark 连接mysql驱动程序。 cd /usr/local/hive/lib ls mysql* cp mysql-connector-java-5.1.40-bin.jar /usr/lo ...
分类:数据库   时间:2021-06-02 19:08:19    阅读次数:0
09 spark连接mysql数据库
1. 安装启动检查Mysql服务。##netstat -tunlp (3306) cd /usr/local/hive/lib ls mysql* cp mysql-connector-java-5.1.40-bin.jar /usr/local/spark/jars/ cd /usr/local/ ...
分类:数据库   时间:2021-06-02 19:00:44    阅读次数:0
08 学生课程分数的Spark SQL分析
1.用DataFrame的操作或SQL语句完成以下数据分析要求: 2.总共有多少学生? 3.开设了多少门课程? 4.每个学生选修了多少门课? 5.每门课程有多少个学生选? 6.Tom选修了几门课?每门课多少分? 7.Tom的成绩按分数大小排序。 8.Tom的平均分。 9.每个分数+5分。 10.求每 ...
分类:数据库   时间:2021-05-24 16:49:50    阅读次数:0
07 从RDD创建DataFrame
1.pandas df 与 spark df的相互转换 df_s=spark.createDataFrame(df_p) df_p=df_s.toPandas() 2. Spark与Pandas中DataFrame对比 http://www.lining0806.com/spark%E4%B8%8E ...
分类:其他好文   时间:2021-05-24 08:28:14    阅读次数:0
Spark SQL 及其DataFrame的基本操作
1.Spark SQL出现的 原因是什么? Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个叫作Data Frame的编程抽象结构数据模型(即带有Schema信息的RDD),Spark SQL的前身是 Shark,由于 Shark过于依赖Hive,因此在版本迭代时很难添加新的 ...
分类:数据库   时间:2021-05-24 04:51:50    阅读次数:0
pyspark reduceByKey、groupByKey、groupBy、keyBy、subtractByKey 使用
reduceByKey、groupByKey rdd=sc. parallelize([("one",1),("two",1),("one",1),("one1",1)]) rdd. reduceByKey(lambda x,y:x). count() rdd1=sc. parallelize([( ...
分类:其他好文   时间:2021-04-29 12:20:10    阅读次数:0
使用Power BI构建数据仓库与BI
杀手级特性 今年Power BI的几大杀手级特性的GA,可以让其构建完整的数据仓库/数据湖和BI分析一站式方案。 Power BI Premium Per User-超低的价格 Large datasets in Power BI Premium-内置完整的SSAS引擎 Dataflows and ...
分类:其他好文   时间:2021-04-27 15:24:15    阅读次数:0
RDD练习:词频统计
一、词频统计: 1.读文本文件生成RDD lines 2.将一行一行的文本分割成单词 words flatmap() lines=sc.textFile("file:///usr/local/spark/mycode/wordcount/word.txt") words = lines.flatMa ...
分类:其他好文   时间:2021-04-06 15:08:22    阅读次数:0
spark中的持久化(cache()、persist()、checkpoint())
RDD持久化级别 | 持久化级别 | 含义解释 | | | | | MEMORY_ONLY | 使用未序列化的Java对象格式,将数据保存在内存中。如果内存不够存放所有的数据,则数据可能就不会进行持久化。那么下次对这个RDD执行算子操作时,那些没有被持久化的数据,需要从源头处重新计算一遍。这是默认的 ...
分类:系统相关   时间:2021-04-06 14:53:55    阅读次数:0
大数据总结
学习过得技术 HDFS YARN MR HIVE HBASE SPARK SPARK(sparkCore、sparkSql、sparkStreaming) HDFS 数据库管理、 存磁盘 Ha模式(在zookeeper之上) 联邦机制(把大象装进冰箱) split切片 Hbase 列式数据库 半结构 ...
分类:其他好文   时间:2021-04-05 12:37:34    阅读次数:0
616条   1 2 3 4 ... 62 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!