为spark编写UDFcache:作业介绍https://github.com/cs186-spring15/course/tree/master/hw2我花了点时间做了下,觉得是学习sparksql和scala的好材料。现在把我写的作业记录如下:Task#1:ImplementingDiskPartitionandGeneralDiskHashedRelationTask#2:ImplementingobjectDiskHa..
分类:
其他好文 时间:
2015-03-05 15:01:48
阅读次数:
306
目前没有实现,理一下思路,有3中途径:1:spark core可以使用sequoiadb最为数据源,那么是否spark sql可以直接操作sequoiadb。 (感觉希望不大,)2: spark sql支持Hive, sequoiadb可以和hive做对接,那么是否可以通过HIveContext ....
分类:
数据库 时间:
2015-01-17 15:10:37
阅读次数:
511
SparkSQL操作文本文件val sqlContext = new org.apache.spark.sql.SQLContext(sc)import sqlContext._case class PageViews(track_time: String, url: String, session...
分类:
数据库 时间:
2015-01-09 10:29:50
阅读次数:
732
下载源码&编译:git clone https://github.com/databricks/spark-avro.gitsbt/sbt packageMaven GAV:groupId: com.databricks.sparkartifactId: spark-avro_2.10version...
分类:
数据库 时间:
2014-12-24 11:31:53
阅读次数:
305
下载源码&编译:git clone https://github.com/databricks/spark-csv.gitsbt/sbt packageMaven GAV:groupId: com.databricks.sparkartifactId: spark-csv_2.10version: ...
分类:
数据库 时间:
2014-12-24 11:27:55
阅读次数:
514
在Spark1.2.0版本中是用parquet存储类型时注意事项:sql语句:select * from order_created_dynamic_partition_parquet;在spark-sql中执行结果:2014-05 [B@4621484a [B@3311163e2014-0...
分类:
数据库 时间:
2014-12-23 19:17:22
阅读次数:
326
Spark是当今大数据领域最活跃最热门的高效的大数据通用计算平台,基于RDD,Spark成功的构建起了一体化、多元化的大数据处理体系,在“OneStacktorulethemall”思想的引领下,Spark成功的使用SparkSQL、SparkStreaming、MLLib、GraphX近乎完美的解...
分类:
其他好文 时间:
2014-12-23 06:41:54
阅读次数:
192
课程介绍本课程是世界上第一Spark企业级最佳实践课程,课程包含:Spark的架构设计;Spark编程模型;Spark内核框架源码剖析;Spark的广播变量与累加器;Shark的原理和使用;Spark的机器学习;Spark的图计算GraphX;SparkSQL;Spark实时流处理;Spark程序的...
分类:
其他好文 时间:
2014-12-23 06:40:31
阅读次数:
216
Spark是当今大数据领域最活跃最热门的高效的大数据通用计算平台,基于RDD,Spark成功的构建起了一体化、多元化的大数据处理体系,在“OneStacktorulethemall”思想的引领下,Spark成功的使用SparkSQL、SparkStreaming、MLLib、GraphX近乎完美的解...
分类:
其他好文 时间:
2014-12-23 06:39:55
阅读次数:
217
课程介绍本课程是世界上第一Spark企业级最佳实践课程,课程包含:Spark的架构设计;Spark编程模型;Spark内核框架源码剖析;Spark的广播变量与累加器;Shark的原理和使用;Spark的机器学习;Spark的图计算GraphX;SparkSQL;Spark实时流处理;Spark程序的...
分类:
其他好文 时间:
2014-12-20 02:09:20
阅读次数:
227