码迷,mamicode.com
首页 >  
搜索关键字:sparksql    ( 306个结果
Catalyst Optimizer优化器
Spark SQL的优化器Catalyst是易于扩展的。它同时支持基于规则(rule-based)和基于代价(cost-based)的优化方法。在它内部,Catalyst包含了一个表示树和操作树的规则的通用库。在此框架下,目前实现了针对关系查询处理(如,表达式,逻辑查询计划)的库,和在处理查询执行不同阶段(分析,逻辑优化,物理优化,代码生成)的一些规则。Tree在Catalyst主要的数据类型就是由...
分类:其他好文   时间:2015-04-17 11:18:59    阅读次数:206
孙其功陪你学之——Spark 正则化和SparkSQL
本博文程序是读取hadoop的hdfs中的文件,使用正则化解析出规定格式的数据,然后加载到sparkSQL数据库中。 正则化如果不太了解,请看正则表达式30分钟入门教程 package com.spark.firstApp import org.apache.spark.SparkContext import org.apache.spark._ import org.apache.lo...
分类:数据库   时间:2015-04-16 15:47:50    阅读次数:243
SparkSQL 初步应用
最近项目中使用SparkSQL来做数据的统计分析,闲来就记录下来。 直接上代码: importorg.apache.spark.SparkContext importorg.apache.spark.sql.SQLContext objectSparkSQL{ //定义两个caseclassA和B: //A是用户的基本信息:包括客户号、***号和性别 //B是用户的交易信息..
分类:数据库   时间:2015-04-15 15:00:49    阅读次数:565
Apache Zeppelin简介
Zeppelin是一个Apache的孵化项目,一个多用途笔记本。(类似于ipython notebook,可以直接在浏览器中写代码、笔记并共享) 可实现你所需要的: - 数据采集 - 数据发现 - 数据分析 - 数据可视化和协作支持多种语言,默认是scala(背后是spark shell),SparkSQL, Markdown 和 Shell。 甚至可以添加自己的语言支持。如何写一个...
分类:Web程序   时间:2015-04-01 13:23:03    阅读次数:329
Homework 2: UDF Caching in Spark
为spark编写UDFcache:作业介绍https://github.com/cs186-spring15/course/tree/master/hw2我花了点时间做了下,觉得是学习sparksql和scala的好材料。现在把我写的作业记录如下:Task#1:ImplementingDiskPartitionandGeneralDiskHashedRelationTask#2:ImplementingobjectDiskHa..
分类:其他好文   时间:2015-03-05 15:01:48    阅读次数:306
SparkSQL简易入门
SparkSQL操作文本文件val sqlContext = new org.apache.spark.sql.SQLContext(sc)import sqlContext._case class PageViews(track_time: String, url: String, session...
分类:数据库   时间:2015-01-09 10:29:50    阅读次数:732
SparkSQL External Datasource简易使用之AVRO
下载源码&编译:git clone https://github.com/databricks/spark-avro.gitsbt/sbt packageMaven GAV:groupId: com.databricks.sparkartifactId: spark-avro_2.10version...
分类:数据库   时间:2014-12-24 11:31:53    阅读次数:305
SparkSQL External Datasource简易使用之CSV
下载源码&编译:git clone https://github.com/databricks/spark-csv.gitsbt/sbt packageMaven GAV:groupId: com.databricks.sparkartifactId: spark-csv_2.10version: ...
分类:数据库   时间:2014-12-24 11:27:55    阅读次数:514
spark1.2.0版本SparkSQL使用parquet类型注意事项
在Spark1.2.0版本中是用parquet存储类型时注意事项:sql语句:select * from order_created_dynamic_partition_parquet;在spark-sql中执行结果:2014-05 [B@4621484a [B@3311163e2014-0...
分类:数据库   时间:2014-12-23 19:17:22    阅读次数:326
一天征服Spark!
Spark是当今大数据领域最活跃最热门的高效的大数据通用计算平台,基于RDD,Spark成功的构建起了一体化、多元化的大数据处理体系,在“OneStacktorulethemall”思想的引领下,Spark成功的使用SparkSQL、SparkStreaming、MLLib、GraphX近乎完美的解...
分类:其他好文   时间:2014-12-23 06:41:54    阅读次数:192
306条   上一页 1 ... 26 27 28 29 30 31 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!