码迷,mamicode.com
首页 >  
搜索关键字:Parquet    ( 121个结果
为什么我们选择parquet
说明:此方案已经我们已经运行1年。 1、场景描述: 我们对客户登录日志做了数据仓库,但实际业务使用中有一些个共同点, A 需要关联维度表 B 最终仅取某个产品一段时间内的数据 C 只关注其中极少的字段 基于以上业务,我们决定每天定时统一关联维度表,对关联后的数据进行另外存储。各个业务直接使用关联后的 ...
分类:其他好文   时间:2016-05-08 11:40:04    阅读次数:195
Parquet与ORC性能测试报告
本文主要使用Hive引擎对比测试了两种业界较为认可的列式存储格式——ORC和Parquet,并使用Text存储格式做对比,设置了星状模型、扁平式宽表,嵌套式宽表等多种场景进行测试,以供感兴趣的同学参考。...
分类:其他好文   时间:2016-04-19 19:41:57    阅读次数:236
load、save方法、spark sql的几种数据源
load、save方法的用法 .save("hdfs://spark1:9000/peopleName_java"); parquet数据源: -》加载parquet数据 DataFrame usersDF = sqlContext.read().parquet("hdfs://spark1:900 ...
分类:数据库   时间:2016-04-04 18:09:54    阅读次数:287
列式存储 Parquet
1. ?最初创建Parquet的目的是:要在Hadoop生态系统中,充分利用数据压缩、有效列式存储的优势。Parquet面向复杂的嵌套数据结构,使用Dremel中的record shredding and assembly算法,其与简单命名空间嵌套的...
分类:其他好文   时间:2015-10-16 13:43:34    阅读次数:674
开源列式存储引擎Parquet和ORC
转载自董的博客 相比传统的行式存储引擎,列式存储引擎具有更高的压缩比,更少的IO操作而备受青睐(注:列式存储不是万能高效的,很多场景下行式存储仍更加高效),尤其是在数据列(column)数很多,但每次操作仅针对若干列的情景,列式存储引擎的性价比更高。 在互联网大数据应用场景下,大部分情况下,数据量很...
分类:其他好文   时间:2015-09-05 17:43:33    阅读次数:259
Spark入门实战系列--6.SparkSQL(下)--Spark实战应用
SparkSQL引入了一种新的RDD——SchemaRDD,SchemaRDD由行对象(Row)以及描述行对象中每列数据类型的Schema组成;SchemaRDD很象传统数据库中的表。SchemaRDD可以通过RDD、Parquet文件、JSON文件、或者通过使用hiveql查询hive数据来建立。SchemaRDD除了可以和RDD一样操作外,还可以通过registerTempTable注册成临时表,然后通过SQL语...
分类:数据库   时间:2015-08-31 10:08:08    阅读次数:377
Parquet 支持数据嵌套的列式数据存储格式
简介 ????????Apache Parquet 是一个列存储格式,主要用于 Hadoop 生态系统。对数据处理框架、数据模型和编程语言无关。Cloudera的大数据在线分析(OLAP)项目Impala中使用该格式作为列存储。 ?????...
分类:其他好文   时间:2015-06-17 11:45:57    阅读次数:159
基于spark1.3.1的spark-sql实战-01
OK !好久不见,大家都忙着各自的事情,me too, 博客也好久木有更新了,因为一直比较忙 spark sql 三个核心部分: 1. 可以加载各种结构化数据源(e.g., JSON, Hive, and?Parquet). 2. ?可以让你通过SQL ,spark ...
分类:数据库   时间:2015-05-19 15:07:52    阅读次数:369
基于spark1.3.1的spark-sql实战-01
OK !好久不见,大家都忙着各自的事情,me too, 博客也好久木有更新了,因为一直比较忙 spark sql 三个核心部分: 1. 可以加载各种结构化数据源(e.g., JSON, Hive, and Parquet). 2.  可以让你通过SQL ,spark 内部程序或者外部工具,通过标准的数据库连接(JDBC/ODBC)连接spark,比如一个商业智能的工具Tableau 3.当...
分类:数据库   时间:2015-05-19 14:49:14    阅读次数:297
spark sql中将数据保存成parquet,json格式
val df = sqlContext.load("/opt/modules/spark1.3.1/examples/src/main/resources/people.json","json")df.select("name","age").save("/opt/test/namesAndAges...
分类:数据库   时间:2015-05-18 16:07:42    阅读次数:355
121条   上一页 1 ... 9 10 11 12 13 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!