搜索关键字：Parquet，搜索到121个结果！码迷,mamicode.com！

为什么我们选择parquet

说明：此方案已经我们已经运行1年。 1、场景描述：我们对客户登录日志做了数据仓库，但实际业务使用中有一些个共同点， A 需要关联维度表 B 最终仅取某个产品一段时间内的数据 C 只关注其中极少的字段基于以上业务，我们决定每天定时统一关联维度表，对关联后的数据进行另外存储。各个业务直接使用关联后的 ...

分类：其他好文时间：2016-05-08 11:40:04 阅读次数：195

Parquet与ORC性能测试报告

本文主要使用Hive引擎对比测试了两种业界较为认可的列式存储格式——ORC和Parquet，并使用Text存储格式做对比，设置了星状模型、扁平式宽表，嵌套式宽表等多种场景进行测试，以供感兴趣的同学参考。...

分类：其他好文时间：2016-04-19 19:41:57 阅读次数：236

load、save方法、spark sql的几种数据源

load、save方法的用法 .save("hdfs://spark1:9000/peopleName_java"); parquet数据源： -》加载parquet数据 DataFrame usersDF = sqlContext.read().parquet("hdfs://spark1:900 ...

分类：数据库时间：2016-04-04 18:09:54 阅读次数：287

列式存储 Parquet

1. ?最初创建Parquet的目的是：要在Hadoop生态系统中，充分利用数据压缩、有效列式存储的优势。Parquet面向复杂的嵌套数据结构，使用Dremel中的record shredding and assembly算法，其与简单命名空间嵌套的...

分类：其他好文时间：2015-10-16 13:43:34 阅读次数：674

开源列式存储引擎Parquet和ORC

转载自董的博客相比传统的行式存储引擎，列式存储引擎具有更高的压缩比，更少的IO操作而备受青睐（注：列式存储不是万能高效的，很多场景下行式存储仍更加高效），尤其是在数据列（column）数很多，但每次操作仅针对若干列的情景，列式存储引擎的性价比更高。在互联网大数据应用场景下，大部分情况下，数据量很...

分类：其他好文时间：2015-09-05 17:43:33 阅读次数：259

Spark入门实战系列--6.SparkSQL（下）--Spark实战应用

SparkSQL引入了一种新的RDD——SchemaRDD，SchemaRDD由行对象（Row）以及描述行对象中每列数据类型的Schema组成；SchemaRDD很象传统数据库中的表。SchemaRDD可以通过RDD、Parquet文件、JSON文件、或者通过使用hiveql查询hive数据来建立。SchemaRDD除了可以和RDD一样操作外，还可以通过registerTempTable注册成临时表，然后通过SQL语...

分类：数据库时间：2015-08-31 10:08:08 阅读次数：377

Parquet 支持数据嵌套的列式数据存储格式

简介 ????????Apache Parquet 是一个列存储格式，主要用于 Hadoop 生态系统。对数据处理框架、数据模型和编程语言无关。Cloudera的大数据在线分析（OLAP）项目Impala中使用该格式作为列存储。 ?????...

分类：其他好文时间：2015-06-17 11:45:57 阅读次数：159

基于spark1.3.1的spark-sql实战－01

OK ！好久不见，大家都忙着各自的事情，me too, 博客也好久木有更新了，因为一直比较忙 spark sql 三个核心部分： 1. 可以加载各种结构化数据源(e.g., JSON, Hive, and?Parquet). 2. ?可以让你通过SQL ,spark ...

分类：数据库时间：2015-05-19 15:07:52 阅读次数：369

基于spark1.3.1的spark-sql实战－01

OK ！好久不见，大家都忙着各自的事情，me too, 博客也好久木有更新了，因为一直比较忙 spark sql 三个核心部分： 1. 可以加载各种结构化数据源(e.g., JSON, Hive, and Parquet). 2. 可以让你通过SQL ,spark 内部程序或者外部工具，通过标准的数据库连接(JDBC/ODBC)连接spark，比如一个商业智能的工具Tableau 3.当...

分类：数据库时间：2015-05-19 14:49:14 阅读次数：297

spark sql中将数据保存成parquet,json格式

val df = sqlContext.load("/opt/modules/spark1.3.1/examples/src/main/resources/people.json","json")df.select("name","age").save("/opt/test/namesAndAges...

分类：数据库时间：2015-05-18 16:07:42 阅读次数：355

共121条上一页 1 ... 9 10 11 12 13 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)