码迷,mamicode.com
首页 >  
搜索关键字:Parquet    ( 121个结果
spark之数据源之自动分区推断
在hadoop上创建目录/spark-study/users/gender=male/country=US/users.parquet(并且把文件put上去) code: package cn.spark.study.core.mycode_dataFrame; import org.apache. ...
分类:其他好文   时间:2016-07-20 01:07:17    阅读次数:1158
Parquet与ORC:高性能列式存储格式
背景随着大数据时代的到来,越来越多的数据流向了Hadoop生态圈,同时对于能够快速的从TB甚至PB级别的数据中获取有价值的数据对于一个产品和公司来说更加重要,在Hadoop生态圈的快速发展过程中,涌现了一批开源的数据分析引擎,例如Hive、Spark SQL、Impala、Presto等,同时也产生了多个高性能的列式存储格式,例如RCFile、ORC、Parquet等,本文主要从实现的角度上对比分析...
分类:其他好文   时间:2016-07-10 18:54:37    阅读次数:650
Parquet文件结构笔记
Parquet是面向分析型业务的列式存储格式,由Twitter和Cloudera合作开发,2015年5月从Apache的孵化器里毕业成为Apache顶级项目,那么这里就总结下Parquet数据结构到底是什么样的呢? 一个Parquet文件是由一个header以及一个或多个block块组成,以一个fo ...
分类:其他好文   时间:2016-06-06 23:44:57    阅读次数:207
分布式技术一周技术动态 2016.05.29
分布式系统实践 1. 网易视频云:新一代列式存储格式Parquet的最佳实践 https://mp.weixin.qq.com/s?__biz=MzI4NTA1MDEwNg==&mid=2650755579&idx=1&sn=640c55c7f2800be48271cdfb1880be99&scen ...
分类:其他好文   时间:2016-05-29 10:49:09    阅读次数:234
Hive ORC和Parquet
相比传统数据库的行式存储引擎,列式存储引擎具有更高的压缩比,更少的IO操作,尤其是在数据列很多,但每次操作仅针对若干列进行查询和计算的情景,列式存储引擎的性价比更高。 目前在开源实现中,最有名的列式存储引擎莫过于Parquet和ORC,并且他们都是Apache的顶级项目,在数据存储引擎方面发挥着重要的作用。 本文将重点讲解ORC文件存储格式,Parquet暂不深入说明,后续抽时间整理。...
分类:其他好文   时间:2016-05-22 12:25:37    阅读次数:230
网易视频云:新一代列式存储格式Parquet
网易视频云是网易倾力打造的一款基于云计算的分布式多媒体处理集群和专业音视频技术,提供稳定流畅、低时延、高并发的视频直播、录制、存储、转码及点播等音视频的PAAS服务,在线教育、远程医疗、娱乐秀场、在线金融等各行业及企业用户只需经过简单的开发即可打造在线音视频平台。现在,网易视频云的技术专家给大家分享一则技术文:新一代列式存储格式Parquet。 Apache Parquet是Hado...
分类:其他好文   时间:2016-05-18 18:32:23    阅读次数:980
网易视频云:新一代列式存储格式Parquet
网易视频云:新一代列式存储格式Parquet...
分类:其他好文   时间:2016-05-17 11:38:59    阅读次数:239
day63-Spark SQL下Parquet内幕深度解密
DT大数据梦工厂联系方式:新浪微博:www.weibo.com/ilovepains/微信公众号:DT_Spark博客:http://.blog.sina.com.cn/ilovepains一:sparkSQL 下的Parquet意义再思考存储空间包括:内存和磁盘,计算方面如果说HDFS是大数据时代分布式文件系统存储的事实标准的话,parquet则是整个大数据时代文件存储格式的事实标准。1、 速度...
分类:数据库   时间:2016-05-13 02:00:33    阅读次数:275
Spark-SparkSql
SparkSql 允许spark执行sql语句,hivesql,scala的描述的基于关系的查询。其实是封装了新的RDD-SchemaRDD,由行对象组成,有一个模式描述每列的数据类型。SchemaRDD与关系型数据库的表很相似,可以通过存在的RDD/Parquet文件/Json文件/用Hive中的数据HiveSql创建。其中相关功能入口是SQLContext()及其子类。 如HiveCon...
分类:数据库   时间:2016-05-12 19:53:55    阅读次数:240
Spark SQL和DataFrame的学习总结
1、DataFrame 一个以命名列组织的分布式数据集。概念上相当于关系数据库中一张表或在R / Python中的data frame数据结构,但DataFrame有丰富的优化。在spark 1.3之前,核心的新类型为RDD-schemaRDD,现改为DataFrame。spark 通过DataFrame操作大量的数据源,包括外部文件(如 json、avro、parquet、sequ...
分类:数据库   时间:2016-05-12 12:50:07    阅读次数:476
121条   上一页 1 ... 8 9 10 11 12 13 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!