码迷,mamicode.com
首页 > Windows程序 > 详细

API brief(spark for scala )

时间:2017-10-01 10:04:08      阅读:224      评论:0      收藏:0      [点我收藏+]

标签:roc   header   group   marker   tin   spark   com   head   flat   

  • org.apache.hadoop.mapred.SequenceFileInputFormat<K,V>
  1. 获得FileStatus{block size+group+lenth+accesstime+modificationtime+owner+path+permission+symlink+Acl+一些判断是否目录等+序列化到out+set函数}
  2. 通过input获得RecordReader。将byte转为record-oriented,为下一步的MR准备。processing record boundaries and presenting the tasks with keys and values.。可{关闭InputSplit+创建key+创建value+返回目前input位置+从input中读取下一个k-v对}
  • org.apache.hadoop.io.SequenceFile
  1. flat files 由01k-v对组成。Writer Reader和Sorter 三部分。
  2. 基于CompressionType有三种writers,并shared a common header。compress的block size, 使用的algorithm都configurable。
  3. 推荐使用static createWriter
  4. format: Header Record sync-marker.    Header:version+calss of k,v +compression+blockcompression+compression codec+metadata+sync
  •  

API brief(spark for scala )

标签:roc   header   group   marker   tin   spark   com   head   flat   

原文地址:http://www.cnblogs.com/yumanman/p/7616626.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!