Spark数据本地性

时间：2014-08-02 01:47:22 阅读：218 评论：0 收藏：0 [点我收藏+]

标签：style blog http color strong 文件数据 for

1、文件系统本地性

　　第一次运行时数据不在内存中，需要从HDFS上取，任务最好运行在数据所在的节点上；

2、内存本地性

　　第二次运行，数据已经在内存中，所有任务最好运行在该数据所在内存的节点上；

3、LRU置换

　　如果数据只缓存在内存中而并没有缓存到磁盘上，此时数据被置换出内存，则从HDFS上读取；

　　如果数据不仅缓存到内存而且还缓存到磁盘上，此时数据被置换出内存，则从磁盘上直接读取；

BlockManage.scala

putBlockInfo.synchronized {
      var marked = false
      try {
        if (level.useMemory) {
          // Save it just to memory first, even if it also has useDisk set to true; we will
          // drop it to disk later if the memory store can‘t hold it.
          val res = data match {
        ...
        }
          size = res.size
          res.data match {
            case Right(newBytes) => bytesAfterPut = newBytes
            case Left(newIterator) => valuesAfterPut = newIterator
          }
          // Keep track of which blocks are dropped from memory
          res.droppedBlocks.foreach { block => updatedBlocks += block }
        }
......

注：只要设置了内存存储，即使也设置了磁盘存储，也只会先存在内存中，不是一开始就存放在磁盘上，只有当内存不够时才会置换到磁盘上去；

详情参照：http://download.csdn.net/detail/u013424982/7191967

Spark数据本地性,布布扣,bubuko.com

Spark数据本地性

标签：style blog http color strong 文件数据 for

原文地址：http://www.cnblogs.com/luogankun/p/3886079.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行