R之内存管理

时间：2015-06-01 20:22:24 阅读：197 评论：0 收藏：0 [点我收藏+]

标签：

引言

R的内存管理机制究竟是什么样子的？最近几日在讲一个分享会，被同学问到这方面的问题，可是到网上去查，终于找到一篇R语言内存管理不过讲的不清不楚的，就拿memory.limit()函数来说，是在windows下才使用的，作者几乎没有提及，还有rm()，gc()函数到底怎么工作的，什么时候用，都无从提及。看来百度是解决不了了，关键时候还是靠google啊，这不，很快找到了一篇相当不错的文章Memory，还是人家外国人比较注重细节，下面的部分几乎是从那儿翻译过来的。需要学习R的高级编程的同学，可以下载Advanced R，本文属于其中的一个章节。另外值得一提的是在R语言实践一书中的附录G对于怎么高效编程，也有一些建议！大数据中怎么使用R，打算下篇博客来写。

Object size 查看对象在内存中占用的空间大小。
Memory used & garbage collection 主要介绍mem_used()和mem_changed()函数来阐述R内存的分配和释放的具体工作机制。
Memory profiling with lineprof 使用lineprof包，对代码运行中内存的分配和释放，以及花费的实践统计分析。
Modification in place 介绍R对象什么时候才会被拷贝？

准备工作

下面的部分要用到的包为pryr，lineprof，以及ggplot2包中的数据集，因此如果还没有安装的可以运行下面的代码安装：

install.packages("ggplot2")
install.packages("pryr")
devtools::install_github("hadley/lineprof")

1. Object size

这一节用到的第一个重要的函数为pryr包中的object_size(),这个函数返回R对象占用的内存空间。object_size()函数与object.size()相比，能够计算R对象内部共享部分的内存空间以及R对象的上下文环境的大小。下面的代码分别计算了vector，函数，数据集的大小，在R语言中函数也是一个对象。

> library(pryr)
> object_size(1:10)
#>88 B
> object_size(mean)
#>832 B
> object_size(mtcars)
#>6.74 kB

R对象所占资源内存的分配并不是线性的，例如一个空的向量被分配的资源并不是0，我们做下面的实验：

sizes <- sapply(0:50, function(n) object_size(seq_len(n)))
plot(0:50, sizes, xlab = "Length", ylab = "Size (bytes)", 
  type = "s")

技术分享

一个空的R对象分配到的内存空间并不是0，下面的代码充分说明了这一点：

> object_size(numeric())
#>40 B
> object_size(logical())
#>40 B
> object_size(raw())
#>40 B
> object_size(list())
#>40 B

40B大小的空间，到底存了哪些内容？主要分两大部分：

R空对象数据。

R对象的元数据(4 Bytes)，包括基础的数据类型（例如 integer）和用于调试和内存管理的一些信息数据。
两个指针(2*8 Bytes)，一个指针指向内存中的前一个对象，另外一个指针指向内存中下一个对象，由于是双指针的，所以使得循环变得简单。
一个指针指向attributes(8 Bytes)。

R向量对象额外的数据。

向量的大小信息(4 Bytes)，占用4Bytes空间，所能表示的最大的空间为2^4?×?8?−?1 (2³¹, 大约为2百万)，R3.0.0或者以后这个数可能更大，详细可以参见Read R-internals。
向量“True”的大小(4 Bytes)。这个数据一般都用不到，但是当向量用作hash表时，那么该值反映的是真正占用的大小。
数据块(?? Bytes)。对于空向量，该值为0；另外该值随着数据类型的不同，每个元素占用的长度不同，例如numeric为8 Bytes，integer为4 Bytes，复杂的向量为16 Bytes。

除去向量对象的数据块，我们计算一下空向量占用的大小为（4+2*8+8+4+4=36 Bytes），那么剩下的4 Bytes在哪里？熟悉C语言的人，可能会知道“字节填充”的概念，对于64位系统来说，系统访问内存最好为8 Bytes的边界，否则会访问两次才能访问到数据，造成不能在一个读周期内完全能读取到数据；另外考虑到不同的平台，可能访问规则不同，字节填充有利于平台的移植。如果你感兴趣，可以查阅C structure packing。

上面的部分解释了，空向量占用40 Bytes的原因。那么为什么上面图中向量的占用空间的大小，为什么不是线性的呢？原来是R申请内存空间函数（malloc()）是一个非常昂贵的操作，如果每次申请的空间都很小，会导致R比较慢。作为一种替代高效的方法，R每次申请一块空间（小于128 Bytes）作为池子，并自助维护，为了高效和简单，申请的空间大小为8, 16, 32, 48, 64, 或者128 Bytes。如果我们减去空对象占用的40 Bytes的空间，上面的图就会变成下面的那样：

>plot(0:50, sizes - 40, xlab = "Length", 
+   ylab = "Bytes excluding overhead", type = "s")
> abline(h=0,col="green")
> abline(h=c(8,16,32,48,64,128),col="green")
> abline(a=0,b=4,col="red",lwd=4)

技术分享

当向量的大小超过128 Bytes后，就不再需要R去管理了，对于操作系统而言，申请一个大的数据块，还是比较在行的。超过后，操作系统每次申请8 Bytes的倍数的空间。

R对象的内部部件可以与其他对象进行共享，我们看下面的代码：

> x <- 1:1e6
> object_size(x)
#>4 MB
> y <- list(x, x, x)
> object_size(y)
#>4 MB
>object.size(y)
#>12000192 bytes
>z<-list(rep(x,3))
>object_size(z)
#>12 MB
> y1=y[[1]]
> y11=y[1]
> address(x)
#[1] "0x73dee60"
> address(y1)
#[1] "0x73dee60"
> address(y11)
#[1] "0x1a4e7468"

y的实际大小并不是x的3倍，y并没有将x复制了三次，而是维护一个指针指向x，y1的地址和x的相同，而y11则不是，y[1]访问会重新申请一个新的空间。rep函数会重新复制和神奇你个空间，这也是z空间是y的3倍的原因；另外object.size(y)3倍于object_size函数，原因区别在于上面所说的那样。

如果y的内部数据变化了，情况会怎么样呢？看下面的代码：

> x<-1:1e6
> y<-list(x,x,x)
> y[[1]][1]=2
> y1=y[[1]]
> y2=y[[2]]
> address(x)
#[1] "0x1a5156f0"
> address(y2)
#[1] "0x1a5156f0"
> address(y1)
#[1] "0x6c3dc30"
> object_size(y)
#12 MB
> object_size(y1)
#8 MB
> object_size(x)
#4 MB

更改y第一部分，然后这部分的地址就发生了变化，大小居然变成了2倍；y的剩下的2部分数据，仍然指向原来的x。这就是所谓的“变化时拷贝”的概念，第四部分会重点介绍，那么令热纳闷的是，大小居然变大了一倍，我们看看它们的类型，原来是赋值之后，数值类型由integer变成了numeric：

> class(x)
#[1] "integer"
> class(y1)
#[1] "numeric"
> class(y[[1]])="integer"

这种情况仍然适用于字符串变量，R内部有一个全局的字符串池子，也就是说一个独特的字符串只存储了一份，所以字符串向量占用的空间大小，往往比想象的要小很多，例如：

> object_size("apple")
#96 B
> object_size(rep("apple",10))
#216 B

2. Memory used & garbage collection

object_size()告诉我们单个对象占用的内存大小，pryr::mem_used()可以给出R所有对象占用的内存大小：

> library(pryr)
> mem_used()
#59 MB

这个数字可能和操作系统报告给我们的不太一致，具体原因如下：

该函数返回R对象的空间大小，并不包括R的编译器等部分。
R和操作系统都是“懒惰”的，直到再次被用到，它们不会回收内存资源。在操作系统没有要求回收内存之前，R要一直占用已有的空间。
R计数的对象，可能会因为被删除存在间隙，也就是我们常说的“内存碎片”。

mem_change()函数给出一段执行语句下来，内存的变化情况，甚至在什么都不做的情况下，内存都会发生变化，那是因为R会跟踪用户做的操作，所以会保留下来操作的历史。对于内存改变在2KB左右的语句，几乎都可以忽略。

> mem_change(x<-1:1e6)
#4 MB
> mem_change(rm(x))
#-4 MB
> mem_change(NULL)
#1.68 kB

在一些语言中，有时候必须显式删除没用的对象去回收内存资源，R提供了一种选择：garbage collection 。可以人为调用gc()函数，其实大部分时候它能够自动运行，如果一个内存对象没有被任何其他对象引用，那么R就会自动回收它。在99%的时候都不需要人工去调用gc()函数，因为R一旦检测到没用的对象就会回收它，除非要人为告诉操作系统要回收内存资源，不过即使调用了也没什么差别，只是在老的windows版本中，没有一种方式将资源交还给操作系统。例如：

> mem_change(x<-1:1e6)
#4 MB
> mem_change(y<-x)
#1.62 kB
> mem_change(rm(x))
#1.62 kB
> mem_change(rm(y))
#-4 MB

学习过C/C++或者其他语言的人，可能对“内存泄露”或者“内存漏洞”不会陌生，内存泄露的产生往往是因为一个指向对象的指针始终都没有得到释放。那么在R中，往往存在2种方式可以导致内存泄露：formulas和closures，因为两者保存了上下文的环境信息，而这部分往往是没有用的，而且得不到释放。如下面例子所示，在函数f1内部，1:1e6并没有被返回，当函数执行完毕之后，函数内部变量占用的空间被释放，但是在函数f2和f3内部，返回值都包含了“环境”上下文信息，所以当函数结束之后，函数内部的空间作为返回值返回了，然而确是没有用的。

> f1<-function(){
+ x<-1:1e6
+ 10
+ }
> f2<-function(){
+ x<-1:1e6
+ a~b
+ }
> f3<-function(){
+ x<-1:1e6
+ function() 10
+ }
> mem_change(x<-f1())
#1.74 kB
> object_size(x)
#48 B
> mem_change(y<-f2())
#4 MB
> object_size(y)
#4 MB
> y
#a ~ b
#<environment: 0x1ab75660>
> mem_change(z<-f3())
#4 MB
> object_size(z)
#4 MB
> z
#function() 10
#<environment: 0x19cfd1a8>

3. Memory profiling with lineprof

4. Modification in place

R之内存管理

标签：

原文地址：http://www.cnblogs.com/wzyj/p/4544642.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行