【数据分析 R语言实战】学习笔记第四章数据的图形描述

时间：2015-05-17 00:33:48 阅读：321 评论：0 收藏：0 [点我收藏+]

标签：

4.1 R绘图概述

以下两个函数,可以分别展示二维,三维图形的示例:

>demo(graphics)

>demo(persp)

R提供了多种绘图相关的命令，可分成三类:

高级绘图命令：在图形设备上产生一个新的图区，它可能包括坐标轴、标签、标题等。

低级绘图命令：在一个己经存在的图形上加上更多的图形元素，如额外的点、线和标签。

交互式图形命令：允许交互式地用鼠标在一个已经存在的图形.上添加图形信息或者提取图形信息。

使用R语言作图，主要按照以下步骤进行:

①取原始数据，准备好绘图需要的变量。

②如有需要，对绘图区域进行设置、分割。

③绘制图形，例如创建坐标轴井绘制点图、曲线或其他类型的图。

④标注图形。对图形进行标注，包括在图形中添加标题、坐标轴标注、文字标注等。

⑤设置图形格式，添加图例。包括设置图形中的线宽、线型、颜色，标一记点的形状、大小、颜色，以及坐标轴格式等。

⑥保存和导出图形。按指定文件格式、属性保存或导出图形，以备以后使用。

4.2绘图区域分割

主要有三个函数par(), layout(), spiit.screen()可以完成图形区域的分割。

4.2.1函数par()

函数par() 可以将绘图区域分割成规则的几部分，例如par(mfrow=c(3,2))将图形区域分成3X2的多重图框，每块.显示一个图形，按行显示，也可以使用mfcol按列输入图形。

4.2.2函数layout（)

layout()内部的参数是一个矩阵(matrix )，其通过定义矩阵来灵活地将图形区域进行分割，matrix默认按列输入。

layout(mat, widths = rep.int(1,ncol(mat)),heights = rep.int(1, nrow(mat)), respect = FALSE)

mat为矩阵，用于设置窗口的划分，矩阵的0元素表示该位置不画图，非0元素必须包括从1开始的连续整数值，比如，1,2,...,N，按非0元素的大小设置图形的顺序。widths用来设置窗口不同列的宽度，heights设置不同行的高度。例如:

layout(matrix(1:4,2,2))#将绘图区域分成2X2的多重图框。

layout(matrix(c(1,3,2,3),2,2))#将图形区域分成三个不规则的区域。

技术分享

layout(matrix(c(1,1,2,3,2,3),2,3))#将图形区域分成如下的不规则区域。

分割完成后，通过指令layout.show(3)可以查看区域分割后的结构。要取消图形区域分割，输入指令layout(1)

4.2.3函数split.screen()

split.screen()同样由向量或矩阵灵活控制区域的分割方式。

>split.screen(c (2，1)) #释将图形区域分成上下两部分显示

[1] 1 2

>split.screen(c(1,2),screen=2)#将第二部分(下半区)又分割成两个区域

[1]3 4

>screen(1)#准备在第一个区域绘图

4.3二维图形

4.3.1高级绘图函数

1.函数plot()

plot()是最常用的高级绘图函数，这是一个泛型函数，其产生的图形依赖于参数的类型。

技术分享

其他高级绘图函数：

技术分享

高级绘图函数的参数设置：

技术分享

函数hist()

hist(x, breaks = "Sturges",freq = NULL,probability= !freq,include.lowest = TRUE, right = TRUE,density = NULL, angle = 45, col = NULL, border = NULL,main = paste("Histogram of" , xname),xlim = range(breaks), ylim = NULL,xlab = xname, ylab,axes = TRUE, plot = TRUE, labels = FALSE,nclass = NULL, warn.unused = TRUE, ...)

技术分享

4 .3.2多元数据绘图

技术分享

> data(warpbreaks)

> coplot(breaks~1:54|wool*tension,data=warpbreaks,col="red",bg="pink",pch=21,bar.bg=c(fac="lightblue"))

技术分享

4.3.3低级绘图函数

利用高级函数画出基本图形后，可使用低级绘图函数添加新的图形元素，如点、图例、标鉴等

技术分享

4 .3.4图形美化

技术分享

4.3.5交互式绘图命令

R的交互式函数允许用户直接用鼠标在一个图上提取和提交信息，最简单、最常用的函数是:

Locator(n,type="n",…)

> x=rnorm(10)

> plot(x)

> locator(5,"o",col="red")

$x

[1] 1.929092 4.018157 6.998556 10.034663

[5] 7.945598

$y

[1] 1.21499224 0.97074910 0.43574030

[4] 0.05192964 -0.70406106

技术分享

R中另一个比较有意思的交互函数是identify()它用于在散点图中找出点。输入它之后，系统读取在图中鼠标按下时指针的坐标位置，然后搜索(x,y)指定的坐标点，如果这一点足够接近指针的位置，那么将在图中返回指定的图形元素。 identify(x, y, labels，…)

4.4三维图形

R中绘制三维图形的基本函数有三个，分别为:

image(x,y,z)，产生长方形的网格，以不同颜色表示z的值。

contour(x,y,z)，以等高线表示z的值。

persp(x,y,z),产生3D表面。

4.5 lattice程序包

lattice适用于多个变量的数据集绘图，其中的大部分函数是以一个公式作为主要的自变量.

例如y~x|z表示绘制Y关于x的图，并以变量z为分类依据，画出多个图。

技术分享

> library(ggplot2)

> library(lattice)

> data(diamonds,package="ggplot2")

> sample=diamonds[sample(nrow(diamonds),1000),]

> xyplot(price~carat,data=sample,groups=cut,auto.key=list(corner=c(1,0)),type=c("p","smooth"),span=.7,main="PriceVS. Carat")

技术分享

为了更好地按某一分类变量去比较数据，有些时候也需要分割图形区域。使用lattice绘图时，分割绘图区域的操作变得很简单，只要设置参数layout即可。lattice中含有绘制三维图形的函数，其中cloud()用于绘制三维散点图，与plot3d()效果相似，但可以进行分组绘图:wireframe()用于绘制3D表面图，它与基础包中的persp()效果相似。

> x=seq(-pi,pi,len=20)

> y=seq(-pi,pi,len=20)

> g=expand.grid(x=x,y=y)

> g$z=sin(sqrt(g$x^2+g$y^2))

> wireframe(z~x*y,data=g,drape=TRUE,aspect=c(3,1),colorkey=TRUE,main=expression(z=sin(sqrt(g$x^2+g$y^2))))

技术分享

4.6 ggplot2程序包

ggplot2是R中用于绘图的高级程序包，它将绘图视为一种映射—数学空问到图形元索空间的映射，例如将不同的数值映射为不同的颜色或其他图形属性。ggplot2在画图时就是采用了类似photoshop的图层设计方式，允许用户一步步构建图形，并且便于图层的修改。

4.6.1快速绘图

qplot(x, y = NULL, ..., data, facets =NULL, margins = FALSE,geom = "auto", stat = list(NULL), position =list(NULL), xlim = c(NA,NA), ylim = c(NA, NA), log = "", main = NULL,xlab= deparse(substitute(x)), ylab = deparse(substitute(y)), asp = NA)

以diamonds数据集为例:

> sample=diamonds[sample(nrow(diamonds),200),]

> qplot(carat,price,data=sample,shape=cut,color)

技术分享

在上述散点图中添加一条平滑曲线,通过method参数可以指定曲线拟合的方法，默认为method="loess"--平滑局部回归。参数span控制曲线的平滑程度，取值越大曲线越平滑。

> qplot(carat,price,data=sample,geom=c("point","smooth"),span=.3)

技术分享

使用qplot()对变量carat画出更美观的直方图:

> qplot(carat,data=diamonds,geom="histogram",binwidth=.1,xlim=c(0,3),fill=color)

技术分享

4.6.2分图层绘图

(1)数据和映射

ggplot(data，mapping=aes(x，y, <otheraesthetics>))

其中，data指定数据集:参数mapping用于构建映射，通常使用函数aes( )来指变量，还可以指定其他分类变量，如颜色，形状，大小等。

> sample=diamonds[sample(nrow(diamonds),1000),]

>p=ggplot(data=sample,mapping=aes(x=carat,y=price,color=clarity))#定义的第一图层存储于p中

(2)几何对象

基本图层确定了数据源和映射后，通过加号(+)就可以不断地添加新图层.第二图层添加几何对象类的函数，在图中绘制图形元素其他类型的图形，如直方图、箱线图等。如点、线、多边形等，还可以用来绘制.

技术分享

上面函数内部的基本参数都是一样的。以散点图为例:

geom_point(mapping=NULL,data=NULL,stat=”identity”,position=”identity”,na.rm=FALSE,…)

参数mapping用于构建映射，data指定数据集，如果在第一图层己经指定，则可以省略:stat用于这一层数据的统计变换:position用于这一层图形的位置调整，常用于条形图(bar)和直方图，取值为“identity”时表示直接显示，" dodge”为按分类变量并列放置，" stack”为堆叠放置，"fill”显示相对比例;" jitter”为增加扰动，常用于散点图，防止图形过分重叠。

> p+geom_point()+geom_smooth()

技术分享

对上面的图形进行整体平滑:

> p=ggplot(data=sample,aes(x=carat,y=price))

> p+geom_point(aes(color=clarity))+geom_smooth()

技术分享

进行数据映射时，函数aes()可用于设置图形样式，通过参数color,shape和size分别设置点的颜色、形状和大小按哪些向量分类，通过这些参数，即使一个简单的散点图也可以传递大量信息。

>sample=diamonds[sample(nrow(diamonds),100),]

>p=ggplot(data=sample,aes(x=carat,y=price))

>p+geom_point(aes(color=color,shape=cut,size=clarity),alpha=.5,position="jitter")

技术分享

(3)标度

标度负责控制图形属性的显示方式，主要包括设置坐标轴刻度，修改颜色取值、图例样式等。使用标度类的函数，相当于添加一个新的图层，因此仍然用“+”连接函数，除了基本图层ggplot()其他图层的设置都可以应用于函数qplot()

设置坐标轴样式的标度函数一般以“scale x"开头

技术分享

(4)统计变换

统计变换函数以“stat”开头，它们可以对原始数据进行某种函数变换，是非常重要的功能。我们可以自定义函数，基于原始数据计算并在图上表现出来，也可以通过它们改变“geom_函数画图的默认统计参数。

例如用stat_smooth对数据作loess平滑，在carat-price散点图上添加非线性回归线。

> sample=diamonds[sample(nrow(diamonds),1000),]

> ggplot(sample,aes(x=carat,y=price))+geom_point()+scale_y_log10()+stat_smooth()

第二图层添加散点;第三图层对Y轴作log10变换;第四图层添加平滑的统计变换

(5)分面

当我们想要观察某一分类变量对数据的影响情况时，仅通过shape, color区分是不够的，需要根据变量的不同取值进行分组、分别绘图。这时就要用到facet数，它控制数据分组的方法和排列形式，进行条件绘图。

常用的函数是facet_wrap(~x, ncol)，其中x表示分组变量，ncol表示图形的排列方式，即分成几列。也可以用facet_grid(x~.)替代。

> ggplot(sample,aes(x=carat,y=price))+geom_point(aes(colour=cut))+scale_y_log10()+stat_smooth()+facet_wrap(~cut,ncol=3)

技术分享

(6)坐标系统

技术分享

4.7图形保存

完成绘图后，最后一步是按照指定文件格式、属性保存和导出图形，以备以后使用。R绘制好的图可以保存成多种格式，对应的生成函数名即它的扩展名。可生成的文件格式有png jpeg和pdf:

png(file="myplot.png”，bg="transparent")

jpeg(file="myplot.jpeg”)

pdf(file="myplot.pdf”)

生成文件后，默认在后台扫一开，所以查看图形文件前需要用dev.off()关闭文件

此外，程序包ggplot2中的函数ggsave()也用于保存图形，并且可以指定为不同的文件类型。

ggsave(filename=default_name (plot)，plot=last_plot()，

device=default_device(filename)，path=NULL, scale=1，…)

filename指定生成文件的路径、名称及扩展名，文件路径也可以通过path设置;plot填写图形对象，默认为最后显示的图形:device指定要使用的设备，自动提取文件扩展名;scale为比例因子。将上面的饼图保存成一个pdf文件，只需要一条简单的指令就可以完成。

>ggsave(filename="d:/data/pie.pdf")

这样就生成了一个pdf文件，还可把图形保存成.png格式。

技术分享

【数据分析 R语言实战】学习笔记第四章数据的图形描述

标签：

原文地址：http://www.cnblogs.com/jpld/p/4508863.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行

【数据分析 R语言实战】学习笔记 第四章 数据的图形描述

【数据分析 R语言实战】学习笔记第四章数据的图形描述