码迷,mamicode.com
首页 > 编程语言 > 详细

《R语言实战》读书笔记--第二章 创建数据集

时间:2015-08-04 17:10:13      阅读:192      评论:0      收藏:0      [点我收藏+]

标签:

2.1数据集的概念

变量的类型是不同的,比如标示符、日期变量、连续变量、名义变量、有序型变量等,记得数据挖掘导论中有专门的描述。

R可以处理的数据类型包括了数值型、字符型、逻辑型、复数型(虚数)、原生型(字节)

2.2数据结构

R拥有很多存储数据的对象类型,包括 标量、向量、矩阵、数组、数据框、列表。它们可以用下图表示:

技术分享

因子是R中的名义型或者有序型变量,比较特殊。

2.2.1向量

标量是只有一个元素的向量,一般用来保存常量。其他没什么说的。

2.2.2矩阵

矩阵创建函数:

matrix(data = NA, nrow = 1, ncol = 1, byrow = FALSE   , # 注意默认按列进行填充
    dimnames = NULL or(dimnames = list(rowname,colname))

关于矩阵的各种运算法则,书上没写,自己也不怎么会,因为用的不多现在,用的时候看就行了,网上一堆。

2.2.3数组

貌似自己用到的不多,array函数:

array(data = NA, dim = length(data), dimnames = NULL) 
#data是填充向量,dim是维数向量,dimnames是名称

记得有个函数是用来对行或者列进行边际求和的,margin.table等,用的时候自行百度吧再。

2.2.4数据框

书上说这是最常用的数据类型了,确实用的比较多。数据框创建函数data.frame:

data.frame(..., row.names = NULL, check.rows = FALSE,
           check.names = TRUE,
           stringsAsFactors = default.stringsAsFactors())
#check.rows 用来检查行的名称和数量是否一致,check.names 来检查变量(列)的名称是否唯一且符合语法,最后一项是用来描述是否将字符型向量自动转换为因子,默认转换,改变的话stringsAsFactors = FALSE即可。

注意数据框也是按列生成,每一列的数据类型必须一致。

好吧……看到了数据框的下标引用,自己试了试,发现一个trick,见下图:

技术分享

 

上面的是一个数据框,请看下面的实验:

技术分享

可以看出,数据框后面引用一个数字,代表直接引用了第几列,得到数据框;按照矩阵的方式去引用列的话,得到的是一个向量!!而用矩阵的方式引用行,得到的是数据框。R语言经常碰到这样的蛋疼情况,要十分注意。当然可以用$符号+列名引用某列(ps.中文状态下4的上面是¥,美元换成人民币…).

下面是几个函数,没用过。学一下:

1、

《R语言实战》读书笔记--第二章 创建数据集

标签:

原文地址:http://www.cnblogs.com/batteryhp/p/4702502.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!