标签:
2.1数据集的概念
变量的类型是不同的,比如标示符、日期变量、连续变量、名义变量、有序型变量等,记得数据挖掘导论中有专门的描述。
R可以处理的数据类型包括了数值型、字符型、逻辑型、复数型(虚数)、原生型(字节)。
2.2数据结构
R拥有很多存储数据的对象类型,包括 标量、向量、矩阵、数组、数据框、列表。它们可以用下图表示:
因子是R中的名义型或者有序型变量,比较特殊。
2.2.1向量
标量是只有一个元素的向量,一般用来保存常量。其他没什么说的。
2.2.2矩阵
矩阵创建函数:
matrix(data = NA, nrow = 1, ncol = 1, byrow = FALSE , # 注意默认按列进行填充 dimnames = NULL or(dimnames = list(rowname,colname))
关于矩阵的各种运算法则,书上没写,自己也不怎么会,因为用的不多现在,用的时候看就行了,网上一堆。
2.2.3数组
貌似自己用到的不多,array函数:
array(data = NA, dim = length(data), dimnames = NULL)
#data是填充向量,dim是维数向量,dimnames是名称
记得有个函数是用来对行或者列进行边际求和的,margin.table等,用的时候自行百度吧再。
2.2.4数据框
书上说这是最常用的数据类型了,确实用的比较多。数据框创建函数data.frame:
data.frame(..., row.names = NULL, check.rows = FALSE, check.names = TRUE, stringsAsFactors = default.stringsAsFactors()) #check.rows 用来检查行的名称和数量是否一致,check.names 来检查变量(列)的名称是否唯一且符合语法,最后一项是用来描述是否将字符型向量自动转换为因子,默认转换,改变的话stringsAsFactors = FALSE即可。
注意数据框也是按列生成,每一列的数据类型必须一致。
好吧……看到了数据框的下标引用,自己试了试,发现一个trick,见下图:
上面的是一个数据框,请看下面的实验:
可以看出,数据框后面引用一个数字,代表直接引用了第几列,得到数据框;按照矩阵的方式去引用列的话,得到的是一个向量!!而用矩阵的方式引用行,得到的是数据框。R语言经常碰到这样的蛋疼情况,要十分注意。当然可以用$符号+列名引用某列(ps.中文状态下4的上面是¥,美元换成人民币…).
下面是几个函数,没用过。学一下:
1、
标签:
原文地址:http://www.cnblogs.com/batteryhp/p/4702502.html