标签:
想研究网络交易中买家会对卖家进行信用评分的分布形态。但手头下并没有实际数据,在数据堂找到了关于对电影和5分评分数据,这个能做一个很好的模拟,很像eBay信用评分的反馈计分方式。为此就用此数据进行模拟,模拟在R中进行。
很长时间没用R了,关于R知识现在要逐步的拣起来。期间关于R的操作遇到如下问题:
1.源数据没有列命,重新对进行了命名。直接使用
names(mydata) <- c(‘user_id‘,‘item_id‘,‘rating‘,‘timestamp‘)进报错后,换成
colnames(mydata) <- c(‘user_id‘,‘item_id‘,‘rating‘,‘timestamp‘)成功。
注意到R中:查看数据时names; dimnames; colnames,rownames; 和写出数据时,rwo.names, col.names的各个功能。(需要学习它们的区别和适用范围)
2.关于对数据的画图。为了解一个数据的分布形态常用的图形分布有:
直方图 hist()
茎叶图 stem()——这个有没有办法把默认的图形不是很好,能右旋一下如同直方图就好了。
通常在得到直方图后,需要在图形上添加l[lines()]一个密度曲线[density()]来大概看一下其分布形态。
density():密度函数,plot(density(x))画出密度函数;lines()添加密度曲线。
涉及到几个函数:
dnorm是正态分布的密度函数,pnorm是正态分布的分布函数
qqplot(),常用来检验数据的是否是正态分布,是两样本的正态性对比,qqplot(x),其中x为一组样本,运行时会出错
qqnorm()样本与样本期望的正态性对比。此次实验要用此法。但由于数据不连续性,画出的图也是离散的。
3.关于画线,lines(),abline()都能对已画图形添加线条,但:
函数lines()其作用是在已有图上加线,画连线图,其输入是x,y的点向量命。令为lines(x,y),其功能相当于plot(x,y,type="1")
函数abline()可以在图上加直线,其使用方法有四种格式。
(1)abline(a,b)
表示画一条y=a+bx的直线
(2)abline(h=y)
表示画出一条过所有点得水平直线
(3)abline(v=x)
表示画出一条过所有点的竖直直线
(4)abline(lm.obj)
表示绘出线性模型得到的线性方程,画回归线时常用此法。
4.在回顾以上知识时,练习了 http://blog.sina.com.cn/s/blog_8d8d6cde01017d1b.html提供了例子。在最后遇到了Error in plot.new() : figure margins too large的错误。用http://blog.sina.com.cn/s/blog_6a1fa6e20102uzjy.html方法解决,即在Rstudio中使用R时,要拉大图形显示窗口,否则图形无法显示完而报错。
继续实验,有待补充!
标签:
原文地址:http://www.cnblogs.com/ysdx2013/p/4737183.html