最详细的基于R语言的Logistic Regression（Logistic回归）源码，包括拟合优度，Recall，Precision的计算

时间：2014-09-03 22:46:07 阅读：939 评论：0 收藏：0 [点我收藏+]

这篇日志也确实是有感而发，我对R不熟悉，但实验需要，所以简单学了一下。发现无论是网上无数的教程，还是书本上的示例，在讲Logistic Regression的时候就是给一个简单的函数及输出结果说明。从来都没有讲清楚几件事情：

1. 怎样用训练数据训练模型，然后在测试数据上进行验证（测试数据和训练数据可能有重合）？

2. 怎样计算预测的效果，也就是计算Recall，Precision，F-measure等值？

3. 怎样计算Nagelkerke拟合优度等评价指标？

发现这些书本和一些写博客的朋友，脑子真是不清楚得可以。去看你的教程，不是光看看简单的函数使用，或者听你讲讲原理，还是希望能尽快并且正确地用起来。从我的经历来看，已有的网上教程都做得太差了。

这里我也不详细介绍过程了，贴上有详细注释的代码，相信大家一看就明白：

rm(list=ls(all=TRUE))#首先删除工作空间中所有对象
training=read.csv("training.csv",header=FALSE)
testing=read.csv("testing.csv",header=FALSE)#分别导入训练和测试数据
 
glm.fit=glm(V16~V7,data=training,family=binomial(link="logit"))#用训练数据生成模型，这里我是用第7列数据预测第16列
 
n=nrow(training)#训练数据的行数，也就是样本数量
 
R2<-1-exp((glm.fit$deviance-glm.fit$null.deviance)/n)#计算Cox-Snell拟合优度
cat("Cox-Snell R2=",R2,"\n")
 
R2<-R2/(1-exp((-glm.fit$null.deviance)/n))#计算Nagelkerke拟合优度，我们在最后输出这个拟合优度值
 
p=predict(glm.fit,testing)#用模型对测试数据进行预测
p=exp(p)/(1+exp(p))#计算因变量的值
 
testing$V16_predicted=1*(p>0.5)#给test数据增加一列，也就是对V16的预测，当p>0.5时，预测值为1
 
true_value=testing[,16]
predict_value=testing[,17]#分别将16和17列取出来
 
retrieved=sum(predict_value)
precision=sum(true_value & predict_value)/retrieved
recall=sum(predict_value & true_value)/sum(true_value)
F_measure=2*precision*recall/(precision+recall)#计算Recall，Precision和F-measure
 
summary(glm.fit)
cat("Nagelkerke R2=",R2,"\n")
print(precision)
print(recall)
print(F_measure)

搞不清楚这么简单的东西，为什么很多人都说不清楚。

这里再简单解释一下summary输出结果：

Call:
glm(formula = V16 ~ V7, family = binomial(link = "logit"), data = training)
 
Deviance Residuals:
    Min       1Q   Median       3Q      Max
-2.5212  -0.9990  -0.4249   1.1352   1.4978  
 
Coefficients:
             Estimate Std. Error z value Pr(>|z|)
(Intercept) -0.744804   0.207488  -3.590 0.000331 ***
V7           0.005757   0.001362   4.226 2.38e-05 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
 
(Dispersion parameter for binomial family taken to be 1)
 
    Null deviance: 307.76  on 221  degrees of freedom
Residual deviance: 277.85  on 220  degrees of freedom
AIC: 281.85
 
Number of Fisher Scoring iterations: 5

其实大家主要看Coefficient这里就可以了，其中Estimate表示最终预测方程里V7的系数，Pr就是p-value，从这两处看预测效果还可以接受。

最详细的基于R语言的Logistic Regression（Logistic回归）源码，包括拟合优度，Recall，Precision的计算

标签：des style blog color io 使用 ar for 数据

原文地址：http://blog.csdn.net/qysh123/article/details/39034289

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行