码迷,mamicode.com
首页 > 编程语言 > 详细

R语言Lasso回归模型变量选择和糖尿病发展预测模型应用(含练习)

时间:2021-06-10 17:45:22      阅读:0      评论:0      收藏:0      [点我收藏+]

标签:sum   实现   and   poi   估计   r语言   将不   mesh   proc   

原文链接:http://tecdat.cn/?p=22721 

原文出处:拓端数据部落公众号

 

Lease Absolute Shrinkage and Selection Operator(LASSO)在给定的模型上执行正则化和变量选择。根据惩罚项的大小,LASSO将不太相关的预测因子缩小到(可能)零。因此,它使我们能够考虑一个更简明的模型。在这组练习中,我们将在R中实现LASSO回归。
 

练习1

加载糖尿病数据集。这有关于糖尿病的病人水平的数据。数据为n = 442名糖尿病患者中的每个人获得了10个基线变量、年龄、性别、体重指数、平均血压和6个血清测量值,以及感兴趣的反应,即一年后疾病进展的定量测量。"
接下来,加载包用来实现LASSO。

head(data)

技术图片

练习2

数据集有三个矩阵x、x2和y。x是较小的自变量集,而x2包含完整的自变量集以及二次和交互项。
检查每个预测因素与因变量的关系。生成单独的散点图,所有预测因子的最佳拟合线在x中,y在纵轴上。用一个循环来自动完成这个过程。
 

summary(x)

技术图片

  1.  
    for(i in 1:10){
  2.  
    plot(x[,i], y)
  3.  
    abline(lm(y~x[,i])
  4.  
    }

 

 技术图片

练习3

使用OLS将y与x中的预测因子进行回归。我们将用这个结果作为比较的基准。

lm(y ~ x)

 

 技术图片

练习4

绘制x的每个变量系数与β向量的L1准则的路径。该图表明每个系数在哪个阶段缩减为零。

  1.  
     
  2.  
    plot(model_lasso)

 

技术图片

 

练习5

得到交叉验证曲线和最小化平均交叉验证误差的lambda的值。

plot(cv_fit)

 

技术图片

技术图片

练习6

使用上一个练习中的lambda的最小值,得到估计的β矩阵。注意,有些系数已经缩减为零。这表明哪些预测因子在解释y的变化方面是重要的。

 

> fit$beta

技术图片

练习7

为了得到一个更简明的模型,我们可以使用一个更高的λ值,即在最小值的一个标准误差之内。用这个lambda值来得到β系数。注意,现在有更多的系数被缩减为零。

lambda.1se

 技术图片

beta

 

技术图片

 

练习8

如前所述,x2包含更多的预测因子。使用OLS,将y回归到x2,并评估结果。

 

summary(ols2)

 技术图片

技术图片

练习9

对新模型重复练习-4。

  1.  
    lasso(x2, y)
  2.  
    plot(model_lasso1)

 

 技术图片

练习10

对新模型重复练习5和6,看看哪些系数被缩减为零。当有很多候选变量时,这是缩小重要预测变量的有效方法。

plot(cv_fit1)

技术图片

beta

 

 技术图片

 

技术图片


技术图片

最受欢迎的见解

1.R语言多元Logistic逻辑回归 应用案例

2.面板平滑转移回归(PSTR)分析案例实现

3.matlab中的偏最小二乘回归(PLSR)和主成分回归(PCR)

4.R语言泊松Poisson回归模型分析案例

5.R语言回归中的Hosmer-Lemeshow拟合优度检验

6.r语言中对LASSO回归,Ridge岭回归和Elastic Net模型实现

7.在R语言中实现Logistic逻辑回归

8.python用线性回归预测股票价格

9.R语言如何在生存分析与Cox回归中计算IDI,NRI指标

R语言Lasso回归模型变量选择和糖尿病发展预测模型应用(含练习)

标签:sum   实现   and   poi   估计   r语言   将不   mesh   proc   

原文地址:https://www.cnblogs.com/tecdat/p/14867923.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!