首页 > 编程语言 > 详细

R语言中的偏最小二乘回归PLS-DA

时间：2019-11-22 19:09:48 阅读：154 评论：0 收藏：0 [点我收藏+]

标签：wrapper 时间公司报告 repeat 情况开始预测 val

原文链接：http://tecdat.cn/?p=8890

主成分回归（PCR）的方法本质上是使用第一个方法的普通最小二乘（OLS）拟合 $技术图片$ ?来自预测变量的主成分（PC）。这带来许多优点：

预测变量的数量实际上没有限制。
相关的预测变量不会破坏回归拟合。

但是，在许多情况下，执行类似于PCA的分解要明智得多。

今天，我们将在Arcene数据集上执行PLS-DA，其中包含100个观察值和10,000个解释变量。

让我们开始使用R

癌症/无癌标签（编码为-1 / 1）存储在不同的文件中，因此我们可以将其直接附加到完整的数据集，然后使用公式语法来训练模型。

# Load caret, install if necessary
library(caret)
arcene <- read.table("http://archive.ics.uci.edu/ml/machine-learning-databases/arcene/ARCENE/arcene_train.data", sep = " ",
 colClasses = c(rep("numeric", 10000), "NULL"))

# Add the labels as an additional column
arcene$class <- factor(scan("https://archive.ics.uci.edu/ml/machine-learning-databases/arcene/ARCENE/arcene_train.labels", sep = "\t"))

，现在的主要问题是：

我们如何根据其血清的MS谱准确预测患者是否生病？
哪种蛋白质/ MS峰最能区分患者和健康患者？

关于预处理，我们将使用preProc参数以精确的顺??序删除零方差预测变量，并对所有剩余的变量进行标准化。考虑样本的大小（n= 100），我将选择10倍的重复5倍交叉验证（CV）–大量重复补偿了因减少的折叠次数而产生的高方差–总共进行了50次准确性估算。

# Compile cross-validation settings
set.seed(100)
myfolds <- createMultiFolds(arcene$class, k = 5, times = 10)
control <- trainControl("repeatedcv", index = myfolds, selectionFunction = "oneSE")

技术图片 ?

此图描绘了CV曲线，在这里我们可以学习从使用不同数量的LV（x轴）训练的模型中获得的平均准确度（y轴，％）。

现在，我们进行线性判别分析（LDA）进行比较。我们还可以尝试一些更复杂的模型，例如随机森林（RF）。

最后，我们可以比较PLS-DA，PCA-DA和RF的准确性。

我们将使用caret :: resamples编译这三个模型，并借用ggplot2的绘图功能来比较三种情况下最佳交叉验证模型的50个准确性估计值。

技术图片 ?

显然，长时间的RF运行并没有转化为出色的性能，恰恰相反。尽管三个模型的平均性能相似，但RF的精度差异要大得多，如果我们要寻找一个健壮的模型，这当然是一个问题。在这种情况下，PLS-DA和PCA-DA表现出最好的性能（准确度为63-95％），并且这两种模型在诊断新血清样品中的癌症方面都表现出色。

总而言之，我们将使用PLS-DA和PCA-DA中预测的可变重要性（ViP）确定十种最能诊断癌症的蛋白质。

技术图片 ?

技术图片 ?

上面的PLS-DA ViP图清楚地将V1184与所有其他蛋白质区分开。这可能是一个有趣的癌症生物标志物。当然，必须进行许多其他测试和模型以提供可靠的诊断工具。

如果您有任何疑问，请在下面发表评论。

大数据部落 -中国专业的第三方数据服务提供商，提供定制化的一站式数据挖掘和统计分析咨询服务

统计分析和数据挖掘咨询服务：y0.cn/teradat（咨询服务请联系官网客服）

?QQ：3025393450

?QQ交流群：186388004

【服务场景】

科研项目; 公司项目外包;线上线下一对一培训;数据爬虫采集;学术研究;报告撰写;市场调查。

【大数据部落】提供定制化的一站式数据挖掘和统计分析咨询

技术图片

欢迎关注微信公众号，了解更多数据干货资讯！

技术图片

技术图片

欢迎选修我们的R语言数据分析挖掘必知必会课程！

R语言中的偏最小二乘回归PLS-DA

标签：wrapper 时间公司报告 repeat 情况开始预测 val

原文地址：https://www.cnblogs.com/tecdat/p/11913340.html

踩

(0)

赞

(0)

举报

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行

更多

友情链接

兰亭集智国之画百度统计站长统计阿里云 chrome插件新版天听网

关于我们 - 联系我们 - 留言反馈

© 2014 mamicode.com 版权所有联系我们:gaon5@hotmail.com

迷上了代码！