标签:list cond 定义 barcode default project 好的 workflow lda
setwd(‘D:/tcgabio‘)
rm(list = ls())
# TCGA-12-4567-01-blah-blah --> 这是Normal
# TCGA-12-4567-11-blah-blah --> 这是tumor
# 注意黑体的部分。01-09是tumor;10-19是Normal;20-29是Control
library(TCGAbiolinks)
# 下载前的query
query <- GDCquery(project = "TCGA-COAD",
data.category = "Transcriptome Profiling",
data.type = "Gene Expression Quantification",
workflow.type = "HTSeq - FPKM-UQ")
GDCdownload(query)
# 将下载好的query转换成一个SummerizedExperiment的文件,这个以rda为后缀的文件是一个总结性文件,
# 有了它,我们可以不再需要之前下载的raw数据,所以后面的remove.files.prepared可以选择True,
# 这样会把之前下载的大量文件删除,当然也可以留着不删除(即default)。
dataCOAD <- GDCprepare(query, save = TRUE,
save.filename = "dataCOAD_summerizedExperiment.rda",
remove.files.prepared = TRUE)
# 可以看一看rda文件,用到的package是SummarizedExperiment
library(SummarizedExperiment)
samples.information=colData(dataCOAD)
# 数据准备好了,我们接下来开始进行DEA分析。所谓DEA,也就是Differential Expression Analysis,将Tumor组和对照组进行比较。
# 首先,将刚才GDCprepare好的数据进行normalization,用normalization()
# 这里注意geneInfo=geneInfoHT,default其实是geneInfo,但由于我们前面选择的是HTseq,所以要选择geneInfoHT
dataNorm <- TCGAanalyze_Normalization(tabDF = dataCOAD, geneInfo = geneInfoHT)
# 之后,常规选择,用Filtering()
dataFilt <- TCGAanalyze_Filtering(tabDF = dataNorm,
method ="quantile",
qnt.cut = 0.25)
# 接着,定义对照组(这里的对照组是Solid normal tissue),用到SampleType(),定义肿瘤组,用SampleType()
samplesNT <- TCGAquery_SampleTypes(barcode = colnames(dataFilt),
typesample = c("NT"))
samplesTP <- TCGAquery_SampleTypes(barcode = colnames(dataFilt),
typesample = c("TP"))
# 进行DEA分析,用到DEA()
dataDEGs <- TCGAanalyze_DEA(mat1 =dataFilt[,samplesNT],
mat2 = dataFilt[,samplesTP],
Cond1type = "Normal",
Cond2type = "Tumor",
fdr.cut = 0.01 ,
logFC.cut = 1,
method = "glmLRT")
# 最后,将分析好的数据整入进一个表格里,用到LevelTab()
dataDEGsFiltLevel <- TCGAanalyze_LevelTab(dataDEGs,"Tumor","Normal",
dataFilt[,samplesTP],dataFilt[,samplesNT])
# 将表格保存到一个csv的文件
write.csv(dataDEGsFiltLevel,file="DEA_COAD.csv")
#最后得到得csv文件如下:

标签:list cond 定义 barcode default project 好的 workflow lda
原文地址:https://www.cnblogs.com/chinahack/p/9762216.html