TCGAbiolinks（知乎整理）

时间：2018-10-09 20:01:27 阅读：4711 评论：0 收藏：0 [点我收藏+]

标签：list cond 定义 barcode default project 好的 workflow lda

setwd(‘D:/tcgabio‘)
rm(list = ls())

# TCGA-12-4567-01-blah-blah --> 这是Normal
# TCGA-12-4567-11-blah-blah --> 这是tumor
# 注意黑体的部分。01-09是tumor；10-19是Normal；20-29是Control
library(TCGAbiolinks)
# 下载前的query
query <- GDCquery(project = "TCGA-COAD", 
                    data.category = "Transcriptome Profiling", 
                    data.type = "Gene Expression Quantification", 
                    workflow.type = "HTSeq - FPKM-UQ")
GDCdownload(query)
# 将下载好的query转换成一个SummerizedExperiment的文件，这个以rda为后缀的文件是一个总结性文件，
# 有了它，我们可以不再需要之前下载的raw数据，所以后面的remove.files.prepared可以选择True，
# 这样会把之前下载的大量文件删除，当然也可以留着不删除（即default）。
dataCOAD <- GDCprepare(query, save = TRUE, 
                       save.filename = "dataCOAD_summerizedExperiment.rda",
                       remove.files.prepared = TRUE)

# 可以看一看rda文件，用到的package是SummarizedExperiment
library(SummarizedExperiment)
samples.information=colData(dataCOAD)

# 数据准备好了，我们接下来开始进行DEA分析。所谓DEA，也就是Differential Expression Analysis，将Tumor组和对照组进行比较。
# 首先，将刚才GDCprepare好的数据进行normalization，用normalization()
# 这里注意geneInfo=geneInfoHT，default其实是geneInfo，但由于我们前面选择的是HTseq，所以要选择geneInfoHT


dataNorm <- TCGAanalyze_Normalization(tabDF = dataCOAD, geneInfo = geneInfoHT)

# 之后，常规选择，用Filtering()

dataFilt <- TCGAanalyze_Filtering(tabDF = dataNorm,
                                  method ="quantile", 
                                  qnt.cut = 0.25)

# 接着，定义对照组（这里的对照组是Solid normal tissue），用到SampleType()，定义肿瘤组，用SampleType()

samplesNT <- TCGAquery_SampleTypes(barcode = colnames(dataFilt),
                                   typesample = c("NT"))

samplesTP <- TCGAquery_SampleTypes(barcode = colnames(dataFilt), 
                                   typesample = c("TP"))

# 进行DEA分析，用到DEA()

dataDEGs <- TCGAanalyze_DEA(mat1 =dataFilt[,samplesNT],
                            mat2 = dataFilt[,samplesTP],
                            Cond1type = "Normal",
                            Cond2type = "Tumor",
                            fdr.cut = 0.01 ,
                            logFC.cut = 1,
                            method = "glmLRT")
# 最后，将分析好的数据整入进一个表格里，用到LevelTab()

dataDEGsFiltLevel <- TCGAanalyze_LevelTab(dataDEGs,"Tumor","Normal",
                                          dataFilt[,samplesTP],dataFilt[,samplesNT])

# 将表格保存到一个csv的文件
write.csv(dataDEGsFiltLevel,file="DEA_COAD.csv")

#最后得到得csv文件如下：

技术分享图片

TCGAbiolinks（知乎整理）

标签：list cond 定义 barcode default project 好的 workflow lda

原文地址：https://www.cnblogs.com/chinahack/p/9762216.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行