生信数据挖掘必不可少要学习TCGA数据库,然而关于生手,经常卡在第一步:下载和整理数据。第一步完成了,又会卡在第二步,第三步:各异分析,生涯分析......
有东说念主会说XENA有整理好的数据,但这些数据下载后并不成径直用,如故要整理,入门者仍是会卡在第一步!
关于R言语大神来说王人不是问题,十分简便的R言语操作辛勤。然而关于入门者很难明白。
这几步操作又是必不可少的,我我方也经常需要再行下载整理数据。为了简化这几个历程,同期亦然让入门者也能感受到"顺服"TCGA的振奋,我把我方常用的一些代码打包,写了这个R包。
图片
使用细心需要我方措置汇注问题,比如造访github,TCGA官网, google等,如若你无法措置汇注问题,那么生信数据挖掘可能不合乎你......基本上你常见的生信数据库资源王人是外洋的,由于无人不晓的原因,外洋的数据很难下载,汇注问题我帮不了你。
装配率先装配依赖包:
# 装配bioconductor上头的R包# 率先要改镜像,底下是清华的镜像,随契机有问题,可革新其他镜像试试(我方百度下喽~)options(BioC_mirror="https://mirrors.tuna.tsinghua.edu.cn/bioconductor")if(!require("BiocManager")) install.packages("BiocManager")if(!require("TCGAbiolinks")) BiocManager::install("TCGAbiolinks")if(!require("SummarizedExperiment")) BiocManager::install("SummarizedExperiment")if(!require("DESeq2")) BiocManager::install("DESeq2")if(!require("edgeR")) BiocManager::install("edgeR")if(!require("limma")) BiocManager::install("limma")# 装配cran上头的R包if(!require("survival")) install.packages("survival")if(!require("broom")) install.packages("broom")if(!require("devtools")) install.packages("devtools")if(!require("reshape2")) install.packages("reshape2")if(!require("data.table")) install.packages("data.table")if(!require("ggplot2")) install.packages("ggplot2")if(!require("ggpubr")) install.packages("ggpubr")
再装配easyTCGA包:
devtools::install_github("ayueme/easyTCGA")主邀功能
措置TCGA(GTEx)数据下载和整理问题,趁机终了一些常见的分析和可视化
getmrnaexpr
只需要提供正确的TCGA project名字即可;自动下载并整理mRNA和lncRNA的counts,tpm,fpkm共6种抒发矩阵(径直从官网的原始数据索取,未进行任何修改,是以是莫得经过log诊疗的),以及对应的临床信息,临床信息样本限定和抒发矩阵样本限定透彻一致,无需再次整理;自动保存以上6种抒发矩阵和临床信息到现时职责目次下的output_mRNA_lncRNA_expr文献夹下,而且同期保存rdata和csv两种文献要领;下载的数据为最新数据,和GDC TCGA官网保握一致;相沿通过手动下载的TCGA数据进行自动整理并完成以上过程(可参考b站教程:easyTCGA:1行代码整理TCGA的6种抒发矩阵和临床信息)lncRNA鉴识参考:Biotypes (ensembl.org)getmrnaexpr_xena
用于XENA网站下载的TCGA基因抒发数据和临床信息的整理(仅限gdchub);径直提供文献名即可,比如:TCGA-ACC.htseq_counts.tsv.gz, TCGA-ACC.htseq_fpkm.tsv.gz,TCGA-ACC.GDC_phenotype.tsv.gz, TCGA-ACC.survival.tsv;自动保存mRNA、lncRNA抒发矩阵和临床信息到现时职责目次下的output_mRNA_expr_xena文献夹下;id诊疗使用gtf 22,和XENA保握一致;(单独使用XENA的抒发谱数据和径直用GDC官网数据比较莫得任何上风)getmirnaexpr
只需要提供正确的TCGA project名字即可;自动下载并整理miRNA的counts,rpm2种抒发矩阵;自动保存以上2种抒发矩阵和对应的临床信息到现时职责目次下的output_miRNA_expr文献夹下,而且同期保存rdata和csv两种文献要领;下载的数据为最新数据,和GDC TCGA官网保握一致getsnvmaf
只需要提供正确的TCGA project名字即可;自动下载并整理TCGA MAF文献(masked somatic mutation)以及对应的临床信息,并自动保存到现时职责目次下的output_snv文献夹下;输出成果不错径直通过maftools::read_maf()函数读取,无需再次整理getcnv
只需要提供正确的TCGA project名字即可;自动下载并整理copy number variation数据;数据保存到现时职责目次下的output_cnv文献夹下;下载的数据为最新数据,和GDC TCGA官网保握一致getmethybeta
只需要提供正确的TCGA project名字即可;自动下载并整理450K的DNA methylation的beta值矩阵,以及对应的临床信息,数目柔软序透彻一致,无需再次整理;自动整理探针信息,比如探针对应的gene symbol等,基于GRCh 38;数据保存在现时职责目次下的output_methy文献夹下;下载的数据为最新数据,和GDC TCGA官网保握一致(细心!!!整理甲基化数据需要在线下载许多量据,对汇注条件很高!)getclinical
下载XML要领的临床数据,包括多样常见的临床信息,如生涯信息、病理分期、放化疗数据、化疗药物数据等与GDC TCGA官网数据保握一致只需要提供正确的TCGA project名字即可(细心!!!TCGA的临床数据分为许多种,可参考TCGA临床数据(化疗数据、用药响应等)和生涯信息(4种临床结局)整理)getpancancer_xena黑人 巨屌
终了对泛癌数据的整理,相沿TCGA、GTEx,以及整合TCGA+GTEx原始文献是从XENA下载的;只需提供相应的抒发矩阵文献和样本信息文献即可 本站仅提供存储作事,通盘本色均由用户发布,如发现存害或侵权本色,请点击举报。