在TCGA数据库中检索并下载5 种不同类型癌症(包括BRCA, BLCA, LGG, LUAD 和 LUSC)病例的 RNA转录组RNA-seq数据。一共有3329个TCGA样本,每个样本中有六万多个基因。数据下载完成后,还是一堆文件夹,接下来需要使用Python对数据进行处理。
下载数据
TCGA数据下载网址:https://portal.gdc.cancer.gov/
下载官方下载工具「gdc-client」:链接地址:gdc-client下载工具
1、先从TCGA数据库中下载三个文件:
2、然后下载官方下载工具,工具下载完之后不需要安装就可以直接使用,但是下载数据是在命令行中进行的,为了方便需要把安装工具配置到系统中的「环境变量。利用工具进行下载,打开命令行:输入以下命令,等待下载:
命令:gdc-client download -m 【txt文件地址】-d [下载文件的保存地址]
数据下载完成之后,为TCGA中的每一个数据分别创造了一个相应的文件夹,每个文件夹中都有一个对应的gz格式的安装包。