TCGA临床数据的整理是一个基本的操作
我们选择临床数据在Data category 中选择clinical 最重要的在Data format 中一定要选择XML的]格式
选择自己研究的TCGA肿瘤类型,添加到cart里面下载数据
点击download 下载 cart的内容 保存你们自己喜欢的位置。下面一步是个小技巧 ,使用Windows 的小伙伴
在右侧工具栏搜索XML格式 会把每个文件夹内的XML文件显示出来,最后复制的一个文件夹内最后整理完之后我们导入到RStudio
library("XML")
library("methods")
setwd("H:/gdc-client_v1.4.0_Windows_x64/1")##设置工作路径
dir="H:/gdc-client_v1.4.0_Windows_x64/1"
all_fiels=list.files(path = dir ,pattern='*.xml$',recursive=T)##导入文件
cl = lapply(all_fiels, function(x){result <- xmlParse(file = file.path(dir,x)) rootnode <- xmlRoot(result) xmldataframe <- xmlToDataFrame( rootnode[2] ) return(t(xmldataframe)) })
clinical <- t(do.call(cbind,cl))
write.table(clinical,file="clinical.txt",sep="\t",quote=F,row.names = F)