GEO生信数据挖掘(二)下载基因芯片平台文件及注释

检索到目标数据集后,开始数据挖掘,本文以阿尔兹海默症数据集GSE1297为例

目录

下载平台文件

1.AnnotGPL参数改为TRUE,联网下载芯片平台的soft文件。(国内网速奇慢经常中断)

2.手工去GEO官网下载

转换芯片探针ID为gene name

拓展:通过bioconductor注释包

# 找到GPL6244相应的注释包hgu133a.db



上节我们下载了GEO数据集,并提取了基因表达矩阵,但是矩阵行名称是芯片探针需要转换为基因名。

下载平台文件

1.AnnotGPL参数改为TRUE,联网下载芯片平台的soft文件。(国内网速奇慢经常中断)

注意:下载好soft文件,才可以直接可以提取注释,没下载好,注释内容全为空,后续代码可以运行但是,不能得到正确数据的矩阵。

# 提取注释信息
annotation <- featureData(gse_info[[1]])  

library(GEOquery)
# 指定GEO数据集的ID
gse_id <- "GSE1297"
# 使用getGEO函数获取数据集的基础信息
gse_info <- getGEO(gse_id, destdir = ".", AnnotGPL = TRUE )# 提取注释信息
annotation <- featureData(gse_info[[1]])  #下载好soft,可以直接可以提取注释,没下载好注释内容全为空#查看平台文件列名
colnames(annotation)#仅提取两列,第一列芯片探针名,第十一列基因名
platform_file_set=annotation[,c(1,11)]

#还可以尝试单独下载GPL96平台文件

gse_gp<-getGEO('GPL96',destdir =".")  #  网速不佳 下载失败提示 Failed to download ./GPL96.soft.gz!

2.手工去GEO官网下载

GEO Accession viewerNCBI's Gene Expression Omnibus (GEO) is a public archive and resource for gene expression data.icon-default.png?t=N7T8https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GPL96

dir() #打印项目文件列表
# 读取芯片平台文件txt
platform_file <- read.delim("GPL96-57554.txt", header = TRUE, sep = "\t", comment.char = "#")
#查看平台文件列名
colnames(platform_file)#仅提取两列,第一列芯片探针名,第十一列基因名
platform_file_set=platform_file[,c(1,11)]

转换芯片探针ID为gene name

先将上节中提取到的表达矩阵转换格式。

表达矩阵是Matrix对象,而我们接下来要用到的merge函数不能对Matrix对象使用,因此要先将表达矩阵转换为data.frame对象。否则会报错。Error in fix.by(by.x, x) : 'by'必需指定唯一有效的列

#将Matrix格式表达矩阵转换为data.frame格式
exprSet <- data.frame(expression_data)#给表达矩阵新增加一列ID
exprSet$ID <- rownames(exprSet) # 得到表达矩阵,行名为ID,需要转换,新增一列#矩阵表达文件和平台文件有相同列‘ID’,使用merge函数合并
express <- merge(x = exprSet, y = platform_file_set, by.x = "ID")#删除探针ID列
express$ID =NULL

最终将探针ID列删除,剩余32列,即得到有基因名称的表达矩阵。

大家观察最后一列,一个芯片探针匹配到多个基因,下节我们来看看处理方案。

拓展:通过bioconductor注释包

GPL96hgu133a
# 找到GPL6244相应的注释包hgu133a.db

gpl    bioc_package    title
GPL32    mgu74a    [MG_U74A] Affymetrix Murine Genome U74A Array
GPL33    mgu74b    [MG_U74B] Affymetrix Murine Genome U74B Array
GPL34    mgu74c    [MG_U74C] Affymetrix Murine Genome U74C Array
GPL71    ag    [AG] Affymetrix Arabidopsis Genome Array
GPL72    drosgenome1    [DrosGenome1] Affymetrix Drosophila Genome Array
GPL74    hcg110    [HC_G110] Affymetrix Human Cancer Array
GPL75    mu11ksuba    [Mu11KsubA] Affymetrix Murine 11K SubA Array
GPL76    mu11ksubb    [Mu11KsubB] Affymetrix Murine 11K SubB Array
GPL77    mu19ksuba    [Mu19KsubA] Affymetrix Murine 19K SubA Array
GPL78    mu19ksubb    [Mu19KsubB] Affymetrix Murine 19K SubB Array
GPL79    mu19ksubc    [Mu19KsubC] Affymetrix Murine 19K SubC Array
GPL80    hu6800    [Hu6800] Affymetrix Human Full Length HuGeneFL Array
GPL81    mgu74av2    [MG_U74Av2] Affymetrix Murine Genome U74A Version 2 Array
GPL82    mgu74bv2    [MG_U74Bv2] Affymetrix Murine Genome U74B Version 2 Array
GPL83    mgu74cv2    [MG_U74Cv2] Affymetrix Murine Genome U74 Version 2 Array
GPL85    rgu34a    [RG_U34A] Affymetrix Rat Genome U34 Array
GPL86    rgu34b    [RG_U34B] Affymetrix Rat Genome U34 Array
GPL87    rgu34c    [RG_U34C] Affymetrix Rat Genome U34 Array
GPL88    rnu34    [RN_U34] Affymetrix Rat Neurobiology U34 Array
GPL89    rtu34    [RT_U34] Affymetrix Rat Toxicology U34 Array
GPL90    ygs98    [YG_S98] Affymetrix Yeast Genome S98 Array
GPL91    hgu95av2    [HG_U95A] Affymetrix Human Genome U95A Array
GPL92    hgu95b    [HG_U95B] Affymetrix Human Genome U95B Array
GPL93    hgu95c    [HG_U95C] Affymetrix Human Genome U95C Array
GPL94    hgu95d    [HG_U95D] Affymetrix Human Genome U95D Array
GPL95    hgu95e    [HG_U95E] Affymetrix Human Genome U95E Array
GPL96    hgu133a    [HG-U133A] Affymetrix Human Genome U133A Array
GPL97    hgu133b    [HG-U133B] Affymetrix Human Genome U133B Array
GPL98    hu35ksuba    [Hu35KsubA] Affymetrix Human 35K SubA Array
GPL99    hu35ksubb    [Hu35KsubB] Affymetrix Human 35K SubB Array
GPL100    hu35ksubc    [Hu35KsubC] Affymetrix Human 35K SubC Array
GPL101    hu35ksubd    [Hu35KsubD] Affymetrix Human 35K SubD Array
GPL198    ath1121501    [ATH1-121501] Affymetrix Arabidopsis ATH1 Genome Array
GPL199    ecoli2    [Ecoli_ASv2] Affymetrix E. coli Antisense Genome Array
GPL200    celegans    [Celegans] Affymetrix C. elegans Genome Array
GPL201    hgfocus    [HG-Focus] Affymetrix Human HG-Focus Target Array
GPL339    moe430a    [MOE430A] Affymetrix Mouse Expression 430A Array
GPL340    mouse4302    [MOE430B] Affymetrix Mouse Expression 430B Array
GPL341    rae230a    [RAE230A] Affymetrix Rat Expression 230A Array
GPL342    rae230b    [RAE230B] Affymetrix Rat Expression 230B Array
GPL570    hgu133plus2    [HG-U133_Plus_2] Affymetrix Human Genome U133 Plus 2.0 Array
GPL571    hgu133a2    [HG-U133A_2] Affymetrix Human Genome U133A 2.0 Array
GPL886    hgug4111a    Agilent-011871 Human 1B Microarray G4111A (Feature Number version)
GPL887    hgug4110b    Agilent-012097 Human 1A Microarray (V2) G4110B (Feature Number version)
GPL1261    mouse430a2    [Mouse430_2] Affymetrix Mouse Genome 430 2.0 Array
GPL1318    xenopuslaevis    [Xenopus_laevis] Affymetrix Xenopus laevis Genome Array
GPL1319    zebrafish    [Zebrafish] Affymetrix Zebrafish Genome Array
GPL1322    drosophila2    [Drosophila_2] Affymetrix Drosophila Genome 2.0 Array
GPL1352    u133x3p    [U133_X3P] Affymetrix Human X3P Array
GPL1355    rat2302    [Rat230_2] Affymetrix Rat Genome 230 2.0 Array
GPL1708    hgug4112a    Agilent-012391 Whole Human Genome Oligo Microarray G4112A (Feature Number version)
GPL2112    bovine    [Bovine] Affymetrix Bovine Genome Array
GPL2529    yeast2    [Yeast_2] Affymetrix Yeast Genome 2.0 Array
GPL2891    h20kcod    GE Healthcare/Amersham Biosciences CodeLink™ UniSet Human 20K I Bioarray
GPL2898    adme16cod    GE Healthcare/Amersham Biosciences CodeLink™ ADME Rat 16-Assay Bioarray
GPL3154    ecoli2    [E_coli_2] Affymetrix E. coli Genome 2.0 Array
GPL3213    chicken    [Chicken] Affymetrix Chicken Genome Array
GPL3533    porcine    [Porcine] Affymetrix Porcine Genome Array
GPL3738    canine2    [Canine_2] Affymetrix Canine Genome 2.0 Array
GPL3921    hthgu133a    [HT_HG-U133A] Affymetrix HT Human Genome U133A Array
GPL3979    canine    [Canine] Affymetrix Canine Genome 1.0 Array
GPL4032        [Maize] Affymetrix Maize Genome Array
GPL4191    h10kcod    CodeLink UniSet Human I Bioarray
GPL5188    huex10sttranscriptcluster    [HuEx-1_0-st] Affymetrix Human Exon 1.0 ST Array [probe set (exon) version]
GPL5689    hgug4100a    Agilent Human 1 cDNA Microarray (G4100A) [layout C]
GPL6097    illuminaHumanv1    Illumina human-6 v1.0 expression beadchip
GPL6102    illuminaHumanv2    Illumina human-6 v2.0 expression beadchip
GPL6244    hugene10sttranscriptcluster    [HuGene-1_0-st] Affymetrix Human Gene 1.0 ST Array [transcript (gene) version]
GPL6246    mogene10sttranscriptcluster    [MoGene-1_0-st] Affymetrix Mouse Gene 1.0 ST Array [transcript (gene) version]
GPL6885    illuminaMousev2    Illumina MouseRef-8 v2.0 expression beadchip
GPL6947    illuminaHumanv3    Illumina HumanHT-12 V3.0 expression beadchip
GPL8300    hgu95av2    [HG_U95Av2] Affymetrix Human Genome U95 Version 2 Array
GPL8321    mouse430a2    [Mouse430A_2] Affymetrix Mouse Genome 430A 2.0 Array
GPL8490    IlluminaHumanMethylation27k    Illumina HumanMethylation27 BeadChip (HumanMethylation27_270596_v.1.2)
GPL10558    illuminaHumanv4    Illumina HumanHT-12 V4.0 expression beadchip
GPL11532    hugene11sttranscriptcluster    [HuGene-1_1-st] Affymetrix Human Gene 1.1 ST Array [transcript (gene) version]
GPL13497    HsAgilentDesign026652    Agilent-026652 Whole Human Genome Microarray 4x44K v2 (Probe Name version)
GPL13534    IlluminaHumanMethylation450k    Illumina HumanMethylation450 BeadChip (HumanMethylation450_15017482)
GPL13667    hgu219    [HG-U219] Affymetrix Human Genome U219 Array
GPL14877    hgu133plus2    Affymetrix Human Genome U133 Plus 2.0 Array [Brainarray Version 13, HGU133Plus2_Hs_ENTREZG]
GPL15380    GGHumanMethCancerPanelv1    Illumina Sentrix Array Matrix (SAM) - GoldenGate Methylation Cancer Panel I
GPL15396    hthgu133b    [HT_HG-U133B] Affymetrix HT Human Genome U133B Array [custom CDF: ENTREZ brainarray v. 14]
GPL17556    hugene10sttranscriptcluster    [HuGene-1_0-st] Affymetrix Human Gene 1.0 ST Array [HuGene10stv1_Hs_ENTREZG_17.0.0]
GPL17897    hthgu133a    [HT_HG-U133A] Affymetrix Human Genome U133A Array (custom CDF: HTHGU133A_Hs_ENTREZG.cdf version 17.0.0)
GPL18190    hugene11sttranscriptcluster    [HuGene-1_1-st] Affymetrix Human Gene 1.1 ST Array [CDF: Brainarray HuGene11stv1_Hs_ENTREZG_15.1.0]
 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/143306.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

智能合约经典漏洞案例,xSurge 重入漏洞+套利 综合运用

智能合约经典漏洞案例&#xff0c;xSurge 重入漏洞套利 综合运用 1. 事件介绍 xSurge 被攻击事件发生在 2021-08-16 日&#xff0c;距离今天已经近 1 年了&#xff0c;为什么还会选择这个事件进行分析&#xff1f;主要是这个攻击过程很有意思&#xff0c;有以下的几点思考 使…

UG\NX二次开发 通过点云生成曲面 UF_MODL_create_surf_from_cloud

文章作者:里海 来源网站:《里海NX二次开发3000例专栏》 感谢粉丝订阅 感谢 Rlgun 订阅本专栏,非常感谢。 简介 有网友想做一个通过点云生成曲面的程序,我们也试一下 效果 代码 #include "me.hpp" /*HEAD CREATE_SURF_FROM_CLOUD CCC UFUN */

【2023年11月第四版教材】第15章《风险管理》(合集篇)

第15章《风险管理》&#xff08;合集篇&#xff09; 1 章节说明2 管理基础2.1 风险的属性2.2 风险的分类★★★2.3 风险成本★★★2.4 管理新实践 3 管理过程4 管理ITTO汇总★★★5 过程1-规划风险管理6 过程2-识别风险6.1 识别风险★★★6.2 数据收集★★★6.3 数据分析★★★…

基于微信小程序快递取件上门预约服务系统设计与实现(开题报告+任务书+源码+lw+ppt +部署文档+讲解)

文章目录 前言运行环境说明用户的主要功能有&#xff1a;管理员的主要功能有&#xff1a;具体实现截图详细视频演示代码参考论文参考源码获取 前言 &#x1f497;博主介绍&#xff1a;✌全网粉丝10W,CSDN特邀作者、博客专家、CSDN新星计划导师、全栈领域优质创作者&#xff0c;…

范数Norm-衡量向量大小的方法

性质 非负性: 范数的值总是非负的,且当且仅当向量全为零时,范数的值为零。 齐次性: 对于任意实数α,有 三角不等式: 对于任意向量x和y,有 常见范数 L1: 向量所有元素绝对值的和,权重稀疏 L2:欧几里得范数,权重平滑 无穷范数:表示向量中最大的元素 为什么使用范…

【VUE复习·6】监视属性watch:用途、两种写法、简写、应用时注意事项(重点)、深度监视(重点)

总览 1.监视属性是用来干什么的&#xff1f; 2.监视属性的两种写法 3.应用时注意事项 4.深度监视 一、监视属性是用来干什么的&#xff1f; 1.用途 监视一个值&#xff08;可以是基本属性 data&#xff0c;或者是计算属性 computed&#xff09;是否被改变。如果此值被改变&…

C语言-变量与数据类型

一、基本语法 1、注释 注释&#xff08;Comments&#xff09;可以出现在代码中的任何位置&#xff0c;用来向用户提示或解释代码的含义。程序编译时&#xff0c;会忽略注释&#xff0c;不做任何处理。 C 语言有两种注释方式&#xff1a; &#xff08;1&#xff09;单行注释 …

3+单基因泛癌+铜死亡纯生信思路

今天给同学们分享一篇3单基因泛癌铜死亡纯生信思路的生信文章“Systematic pan-cancer analysis identifies SLC31A1 as a biomarker in multiple tumor types”&#xff0c;这篇文章于2023年3月27日发表在BMC Med Genomics 期刊上&#xff0c;影响因子为3.622。 溶质载体家族3…

【Unity】简单的深度虚化shader

【Unity】简单的深度虚化shader 实现效果 可以用于对地图场景边界的白模处理 实现方法 1.关键方法 UnityObjectToClipPos&#xff1a;将物体坐标转换为屏幕坐标 LinearEyeDepth&#xff1a;将屏幕坐标中的z值转换为实际的深度值 saturate&#xff1a;将值规范到0~1之间&a…

【AI视野·今日Robot 机器人论文速览 第四十一期】Tue, 26 Sep 2023

AI视野今日CS.Robotics 机器人学论文速览 Tue, 26 Sep 2023 Totally 73 papers &#x1f449;上期速览✈更多精彩请移步主页 Daily Robotics Papers Extreme Parkour with Legged Robots Authors Xuxin Cheng, Kexin Shi, Ananye Agarwal, Deepak Pathak人类可以通过以高度动态…

成为吃鸡战场的王者!分享顶级战术干货,助您提高战斗力!

各位吃鸡战场的玩家们&#xff0c;欢迎来到本视频&#xff01;在这里&#xff0c;我将为您呈现一些与众不同的吃鸡干货&#xff0c;帮助您提高战斗力、轻松吃鸡&#xff01; 首先&#xff0c;让我们谈一谈作图工具推荐。绝地求生作图工具是吃鸡玩家们的必备利器。我将给大家推荐…

IDEA运行第一个Java简单程序(新建项目到运行类)

目录 前言 一、准备工作 JDK下载安装 1.IDEA下载安装 二、IDEA建立项目 &#xff08;一&#xff09;新建项目&#xff08;银河系&#xff09; &#xff08;二&#xff09;新建模块&#xff08;地球&#xff09; &#xff08;三&#xff09;新建包&#xff08;国家&#…

1.3python基础语法——PyCharm

1&#xff09;PyCharm的作用 python的集成开发环境&#xff0c;功能如下&#xff1a; Project管理 智能提示 语法高亮 代码跳转 调试代码 解释代码(解释器) 框架和库 2&#xff09;下载与安装 下载地址&#xff1a;http://www.jetbrains.com/pycharm/download/#sectionwind…

查询表中的全部列的数据

MySQL从小白到总裁完整教程目录:https://blog.csdn.net/weixin_67859959/article/details/129334507?spm1001.2014.3001.5502 语法格式: select from * 表名; 说明: * 表示所有列 由于不写where子句&#xff0c;表示无条件&#xff0c;找到所有的行&#xff01; 准备工作:执…

【计算机网络笔记九】I/O 多路复用

阻塞 IO 和 非阻塞 IO 阻塞 I/O 和 非阻塞 I/O 的主要区别&#xff1a; 阻塞 I/O 执行用户程序操作是同步的&#xff0c;调用线程会被阻塞挂起&#xff0c;会一直等待内核的 I/O 操作完成才返回用户进程&#xff0c;唤醒挂起线程非阻塞 I/O 执行用户程序操作是异步的&#xf…

909. 蛇梯棋

909. 蛇梯棋 题目-中等难度示例1. bfs 题目-中等难度 给你一个大小为 n x n 的整数矩阵 board &#xff0c;方格按从 1 到 n2 编号&#xff0c;编号遵循 转行交替方式 &#xff0c;从左下角开始 &#xff08;即&#xff0c;从 board[n - 1][0] 开始&#xff09;每一行交替方向…

基于Android+OpenCV+CNN+Keras的智能手语数字实时翻译——深度学习算法应用(含Python、ipynb工程源码)+数据集(四)

目录 前言总体设计系统整体结构图系统流程图 运行环境模块实现1. 数据预处理2. 数据增强3. 模型构建4. 模型训练及保存5. 模型评估6. 模型测试1&#xff09;权限注册2&#xff09;模型导入3&#xff09;总体模型构建4&#xff09;处理视频中的预览帧数据5&#xff09;处理图片数…

github搜索技巧

指定语言 language:java 比如我要找用java写的含有blog的内容 搜索项目名称包含关键词的内容 vue in:name 其他如项目描述跟项目文档&#xff0c;如下 组合使用 vue in:name,description,readme 根据Star 或者fork的数量来查找 总结 springboot vue stars:>1000 p…

程序启动-大数据平台搭建

1、启动zookeeper集群 /home/cluster/zookeeper.sh start /home/cluster/zookeeper.sh stop 2、启动hadoop和yarn集群 /home/cluster/hadoop-3.3.6/sbin/start-dfs.sh /home/cluster/hadoop-3.3.6/sbin/start-yarn.sh /home/cluster/hadoop-3.3.6/sbin/stop-dfs.sh /home/clust…

Java括号匹配

目录 一、题目描述 二、题解 一、题目描述 给定一个只包括 (&#xff0c;)&#xff0c;{&#xff0c;}&#xff0c;[&#xff0c;] 的字符串 s &#xff0c;判断字符串是否有效。 有效字符串需满足&#xff1a; 左括号必须用相同类型的右括号闭合。左括号必须以正确的顺序闭…