Molecular signatures database (MSigDB) 3.0

文献翻译和解读(解读在最后)

摘要

动机: 良好注释的基因集代表了生物学过程的全貌,对于大规模基因组数据的有意义和深入解读至关重要。分子特征数据库(MSigDB)是最广泛使用的此类基因集资源库之一。

结果: 我们报告了数据库的新版本——MSigDB 3.0的发布,包含超过6700个基因集,全面修订了经典通路集合和来自出版物的实验特征,增强了注释并对网站进行了升级。

可用性和实施: MSigDB可在以下网站免费下载,供非商业用途使用:GSEA | MSigDB

1. 引言

微阵列和其他高通量基因组技术通常产生大量潜在有趣的基因列表,这些列表并不总是容易解释的。鉴于协调表达的基因集合的重要性,我们的开创性论文(Mootha et al., 2003)首次引入了基因集合富集分析(GSEA),用于发现与人类2型糖尿病相关的代谢通路。GSEA和其他分析性富集工具通过优先排列的生物学特征列表来总结基因组数据。正如最近对68种富集工具的调查所强调的那样,它们严重依赖于“后端注释数据库”(Huang et al., 2009)。这些数据库通常聚焦于特定的知识领域或注释过程。例如,基因本体(GO)(Ashburner et al., 2000)代表了一种用于描述单个基因产物的受控术语层次结构,而TRANSFAC(Matys et al., 2006)存储关于转录因子结合位点的信息。越来越多的数据库从文献中报告的基因表达特征中获取集合,这些数据库包括SignatureDB(Shaffer et al., 2006)、GeneSigDB(Culhane et al., 2009)、CCancer(Dietmann et al., 2010)以及L2L和LOLA(Cahan et al., 2007)。

**分子特征数据库(MSigDB)**与这些资源有几个显著不同之处:(i)MSigDB显式设计用于为富集分析方法提供基因集,因此它与我们的GSEA软件(Subramanian et al., 2005)无缝集成。(ii)MSigDB涵盖了更广泛的基因集来源和类型,包括从原始研究出版物中提取的特征,以及从GO、KEGG(Kanehisa and Goto, 2000)、TRANSFAC和L2L等专门资源中衍生的完整集合。(iii)MSigDB的基因集既通过手动策划,也通过自动计算方法获取,而其他数据库则更侧重其中一种方法。(iv)最后,MSigDB包含了最多的基因集合。

最初发布的MSigDB数据库(2005年与GSEA软件一起发布)包含1325个基因集。相比之下,MSigDB 3.0版本(2010年9月发布)包含6769个基因集以及更丰富的注释。本文将更详细地描述MSigDB 3.0版本中的基因集和附带的在线资源。

2. 结果

基因集合: MSigDB 3.0中的基因集根据其来源分为五个集合:

  • C1:位于同一染色体或细胞遗传带上的基因。
  • C2:代表经典通路的基因集合(包括由Reactome贡献的430个新集合)(Matthews et al., 2009),以及来自786篇科学出版物的化学和遗传扰动对应的集合。
  • C3:在其启动子(转录因子目标)或3' UTR(微RNA目标)序列中共享顺式调控基序的基因集合。
  • C4:通过对大规模基因表达数据的计算分析定义的共同表达模块集。
  • C5:与GO术语对应的基因集合。

表1展示了MSigDB自初次发布以来的集合和数据库的增长(参见在线发布说明)。

基因集注释: 每个MSigDB基因集是一个基因列表,包含相关的注释和指向外部资源的链接。MSigDB主要关注人类基因集合,然而,我们也包含一些模型生物的基因集合,基因集注释包括有机体的识别信息。我们使用HUGO基因符号,并且自版本3.0起,使用人类Entrez基因ID作为通用标识符。这些Entrez ID是唯一且稳定的,可以轻松映射到各种其他标识符,并且与GenBank的核酸和蛋白质序列资源原生集成。我们还保留了基因集来源中使用的任何原始标识符。所有集合都有唯一的数据库标识符和名称,并包括简短和详细的描述。其他注释依赖于基因集的类型。链接到外部资源的注释尤为重要,因为它们使研究人员能够将基因集置于特定研究的背景中,并促进后续实验的决策。

来自出版物的基因集合具有最丰富的注释。这些注释包括出版物的PubMed ID、来自同一出版物的其他基因集的指向,以及现在还包括提取基因集的具体表格或图形的详细信息。对于版本3.0,我们更新了这些基因集的名称,使其更加描述性且标准化,同时将附带的简要描述改为更统一和一致的格式。版本3.0还引入了其他注释功能,包括指向基因表达综合体(GEO)(Barrett et al., 2009)和ArrayExpress(Parkinson et al., 2009)中源数据集的链接。经典通路集合包括指向源网站上路径的链接。

文件格式: MSigDB基因集文件可以下载为纯文本和XML格式。纯文本文件包含简单的基因集成员列表,而XML文件还包括注释。为了确保GSEA结果的可重复性,旧版本的MSigDB文件始终可用。请注意,使用我们GSEA软件的用户无需下载MSigDB文件,因为该工具会直接自动检索基因集。

3. MSigDB在线资源

在版本3.0中,我们更新了MSigDB网站。该网站首次在2007年7月推出,允许用户查看注释过的基因集,并执行简单的搜索和分析任务。每个基因集及其所有注释都展示在一个单独的网页上(见图1)。嵌入的超链接将注释连接到相应的外部资源,包括PubMed、GEO和ArrayExpress、PubChem以及Entrez Gene。

MSigDB网站允许用户通过搜索注释中的关键字来查找基因集。在线分析工具使用户能够:(i)计算基因集之间的重叠;(ii)查看基因集在参考表达数据集中的热图;(iii)按基因家族对基因进行分类。基因家族提供了通过将基因集合中的成员分组到少数几个有意义的类别中,快速查看基因集的方式。我们更新了基因家族,现在它们包括:癌基因、抑癌基因、易位癌基因、转录因子、蛋白激酶、同源域蛋白、细胞分化标志物以及细胞因子/生长因子。

详细分析解读:

1. 基因集的概念

在基因组学中,基因集(Gene Set) 是一组具有某些共同特征的基因。这些基因通常参与同一生物学过程、信号通路或疾病过程。例如,某些基因可能在癌症细胞的增殖过程中共同发挥作用,或者它们可能被同一个转录因子调控。

这些基因集在生物学研究中非常有用,因为它们能够帮助研究人员理解基因之间的关系以及它们如何共同作用。例如,如果研究人员发现一组基因在某种疾病中被异常表达,可能表明这些基因与该疾病有关。

2. MSigDB数据库

MSigDB(Molecular Signatures Database)是一个包含大量基因集的数据库。它提供了从不同来源获得的基因集,包括:

  • 经典通路(Canonical pathways),这些是已知的、经过验证的基因路径,例如与细胞周期、DNA修复等生物过程相关的通路。
  • 实验签名(Experimental signatures),这些是通过实验获得的基因集,可能代表某些特定条件下基因的表达模式。例如,某些基因集可能表示细胞在特定药物处理下的反应。
  • 转录因子目标(Transcription factor targets),这些基因集代表由特定转录因子调控的基因。

3. MSigDB 3.0版本的更新

在MSigDB的版本3.0中,数据库的内容和功能得到了显著改进:

  • 基因集数量增加:MSigDB 3.0版本包含超过6700个基因集,远多于之前版本的基因集数量。
  • 经典通路和实验签名的修订:更新了经典通路集合和来自文献的实验签名,使其更加全面和准确。
  • 增强的注释:每个基因集都进行了详细的注释,提供了更多的背景信息。例如,基因集现在包括从特定出版物中的表格或图形中提取的信息。
  • 网站升级:MSigDB的官方网站得到了升级,新增了搜索和分析工具,用户可以更容易地浏览和分析基因集。

4. MSigDB的使用

MSigDB数据库可以用于很多不同类型的生物学研究,特别是在基因表达分析中。例如,基因集富集分析(Gene Set Enrichment Analysis, GSEA) 是一种常用的分析方法,它通过检测一组基因是否在一个特定的生物学条件下被显著表达,来揭示潜在的生物学过程或路径。GSEA分析可以帮助研究人员发现隐藏在大规模基因表达数据中的生物学模式。

计算机背景的学生如何理解?
  1. 数据的结构与分析:你可以将基因集看作是一个有多个基因的列表,每个基因列表代表某个生物学过程或信号通路。这些基因集是通过手动注释和自动计算方法得到的,类似于构建一个数据集,通过不同的方式来分类数据。

  2. 数据库和文件格式:MSigDB提供了纯文本XML格式的文件下载。文本文件中列出了基因的成员,而XML文件除了列出基因成员外,还包含注释信息。XML文件结构化的数据使得它更适合计算机处理和自动化分析。

  3. Web界面和工具:MSigDB提供了一个在线网站,供研究人员浏览基因集和进行基本的分析。你可以通过网站提供的工具进行基因集间的重叠计算、热图显示、按基因家族分类等操作,这些功能对于数据挖掘和进一步的生物学分析非常有用。

5. 数据库的应用场景

  • 基因表达分析:比如在癌症研究中,通过比较癌症细胞与正常细胞中的基因表达,研究人员可以利用MSigDB中的基因集发现哪些通路或生物学过程在癌症中被改变。
  • 疾病机制研究:通过分析不同基因集在疾病中的表达变化,研究人员可以发现与疾病相关的潜在生物标志物。
  • 药物靶点发现:药物的作用往往通过调控特定的基因集或通路来实现。通过分析药物处理后的基因表达变化,研究人员可以使用MSigDB中的通路信息来识别潜在的药物靶点。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/471943.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

使用阿里云快速搭建 DataLight 平台

使用阿里云快速搭建 DataLight 平台 本篇文章由用户 “闫哥大数据” 分享,B 站账号:https://space.bilibili.com/357944741?spm_id_from333.999.0.0 注意:因每个人操作顺序可能略有区别,整个部署流程如果出现出入,以…

H.265流媒体播放器EasyPlayer.js H.264/H.265播放器chrome无法访问更私有的地址是什么原因

EasyPlayer.js H5播放器,是一款能够同时支持HTTP、HTTP-FLV、HLS(m3u8)、WS、WEBRTC、FMP4视频直播与视频点播等多种协议,支持H.264、H.265、AAC、G711A、MP3等多种音视频编码格式,支持MSE、WASM、WebCodec等多种解码方…

QT_CONFIG宏使用

时常在Qt代码中看到QT_CONFIG宏,之前以为和#define、DEFINES 差不多,看了定义才发现不是那么回事,定义如下: 看注释就知道了QT_CONFIG宏,其实是:实现了一个在编译时期安全检查,检查指定的Qt特性…

centos7安装Chrome使用selenium-wire

背景:在centos7中运行selenium-wire爬虫,系统自带的Firefox浏览器不兼容,运行报错no attribute ‘set_preference’,应该是selenium-wire和Firefox的驱动不兼容 查了半天不知道怎么解决,就想在centos7上安装Chrome来跑…

医院信息化与智能化系统(21)

医院信息化与智能化系统(21) 这里只描述对应过程,和可能遇到的问题及解决办法以及对应的参考链接,并不会直接每一步详细配置 如果你想通过文字描述或代码画流程图,可以试试PlantUML,告诉GPT你的文件结构,让他给你对应…

《FreeRTOS任务控制块篇》

Task control block, 即任务控制块。任务控制块(TCB)是一个结构体,它会分配给每个任务,其中存储着任务的状态信息,包括指向任务上下文(任务的运行时环境,包括寄存器值)的指针。任务控…

Queuing 表(buffer表)的优化实践 | OceanBase 性能优化实践

案例问题描述 该案例来自一个金融行业客户的问题:他们发现某个应用对一个数据量相对较小的表(仅包含数千条记录)访问时,频繁遇到性能下降的情况。为解决此问题,客户向我们求助进行分析。我们发现这张表有频繁的批量插…

ssh登陆服务器后支持Tab键命令补全

在服务器上新建了用户后,通过ssh登录到服务器后发现不能使用Tab键来进行命令补全 截图如下: 以为没有配置.bashrc 此时输入 source 发现无此命令 细心的可以发现 -sh 于是输入命令echo $SHELL 确认此时的shell为sh, 只要输入命令bash即可切…

[白月黑羽]关于仿写类postman功能软件题目的解答

原题: 答: python文件如下 from PySide6.QtWidgets import QApplication, QMessageBox,QTableWidgetItem,QHeaderView,QWidget,QTableWidget from PySide6.QtCore import QEvent,QObject from PySide6.QtUiTools import QUiLoader import time import …

Postman接口测试(断言、关联、参数化、输出测试报告)

基本界面展示 Get、Post请求 Postman断言 使用postman来判断预期结果与实际结果是否一致 响应状态码断言 响应包含字符串 断言判断字符串的格式 关联 用于解决http请求之间存在依赖关系 依赖:一个http请求的响应结果中的数据,被另一个请求使用 登…

【卡尔曼滤波】数据融合Fusion的应用 C语言、Python实现(Kalman Filter)

【卡尔曼滤波】数据融合Fusion的应用 C语言、Python实现(Kalman Filter) 更新以gitee为准: gitee地址 文章目录 卡尔曼滤波数据融合Python实现C语言实现多个数据如何融合附录:压缩字符串、大小端格式转换压缩字符串浮点数压缩Pac…

网络原理-网络层和数据链路层

一、网络层 1、IP协议完成的工作 地址管理:使用一套地址体系来描述所没备的位置 路由选择:一个数据包如何从网络的某个地址传到另一个地址 2、IP报头 4 位版本号:取值为4或6 (IPv4/IPv6) 4 位首部长度:IP报头,单位…

【Three.js基础学习】22.New project structure

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 前言 这里将使用全新的项目结构,将不同工具分层,区分开使用。 一、结构目录 二、对应文件 1.script.js 获取画布,引入样式和功能。 /* 课…

AI风向标|算力与通信的完美融合,SRM6690解锁端侧AI的智能密码

当前,5G技术已经成为推动数字经济和实体经济深度融合的关键驱动力,进入5G发展的下半场,5G与AI的融合正推动诸多行业的数字化转型和创新发展,终端侧AI和端云混合式AI将广泛应用于各类消费终端和各行各业。 在推动5G和AI与各行业场…

【WPF】Prism学习(二)

Prism Commands 1.命令(Commanding) 1.1. ViewModel的作用: ViewModel不仅提供在视图中显示或编辑的数据,还可能定义一个或多个用户可以执行的动作或操作。这些用户可以通过用户界面(UI)执行的动作或操作…

智慧建造-运用Trimble技术将梦幻水族馆变为现实【上海沪敖3D】

项目概述 西雅图水族馆耗资1.6亿美元对海洋馆进行扩建。该项目包括建造三个大型栖息地,每个建筑物几乎都没有直边,其中一个主栖息地由520立方米混凝土和355吨钢筋组成。特纳建筑公司的混凝土团队通过强大的贸易合作伙伴和创新的数字制造技术,…

kubesphere环境-本地Harbor仓库+k8s集群(单master 多master)+Prometheus监控平台部署

前言:半月前在公司生产环境上离线部署了k8s集群Victoria Metrics(二开版)自研版夜莺 监控平台的搭建,下面我租用3台华为云服务器演示部署kubesphere环境-本地Harbor仓库k8s集群(单master节点 & 单master节点)Prometheus监控部…

java 随机生成验证码

1.需求 实现随机生成验证码,验证码可能是大小写字母和数字 2.实现 写一个getCode方法实现 public static String getCode(int n){//1. 定义一个字符串,字符串中包含大小写字母和数字String str "ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrs…

Unity图形学之Blend指令

1.渲染流程:Blend 决定了要渲染的像素和Gbuffer里像素到底怎么取舍 2.Blend 公式: 3.factor可以取值的内容有: One 1 Zero :0 SrcColor : 要渲染的像素 SrcAlpha : 要渲染像素的 a 通道。 DstColor : 已经渲染在gbuffer…

林曦词典|养生

“林曦词典”是在水墨画家林曦的课堂与访谈里,频频邂逅的话语,总能生发出无尽的思考。那些悠然轻快的、微妙纷繁的,亦或耳熟能详的词,经由林曦老师的独到解析,意蕴无穷,让人受益。于是,我们将诸…