Variomes:支持基因组变异筛选的高召回率搜索引擎

《Bioinformatics》2022

Variomes:

https://candy.hesge.ch/Variomes

Source code:

https://github.com/variomes/sibtm-variomes

SynVar:

https://goldorak.hesge.ch/synvar

图片

文章摘要(Abstract)

动机(Motivation):识别和解释临床可操作的基因组变异是一个关键瓶颈。根据ASCO/AMP/CAP实践指南,搜索文献中的证据是必要的,但这项工作既耗时又容易出错。作者开发了一个系统,用于筛选与支持基于证据的决策相关的出版物,并且该系统还能对变异进行优先级排序。

结果(Results):通过三种不同的实验设置评估系统搜索效果:文献筛选、变异优先级排序和将Variomes与LitVar进行比较。结果显示,几乎三分之二的前五篇返回的出版物与临床决策支持相关。该方法能够在前三个结果中识别出81.8%的临床可操作变异。在对803个查询进行测试时,Variomes平均检索到比LitVar多21.3%的文章,并在90%的查询中返回与LitVar相同或更多的结果,从而为搜索有关变异的文献建立了新的基准。

可用性和实现(Availability and implementation):Variomes公开可用,源代码也可在GitHub获取,链接已放在文章开头。

引言(Introduction)

文章讨论了个性化医学的进步,使得能够选择针对特定肿瘤变异的治疗方法。基于肿瘤的分子谱和临床信息,可以更好地确定可能带来有利反应的治疗。

临床专家在生物信息学工具的帮助下,负责确定哪些变异是可操作的,即可能带来更好或更差的预后和治疗反应。

然而,手动筛选科学出版物存在挑战,如出版物数量庞大且不断增长,信息隐藏在非结构化文本中。

材料和方法(Materials and methods)

  • 作者介绍了系统架构,包括使用的科学文献集合、术语标准化、查询处理和排名策略;

  • 这些方法的结合使得Variomes能够高效地检索和排序与基因组变异相关的科学文献,支持临床决策和变体的解释工作;

  • 描述了实验评估设置,包括文献筛选、变异优先级排序和与LitVar的比较。

(1)数据处理:

使用医学术语对文献集合进行预处理,以提高匹配用户信息请求的效率和召回率。预处理包括将文档和注释加载到MongoDB中,并在ElasticSearch中建立索引。

(2)查询处理:

用户查询时,系统自动处理关键词,将其映射到医学术语,并使用专门的变体扩展系统(如SynVar)来扩展遗传变异。

图片

(3)排名策略:

系统采用两步查询系统:首先聚焦于召回率,收集与特定案例相关的大量文档;其次聚焦于精确度,对文档集合进行适当排名。

(4)文献集合的使用:

MEDLINE的摘要、PubMed Central的全文文章和ClinicalTrials.gov的临床试验数据。

(5)变体名称标准化:

由于变体名称在文献中可能以多种形式出现,使用特定的命名实体识别工具来标准化变体名称至关重要。

(6)搜索算法:

系统生成包含三个“必须”子句(针对变体、基因、诊断)的Elasticsearch查询,以及至少一个“应该”子句,以增加灵活性

(7)结果合并:

通过线性组合策略合并不同查询的结果,以提高搜索效果。

(8)性能调优:

使用TREC基准进行直接搜索,通过优化排名函数来调整系统性能,使用R-Prec、P5和infNDCG等指标。

(9)用户界面和API:

提供用户友好的界面和APIs,允许用户检索和操作数据

(10)集成到SVIP平台

Variomes服务集成到了SVIP(Swiss Variant Interpretation Platform)平台,这是一个瑞士的临床验证变体注释的国家存储库。

(11)错误分析与反馈系统:

进行了错误分析,以理解VarChat和LitVar的不同优势,并实现了用户反馈系统,以收集用户评价和改进建议。

结果和讨论(Results and discussion)

系统调整基于五个步骤,包括约束放松策略、命名实体类型密度、人口统计学一致性、预定义关键词的评分以及所有策略的线性组合。

实验设置1(文献筛选)显示,系统在前五篇返回的摘要中,有近三分之二被判断为相关。

实验设置2(变异优先级排序)显示,P5(前五个结果中的精确度)为25%,R-Prec(R-Precision)为71.4%。

实验设置3(与LitVar的比较)显示,Variomes在检索到的文章数量上优于LitVar,并且具有更低的无结果查询比例。

结论(Conclusion)

Variomes是一个有效的工具,用于检索与变异相关的文献,并为检索基因组变异设定了新的标准。该系统特别适用于单核苷酸变异,对于大多数SNV查询,P5都大于80%。

图片

文章整体上提供了一个用于支持基因组变异文献筛选的高召回搜索引擎的设计、实现和评估,旨在提高临床可操作变异的识别和解释效率。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/408343.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

前端宝典十:webpack性能优化最佳实践

Webpack 内置了很多功能。 通常你可用如下经验去判断如何配置 Webpack: 想让源文件加入到构建流程中去被 Webpack 控制,配置 entry;想自定义输出文件的位置和名称,配置 output;想自定义寻找依赖模块时的策略&#xff…

C++笔记---内存管理

1. 内存分布 在对操作系统有更加深入的了解之前,在写代码的层面我们需要对下面的几个内存区域有所了解: 1. 栈又叫堆栈--非静态局部变量/函数参数/返回值等等,栈是向下增长的。 2. 堆--用于程序运行时动态内存分配,堆是可以上增长…

猫头虎分享:Python库 Httpx 的简介、安装、用法详解入门教程

猫头虎分享:Python库 Httpx 的简介、安装、用法详解入门教程🐅 大家好!今天猫头虎来为大家分享一个在 Python 开发中非常实用的库——Httpx。 最近有很多粉丝问猫哥,Httpx 是什么?如何安装和使用?今天猫头…

深入解析SSRF和Redis未授权访问

深入解析SSRF和Redis未授权访问:漏洞分析与防御 在网络安全领域,服务器端请求伪造(SSRF) 和 Redis未授权访问 是两类常见且危险的安全漏洞。 1.2 SSRF攻击的利用 1.2.1 测试并确认SSRF漏洞 一个典型的例子是,当应用…

Java入门:06.Java中的方法--进阶04

4方法递归 简而言之就是方法的自身调用。 也可以是方法组自身的调用 递归类似循环,可以实现功能的反复执行。在某些(算法)环境下,比使用循环更轻松。 递归的本质就是方法的不同调用,就会不同的产生栈帧压栈,栈空间有限&#xff…

如何优雅的实现CRUD,包含微信小程序,API,HTML的表单(一)

前言 在开发实际项目中,其实CRUD的代码量并不小,最近要做一个小程序项目,由于涉及表单的东西比较多,就萌生了一个想法,小程序的写法不是和VUE类似,就是数据绑定,模块么!那就来一个动…

redis核心数据结构源码分析

dictEntry和redisObject 在 Redis 的实现中,当一个键值对被创建并存储时,键通常是一个字符串,而值则是一个 redisObject。因此,在 dictEntry 结构中,key 成员指向的是一个字符串,而 v.val 成员则指向一个 …

IO进程day01(函数接口fopen、fclose、fgetc、fputc、fgets、fputs)

目录 函数接口 1》打开文件fopen 2》关闭文件fclose 3》文件读写操作 1> 每次读写一个字符:fgetc(),fputc() 针对文件读写 针对终端读写 练习:实现 cat 命令功能 格式:cat 文件名 2> 每次一个字符串的读写 fgets() 和 fputs() …

云原生系列 - Nginx(高级篇)

前言 学习视频:尚硅谷Nginx教程(亿级流量nginx架构设计)本内容仅用于个人学习笔记,如有侵扰,联系删学习文档: 云原生系列 - Nginx(基础篇)云原生系列 - Nginx(高级篇) 一、扩容 通过扩容提升整体吞吐量…

【非常简单】 猿人学web第一届 第12题 入门级js

这一题非常简单,只需要找到数据接口,请求参数 m生成的逻辑即可 查看数据接口 https://match.yuanrenxue.cn/api/match/12 查看请求对应的堆栈中的 requests 栈 list 为对应的请求参数 list 是由 btoa 函数传入 ‘yuanrenxue’ 对应的页码生成的 bto…

PD取电快充协议方案

PD快充协议是通过调整电压和电流来提供不同的充电功率。它采用了一种基于USB-C端口的通信协议,实现了充电器于设备之间的信息交换。在充电过程中设备会向充电器发出请求,要求提供不同的电压和电流,充电器接收到请求后,会根据设备的…

第6章 B+树索引

目录 6.1 没有索引的查找 6.1.1 在一个页中的查找 6.1.2 在很多页中查找 6.2 索引 6.2.1 一个简单的索引方案 6.2.2 InnoDB中的索引方案 6.2.2.1 聚簇索引 6.2.2.2 二级索引 6.2.2.3 联合索引 6.2.3 InnoDB的B树索引的注意事项 6.2.3.1 根页面万年不动窝 6.2.3.2 内节…

【vue】编辑器段落对应材料同步滚动交互

场景需求 编辑器段落对应显示材料编辑器滚动时,材料同步滚动编辑器段落无数据时,材料不显示 实现方法 编辑器与材料组件左右布局获取编辑器高度,材料高度与编辑器高度一致禁用材料组件的滚动事件获取编辑器段落距离顶部的位置,…

【机器学习-监督学习】支持向量机

【作者主页】Francek Chen 【专栏介绍】 ⌈ ⌈ ⌈Python机器学习 ⌋ ⌋ ⌋ 机器学习是一门人工智能的分支学科,通过算法和模型让计算机从数据中学习,进行模型训练和优化,做出预测、分类和决策支持。Python成为机器学习的首选语言,…

缓存学习

缓存基本概念 概念 对于缓存,最普遍的理解是能让打开某些页面速度更快的工具。从技术角度来看,其本质上是因为缓存是基于内存建立的,而内存的读写速度相比之于硬盘快了xx倍,因此用内存来代替硬盘作为读写的介质当然能大大提高访…

WIFI驱动开发

Linux 4.9 内核驱动移植 Linux 4.9 BSP 内核驱动 下载驱动后获得驱动的 tar.gz 压缩包 解压后找到如下驱动与文件夹 进入内核,找到 linux-4.9/drivers/net/wireless 文件夹中,新建文件夹aic8800 并且把上面的驱动与文件夹放入刚刚创建好的 aic8800 中。…

【笔记篇】Davinci Configurator SomeIpXf模块

目录 1 简介1.1 架构概览2 功能描述2.1 特性2.2 初始化2.3 状态机2.4 主函数2.5 故障处理3 集成4 API描述5 配置1 简介 本文主要描述了AUTOSAR SomeIpXf模块的功能。 SomeIpXf主要用途是对数据进行SOME/IP格式的序列化和反序列化。 1.1 架构概览 SomeIpXf在AUTOSAR软件架构…

【python】OpenCV—Single Human Pose Estimation

文章目录 1、Human Pose Estimation2、模型介绍3、基于图片的单人人体关键点检测4、基于视频的单人人体关键点检测5、左右校正6、关键点平滑7、涉及到的库函数scipy.signal.savgol_filter 8、参考 1、Human Pose Estimation Human Pose Estimation,即人体姿态估计&…

sqli-labsSQL手工注入第26-30关

第26关 一.查询数据库 http://127.0.0.1/Less-26/?id11%27%26extractvalue(1,concat(%27~%27,database(),%27~%27))%261%27 二.查表 http://127.0.0.1/Less-26/?id1%27||(updatexml(1,concat(1,(select(group_concat(table_name))from(infoorrmation_schema.tables)where(…

2月公开赛Web-ssrfme

考点&#xff1a; redis未授权访问 源码&#xff1a; <?php highlight_file(__file__); function curl($url){ $ch curl_init();curl_setopt($ch, CURLOPT_URL, $url);curl_setopt($ch, CURLOPT_HEADER, 0);echo curl_exec($ch);curl_close($ch); }if(isset($_GET[url…