GeneGPT 利用生物医学信息工具增强大型语言模型

尽管大型语言模型(LLMs)已成功应用于各种任务,但它们仍然有生成错误内容的问题。利用领域特定工具(如数据库工具)增强LLMs具有促进访问专业知识更精确和直接的潜力。文章介绍了GeneGPT,一种新的方法,它能够教授LLMs使用国家生物技术信息中心(NCBI)的Web应用程序编程接口(API)回答基因组学问题。

大型语言模型如PaLM和GPT-4在广泛的通用领域自然语言处理(NLP)任务上取得了巨大的成功。它们在许多领域特定任务上也实现了最先进的性能,如生物医学问答等。然而,由于自回归LLMs没有内在的机制来“查阅”任何真实来源,因此它们会生成合理但不正确的内容。为了解决此问题,各种研究提出了增强LLMs的方法,包括将其置于检索相关内容的条件下或允许它们使用其他外部工具,如程序API。在这项工作中,作者提出教授LLMs使用国家生物技术信息中心(NCBI)的Web API。NCBI提供API访问其生物医学数据库和工具,包括Entrez编程实用工具(E-utils)和基本局部比对搜索工具(BLAST)。使LLMs能够使用NCBI Web API可以更轻松、更精确地访问生物医学信息,特别是对于那些对数据库系统不熟悉的用户。Web API的优势在于减轻用户实现功能、维护大型数据库和重负计算的负担,因为唯一的要求是互联网连接。作者介绍了一种新方法GeneGPT,它通过上下文学习促使Codex使用NCBI Web API,GeneGPT由两个主要模块组成:(a)一个特别设计的提示,包括API使用演示,和(b)一个推理算法,将API调用集成到Codex解码过程中。作者在GeneTuring数据集(Hou和Ji,2023)上评估GeneGPT,这是一个用于基因组学问题回答(QA)的基准测试,并将其与其他各种LLM进行比较。

Prompt 设计

074a113abe4cb65693ba591d6ea8d605.png

3efa0968b6337615b13ba341bbde969f.png

提示以整体任务描述开始(“您的任务是使用NCBI API来回答基因组学问题。”),并包括NCBI Web API URL模板。接下来是四个QA实例,作为使用NCBI Web API的演示,这些实例在表格中进行了总结。作者使用它们来教授LLM使用NCBI E-utils的三个功能(esearch、efetch、esummary)和三个数据库(gene、snp、omim),以及BLAST API。API URL和调用结果由“[ ]”标记,其中在中间插入了特殊的“->”符号。然后,特定的测试问题被追加到提示的末尾,采用类似于上下文学习演示实例的格式。上图展示了一个Prompt的例子。

实验指标

dd65e6f0c848ede4e56dc1fb499576b6.png

作者将提出的GeneGPT方法与各种基准进行比较,包括基于GPT的通用领域LLMs,如GPT-2、GPT-3和ChatGPT,以及基于生物医学领域的GPT-2大小的LLMs,如BioGPT和BioMedLM,以及New Bing,这是一种检索增强的LLM,可以访问Bing搜索引擎检索到的相关网页。为了评估GeneGPT方法,作者遵循一般的标准,进行自动评估。具体来说,作者仅考虑模型预测与基准答案完全匹配的情况,作为所有命名和基因组位置任务的正确预测。对于基因疾病关联任务,作者测量召回率,但基于确切的个体基因匹配。对于编码蛋白质基因任务和多物种DNA序列比对任务,作者还考虑使用简单的词汇映射将模型预测的“yes”/“no”转换为“TRUE”/“NA”,并将拉丁物种名称转换为它们的非正式名称(例如,“Saccharomyces cerevisiae”转换为“酵母菌”)。对于与人类基因组的DNA序列比对任务,作者将正确的染色体映射得分为1,将位置映射不正确的得分设为0.5(例如,chr8:7081648-7081782与chr8:1207812-1207946),因为原始任务没有指定参考基因组。

命名任务:GeneGPT在一次性基因别名任务(准确率为0.80)和零次基因名称转换任务(准确率为0.98)上均取得了最先进的(SOTA)性能。平均而言,GeneGPT大幅优于New Bing(0.89比0.76)。所有其他GPT模型在命名任务上的准确率得分都小于0.10。

基因组位置任务:GeneGPT还在所有基因组位置任务上取得了最先进的性能,包括一次性基因SNP关联任务(1.00准确率),以及零次基因位置任务(0.62准确率)和零次SNP位置任务(1.00准确率)。尽管New Bing在基因位置上与GeneGPT相当(0.61比0.62),但其在两个与SNP相关的任务上的表现接近于0。同样,大多数其他LLMs的得分都小于0.10。

功能分析任务:New Bing在功能分析任务上的表现比GeneGPT更好(平均分数:0.91比0.58),这可能是因为Bing搜索引擎可以检索到许多与基因功能相关的网页。作者还注意到其他LLMs,特别是GPT-3和ChatGPT,在功能分析任务上表现适中,远比它们在其他任务上表现要好。这可能也是因为它们的预训练语料库中包含了许多与基因功能相关的文本。

序列比对任务:GeneGPT的平均得分为0.65,比包括New Bing在内的所有其他模型表现都要好得多,后者在序列比对任务上基本上失败了。这并不令人惊讶,因为使用BLAST工具进行序列比对非常容易,但对于自回归LLM来说,即使使用检索增强,输入序列也过于具体,几乎不可能在任何网页上出现。

结论

作者提出了GeneGPT,一种通过上下文学习教授大型语言模型使用NCBI Web API的新方法。初步结果表明,与包括New Bing在内的各种LLMs相比,GeneGPT在各项任务中取得了最先进的性能。这表明,外部工具可能比相关网页更适合增强LLMs以解决基因组学问题。作者计划通过两个未来方向来扩展这个试点研究:(1)使用NCBI API调用对LLMs进行微调,而不是进行上下文学习,(2)探索多跳生物医学问答和思维链提示等方法,以更好地满足有关生物医学信息的实际需求。

参考资料

Jin, Q., Yang, Y., Chen, Q., & Lu, Z. (2023). GeneGPT: Teaching Large Language Models to Use NCBI Web APIs. arXiv preprint arXiv:2304.09667.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/29465.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

彩票怎样才能中奖?通过一定的数学算法是否可行

理论上,只能靠运气。但是,如果规则设计得不好,就可以钻漏洞。 2005年2月,美国的一个彩票品种,就出现了漏洞,被麻省理工学院的学生发现了。随后的七年,这个学生反复购买这个品种,一共…

微信域名防封技术,APP推广链接如何在微信域避免被封,如何防拦截?

本身在网站要想在微信端被使用,多多少少都会有预防被拦截,是专门为运营网站和公众号的运营者一个研究的工具几十你是正常网站, 也是公司企业备案,照样也会被拦截。这个被拦截一般来说就是你的这个域名已经在微信中打不开了&#…

当域名被微信封了怎么办?

当把网站嵌入到微信公众号时,也存在一个风险:微信封域名,这样所有微信端的页面打开就会提示:已停止访问该网页,如下图所示: 最有效的解封方式 在违规的页面处理完毕后,运营或产品同学赶紧给mo…

微信域名防屏蔽防封系统,轻松微信中域名网站被屏蔽被封的问题

做微信营销活动,域名没被封过,那你的营销人生肯定是不完整的。如果做到微信域名防封呢?这就要借助一些工具来实现有效的防封措施了。 第一步 你需要有一个微信域名检测接口,自己开发或是购买都可以。 第二步 配置你的程序&…

微信域名经常被封?微信屏蔽域名的机制

为什么? 微信被封? 被秒封? 本人也是做防封的 所以总结一些小经验 一 服务器 服务器方面 是目前很多大家在做的 很多做防封的朋友都一样这种经历 例如把自己的域名 解析到 防封平台的服务器上 很诡异的是 确实被封的概率确实降低了很多 这种…

微信域名防封跳转系统详解,域名总是被微信屏蔽应该这样做

很多人问,微信域名防封跳转系统是怎么实现的,域名链接被微信拦截封杀,就是不能在微信环境中打开,需要通过点击右上角选择浏览器打开。 域名链接微信屏蔽,顾名思义,肯定是看不到了。 域名链接被微信封杀&…

网站域名在微信端被封禁了怎么办?这样几步就能解封!

当你发现自己的网站在微信里打不开了怎么办? 页面显示“已停止访问该网页”,解封需要怎么做?会不会很麻烦?需要多长时间? 不用着急,通常碰上这种情况,我们可以通过“在线申请”和“邮件申请”两…

微信域名防红系统,解决微信域名老是被封

微信域名防封技术及微信域名被封解决方案。 微信又封杀我的域名了,微信域名被封怎么办? 做微信项目的兄弟们总跟我唠嗑抱怨,这个无可厚非, 微信如果不做屏蔽措施,微信里面传播传播的信息良莠不齐不治理,…

【全新官方接口】php检测微信域名拦截,检测微信域名被封

你的域名在微信被拦截的3种常见情况 1、域名因违规或有风险被拦截(红色拦截) 2、类似taobao.com,douyin.com这种的恶意竞争式拦截,淘宝、抖音等微信的竞争对手一般都是白色拦截(白色拦截) 3、有一个中间页…

如何检测域名微信防红或网址被微信防封停止访问了

当域名被微信封禁时,访问的链接会先经过微信服务器检测,如果正常就放行,否则会重定向跳转到下面这个链接(修改这个链接的参数,有趣的现象会发生)https://weixin110.qq.com/cgi-bin/mmspamsupport-bin/newre…

GPT-5不能停!吴恩达田渊栋反对千人联名,OpenAI CEO也发声了

点击上方“Python与机器智能”,选择“星标”公众号 第一时间获取价值内容 Pine 发自 凹非寺量子位 | 公众号 QbitAI 千人联名要求“暂停巨型AI实验”在网上经过一天的发酵,各方声音都已经涌现出来。 继LeCun之后,吴恩达、田渊栋等一众AI大牛也…

马斯克骗了全世界

观点| Mr.K 主笔| Wendy.L 编辑| Emma 来源| 技术领导力(ID:jishulingdaoli) 马斯克又又又打脸了。他一边劝阻GPT-5的研究,一边狂买1万块GPU,成立X.AI准备研发自己的大模型。有人说马斯克,又当又立、欺骗大众;也有…

要不要限制 AI?我们把与 GPT-4 有关的观点收集全了

《三体》中的降临派、拯救派和幸存派分别代表着不同的观念和立场。借用这三个概念,我们可以将对 AI 看法的人划分为 AI 降临派、AI 拯救派和 AI 幸存派。 AI 降临派: 这一派的人认为 AI 的发展将为人类带来巨大的好处,甚至取代人类成为地球…

震惊!使用RNN就能达到超越GPT的对话效果!甚至超越LLaMA? Github已近万star

大家好,我是zenRRan,最近在群里发现小伙伴分享了一篇极为震撼的文章:通过纯RNN架构竟然达到甚至超越以GPT为base的大语言模型的性能。刚开始我还以为是民科呢,但是细细了解后发现作者知乎关注达十几万 该项目的github名为The RWKV…

GPT-5别整了!

源 | 量子位 GPT-4让大牛慌了,紧急联名成立人类拯救派: 所有AI实验室立即暂停训练GPT-4更先进的AI系统! 至少6个月限期。 包括马斯克、Bengio在内的上千位产学研代表联名发表公开信“暂停巨型AI实验”,瞬间引起轩然大波。 信中强调…

GPT-5别整了!马斯克Bengio等联名疾呼:所有先进AI系统暂停研发6个月

杨净 发自 凹非寺 量子位 | 公众号 QbitAI GPT-4让大牛慌了,紧急联名成立人类拯救派: 所有AI实验室立即暂停训练GPT-4更先进的AI系统! 至少6个月限期。 包括马斯克、Bengio在内的上千位产学研代表联名发表公开信“暂停巨型AI实验”&#xff…

ChatGPT,先养肥了卖课的

作者:深燃 链接:https://zhuanlan.zhihu.com/p/620662534 来源:知乎 著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。 最近,互联网从业者北北发现,身边的大V突然都在用ChatGPT做流…

史上最全Python资料合集,零基础小白学习必备资料

人工智能时代来临,ChatGPT 火热,当代打工人的命运何去何从? 人工智能随着大数据语言模型的发展迎来了爆发,生产力真正开始变革,甚至因为发展太快而出现继续推进GPT5 训练的“降临派”和暂停开发研究的“拯救派”。在未…

一文讲透『大神修炼心法』!35岁让自己过的越来越好!

Cocos 的老铁,如果你这几天没有被麒麟子给卷到?那说明你还没有真正进入 Cocos 圈子里来。为什么这么说呢?看下面。 3月1号 23:57 | 2800字 麒麟子全方位解读 Cocos Cyberpunk 工程源码 - 开篇!3月2号15:54 | 3500字 麒麟子全方位解…

985高校副教授晒年薪,公积金顶普通人月薪,网友:不愧是在上海!

上一篇:帝都某外企裁员,补偿673252.62元 !准备回家躺平了 ! 高考报志愿的时候,一线城市的高校总是格外受欢迎,本地的考生不想往外走,外地的考生想去大城市,导致一线城市的高校录取分…