GeneGPT:用领域工具增强大型语言模型,以改善对生物医学信息的访问

文章目录

  • 一、论文关键信息
  • 二、主要内容
    • 1. Motivations
    • 2. 解决方案关键
    • 3. 实验和结果
  • 三、总结与讨论

🍉 CSDN 叶庭云https://yetingyun.blog.csdn.net/


一、论文关键信息

论文标题:GeneGPT: Augmenting Large Language Models with Domain Tools for Improved Access to Biomedical Information

在这里插入图片描述

论文地址:https://arxiv.org/abs/2304.09667

作者团队:Qiao Jin, Yifan Yang, Qingyu Chen, Zhiyong Lu

👨‍💻 代码地址:暂无

关键词:大型语言模型、生物医学问答、工具学习

🏆 一段话总结:教会 CodeX 使用 NCBI Web APIs,SOTA on 7 #GeneTuring tasks

尽管大型语言模型(LLMs)已被成功应用于各种任务,然而它们仍然面临着幻觉的挑战。利用特定于领域的工具(如数据库实用工具)扩展 LLMs 的应用,能够更轻松、更精准地访问专业知识。在这篇论文中,作者提出了 GeneGPT,这是一种新的方法,用于教授 LLM 利用国家生物技术信息中心(NCBI)的 Web APIs 来回答基因组学问题。具体而言,作者建议使用 CodeX 进行上下文学习,结合增强解码算法来检测和执行 APIs 调用,从而利用 NCBI Web APIs 解决 GeneTuring 测试(基因组学问答基准)。

经过实验证明,GeneGPT 在 GeneTuring 基准测试中 8 个任务中表现最为优异,平均得分为 0.83。相比之下,在检索增强的 LLMs 中,New Bing 得分仅为 0.44;而在生物医学 LLMs 中,BioMedLM 和 BioGPT 的得分分别为 0.08 和 0.04。此外,相对于 GPT-3 和 ChatGPT 而言,GeneGPT 的表现也更为突出,它们的得分分别为 0.16 和 0.12。

进一步分析表明:

  • API 演示具有优秀的跨任务通用性,相比文档更有利于上下文学习。
  • GeneGPT 可以推广到更长的 APIs 调用链上,并能在 GeneGPT 内回答多跳问题。
  • 不同任务中出现的各种错误类型为未来的改进提供了有价值的思路和见解。

理解一篇论文的基本逻辑和形式

  • 针对这篇论文,明确该研究主题的重要意义。
  • 在这篇论文完成之前,存在那些挑战和瓶颈性问题。
  • 针对这些难点,这篇论文提出/采用/改进了什么关键技术,实现了什么效果。
  • 针对什么问题,采取什么策略/开发什么方法,实现或达到什么目标。

二、主要内容

1. Motivations

解决什么问题?做这个事儿的意义、挑战?

  • 解决什么问题? → \rightarrow 教会 CodeX 使用 NCBI Web APIs。
  • 做这个事儿的意义? → \rightarrow 允许 LLM 使用 NCBI Web APIs 能够提供更轻松和更精准的生物医学信息访问,尤其对于缺乏数据库系统经验的用户而言更具价值。此外,Web APIs 还可在访问过程中,免于用户自行实现功能、维护大型数据库和承担繁重的计算负担,其唯一要求是需要良好的网络连接。
  • 做这个事儿的挑战? → \rightarrow 理解用户输入的自然语言问题及意图、Prompt Engineering

2. 解决方案关键

GeneGPT 通过上下文学习和使用 NCBI Web APIs 来提示 CodeX。GeneGPT 由两个主要模块组成:

  • 通过 API 使用文档和演示特别设计的提示
  • 集成 API 调用的推理算法,用于在 CodeX 解码过程中。

利用 NCBI Web APIs 的 E-utils 和 BLAST 工具,提供了访问生物医学数据库和进行 DNA 序列比对的功能。这些 Web APIs 调用是通过 Python 中的 urllib 库实现的。

请添加图片描述

通过上下文学习和 Prompt Engineering,教授一个 LLM 如何使用 NCBI Web APIs。展示了 GeneGPT 提示符的示例,它由四个模块组成:

  • 指令
  • API 说明文档
  • API 演示
  • 测试问题

前三个部分对于所有任务都是固定的,而最后一个部分则是特定于任务的。

GeneGPT 推理算法。具体而言,我们首先将给定的问题附加到提示符上,并将连接后的文本以温度为 0 的方式提供给Codex。我们选择使用 CodeX 有两个原因:

  • 它是使用代码数据进行预训练的,并显示出更好的代码理解能力,这在生成 URL 和解释原始 API 结果方面至关重要。
  • 它的 API 具有所有可用模型中最长的上下文长度(8k 个标记),因此我们可以将演示内容适配进去。

3. 实验和结果

实验任务:

  • 命名任务。这是关于基因名称的,使用基因别名任务和基因名称转换任务,其中的目标是为它们的非官方同义词找到正式的基因符号。
  • 基因组定位任务。关于基因的位置,单核苷酸多态性(SNP),以及它们之间的关系。包括基因定位,SNP 定位和基因 SNP 关联任务。前两个任务要求找出一个基因或 SNP 的染色体位置(如 chr12),最后一个任务要求找出一个特定 SNP 的相关基因。
  • 功能分析任务。查询基因功能,使用基因疾病关联任务,其目标是返回与特定疾病相关的基因,以及蛋白质编码基因任务,该任务询问一个基因是否是蛋白质编码基因。
  • 序列比对任务。查询特定的 DNA 序列。将 DNA 序列比对应用于人类基因组任务,将 DNA 序列比对应用于多物种任务。前者将 DNA 序列映射到特定的人类染色体,而后者将 DNA 序列映射到特定的物种(如 “斑马鱼”)

主要就是评估在生物医学问答基准 GeneTuring 上的准确性:

在这里插入图片描述


三、总结与讨论

推出了 GeneGPT,这是一种新颖的方法,教授 LLMs 如何使用 NCBI Web APIs。它在 8 个 GeneTuring 任务上实现了 SOTA 性能,并可以执行链式 API 调用。实验结果表明,数据库实用工具可能比相关网页更优秀,可以增强 LLMs,以忠实地服务于各种生物医学信息需求。

📚️ 相关工作:

  • 大型语言模型
  • 工具学习
  • 生物医学问答

🚀 论文的主要贡献总结如下:

  • 引入了 GeneGPT,这是一种新颖的方法,利用 NCBI Web APIs 来回答生物医学问题。作者声称,这是第一项使用领域特定的 Web APIs 工具来增强 LLMs 的研究。
  • GeneGPT 在 GeneTuring 基准测试的 8 个任务中取得了 SOTA 的表现,大大优于以前最佳结果 88%(0.83 v.s. 0.44 set by the new Bing)。
  • 进一步实验验证了 GeneGPT,包括消融、探测和误差分析。我们还贡献了一个新颖的 GeneHop 数据集,并使用它来展示 GeneGPT 可以执行思路链式 API 调用来回答多跳基因组学问题。

👀 可能的改进和进一步工作:

  • Prompt Engineering
  • 强化思维链推理
  • OpenAI 官方的 API 已经推出了函数调用功能啦

参考链接:

  • Jin, Q., Yang, Y., Chen, Q., & Lu, Z. (2023). GeneGPT: Augmenting Large Language Models with Domain Tools for Improved Access to Biomedical Information. ArXiv.
  • GeneGPT 利用生物医学信息工具增强大型语言模型
  • 🧬 #GeneGPT: augmenting #LLMs with domain tools for improved access to biomedical information
  • emoji 中文网 | 个人觉得写博客可以多用一些合适的 emoji 表情
  • Google 机器学习术语表

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/65793.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

怎么禁止计算机共享磁盘,访问限制,分享如何禁止别人访问你电脑的本地磁盘...

随着科技的快速发展,现在的小学生都用上手机了,更是有不少小孩子都会在电脑上玩游戏了,小学生玩LOL可是不少见。在小孩子玩电脑时,除了害怕他沉迷游戏,无心向学,还有就是担心熊孩子乱删电脑文件。如果误删了…

hosts配置 kentrl 网络禁止 访问

hosts禁止联网的工具 127.0.0.1 activate.navicat.com 127.0.0.1 syntevo.com www.syntevo.com #smartgit 127.0.0.1 release.gitkraken.com api.gitkraken.com GitKraken – 超好用的 Git 可视化工具 - 免费版本 “version”: “6.5.1”, “url_deb”: “https://release.axo…

QQ/微信里被禁止访问的网页怎么处理 被屏蔽的域名如何正常访问

最近越来越多的网站被微信的检测系统封杀,有的是确实违规,有的则是被误报了。出现这样的问题,网站的流量瞬间就清零了,对站长来说是天塌一样的打击,那我们有没有办法能够有效的防止域名被微信封杀呢? 一、先…

禁止访问某文件

1.web.config文件配置&#xff1a; 在Web.config文件 <system.web> <httpHandlers>添加一个节点 <system.web><httpHandlers><!--禁止访问IPData目录下的文本文件--><add path"IPData/*.txt" verb"*" type"System.…

用户登录 默认 计算机 用户文件,guest登录系统默认禁止guest访问本地计算机(组图)...

Win10共享文件夹&#xff0c;创建(启用)用户和共享文件&#xff0c;修改特定用户访问权限 内容 一、以访客身份登录 默认情况下&#xff0c;系统禁止访客访问本地计算机。如果允许访客用户访问&#xff0c;则需要进行以下设置&#xff1a; 1.打开访客账户。 图1.1 打开Guest用户…

禁止外部网络访问公司内网

PC0所在网段模拟公司内网&#xff0c;Server0模拟外部网络。 要求内网可以访问外部网络&#xff0c;但是外网不能连接内网 Router1 配置如下&#xff1a; interface FastEthernet0/0 ip address 192.168.10.254 255.255.255.0 duplex auto speed auto ! interface Serial2/0…

微信内链接已禁止访问是什么情况?微信链接防封细节

有时候我们在微信上浏览一些网址的时候会出现这样的情况,比如提示已停止访问该网页,其实提示这个也是为了广大用户的安全着想,毕竟有很多不法网址存在的,但是也由于错杀等原因导致打不开,点击链接提示已禁止访问几种原因是什么呢?那么碰到这种情况我们应该怎么做呢? 一…

为什么公司内部服务禁止访问外网?

文章目录 什么是访问外网&#xff1f;访问外网的风险什么业务场景需要申请外连公网&#xff1f; 上图网络访问分为两个方向&#xff1a; Internet&#xff08;外网&#xff09;访问公司网络 www.taobao.com&#xff1a;请求经路由转发后会到公司负载均衡服务器上&#xff0c;负…

手动禁止访问某些网页,告别摸鱼

手动禁止访问某些网页 开端解题思路逆向思维实现效果总结 开端 有一个不自觉地朋友&#xff0c;告诉我有了新电脑后很烦恼&#xff1a;速度快了&#xff0c;访问网页也快了&#xff0c;管不住自己的手……总在该专心学习工作的时候忍不住刷微博&#xff0c;或者追剧停不下来。…

GoogleChrome禁止访问端口解决

由于系统的版本迭代&#xff0c;从weblogic10.3.6升级到最新的weblogic14.1.1.0&#xff0c;在本地环境搭建创建weblogic域的时候&#xff0c;由于个人风采定义了一个端口为6666的端口&#xff0c;在一起部署完成&#xff0c;通过Google Chrome浏览器访问访问不到&#xff0c;提…

chatgpt赋能python:Python如何利用GPU加速

Python如何利用GPU加速 在大数据时代&#xff0c;数据处理和分析的速度越来越成为企业和个人必备的能力。然而&#xff0c;随着数据集的不断增大&#xff0c;计算机处理速度的瓶颈逐渐暴露出来。为此&#xff0c;GPU加速成为了解决这一问题的有效途径。 什么是GPU加速 GPU即…

国产Gpt究竟该如何使用?

说实话&#xff0c;当初ChatGPT横空出世我是不相信它可以进行专业知识的解答的&#xff0c;毕竟只是人为写出来的一个程序而已&#xff0c;但是当使用了一段时间以后&#xff0c;发现人工智能真的不是说说而已。发展到现在gpt3.5已经很可怕了&#xff0c;4.0又出了~~ 由于一些不…

【2023】分享国内外大厂开发主要AI网站

大厂原版 OpenAI ChatGPT 921 New Bing 415 Notion AI 90 百度文心一言 467 TruthGPT 105 讯飞星火认知大模型 141 进阶 Hugging Face 62 写作AI ​ Dyrt 394&#xff08;AI写作&#xff09; ​ DeepL Write 211&#xff08;写作翻译&#xff09; ​AI自动写文章 535 …

为了你的账户安全,此WeChat ID 不能登入Wechat网页版。你可以.......

问题&#xff1a;微信网页版无法登录了。针对某些公司不允许下载客户端&#xff0c;但是是在Windows系统下的工作&#xff0c;可以按照我的这个简单方法来解决。 尝试咨询微信客服&#xff0c;微信客服的回复是&#xff1a;目前微信对网页版微信进行了动态安全策略调整。如登录…

iMeta | 中科院生态中心邓晔组发布微生物组网络分析平台iNAP(图文/视频教程)

点击蓝字 关注我们 针对微生物组学研究的集成网络分析平台 https://doi.org/10.1002/imt2.13 2022/3/16 ● 2022年3月16日&#xff0c;中国科学院生态环境研究中心邓晔组在iMeta在线发表题为“iNAP: An integrated network analysis pipeline for microbiome studies”的方法类…

【微信篇】电脑版微信的照片视频文件位置变化

【微信篇】电脑版微信的照片视频文件位置变化 新版的微信视频图片更新了位置&#xff0c;感觉有好有坏吧&#xff0c;好的方面就是以后查找视频、图片、文档等可能更方便&#xff1b;不好就是越更新占用体积越大&#xff0c;还多很多数据&#xff0c;不懂是否流氓&#xff1f;…

【二】微信公众号之扫码关注后自动登录

​ 原来公司的官网就支持账号密码、手机验证码、QQ扫码授权、微信扫码授权等多种登录方式。昨天分享了微信公众号之扫码登录&#xff0c;今天接到需求说要为了咋们的公众号涨粉&#xff0c;要扫码后关注公众号后才可以登录&#xff0c;我一想这不是耍流氓嘛&#xff0c;登个网站…

综合实验 (NAT,ACL等配置)

一、实验要求 1、AR6理解为ISP设备&#xff0c;所连接的两个网段为公网&#xff1b;R1-R5构建为一个私有的局域网&#xff1b; 2、AR6上只能进行ip地址配置&#xff0c;之后不得对该路由器进行其他任何配置 3、公网范围IP地址已经指定&#xff0c;剩余R1-R5整个私网使用192.…

NAT-HCIA阶段综合实验

拓扑结构&#xff1a; 要求 1、ISP路由器只能配置IP地址&#xff0c;之后不得进行其他配置 2、内部整个网络基于192.168.1.0/24进行地址规划 3、R1、R2之间启动OSPF协议&#xff0c;单区域 4、PC1~PC4自动获取IP地址 5、PC1不能telnetR1&#xff0c;PC1外的其他内网PC可以t…

Windows PC版微信内置浏览器调试

需求背景 有时候你会可能遇到这种情况&#xff0c;因为微信的限制&#xff0c;一些网页只能用微信内置的浏览器打开&#xff0c;这就导致有时候一些生产环境的问题&#xff0c;不方便排查。下面将介绍如何通过老版本的PC端微信&#xff0c;打开微信内置浏览器调试。本教程提到…