评价基于GPT和Bert的方法并用于生信文本识别PPI

检测蛋白质-蛋白质相互作用(PPI)对于理解遗传机制、疾病发病机制和药物设计至关重要。然而,随着生物医学文献的快速增长,越来越需要自动和准确地提取PPI以促进科学知识发现。预训练语言模型,例如生成式预训练Transformer(GPT)和基于Transformer的双向编码器(BERT),已在NLP任务中显示出优势。作者使用手动管理的基准语料库评估了各种GPT和BERT模型的PPI识别性能,该语料库包含来自逻辑学习语言(LLL)的77个句子中的164个PPI。基于BERT的模型实现了最佳的整体性能,其中PubMedBERT实现了最高的精度(85.17%)和F1分数(86.47%),而 BioM-ALBERT 实现了最高的召回率(93.83%)。尽管没有针对生物医学文本进行明确的训练,但 GPT-4 以 83.34% 的精度、76.57% 的召回率和 79.18% 的 F1score 实现了与最佳BERT模型相当的性能。这些发现表明GPT模型可以有效地从文本数据中检测PPI,并具有用于生物医学文献挖掘任务的潜力。

来自:Evaluation of GPT and BERT-based models on identifying protein-protein interactions in biomedical text

目录

  • 背景概述
  • 方法
    • 数据集
    • 语言模型
      • Auto-regressive Language Models
      • Masked Language Models
    • 为GPT定制query
    • GPT-3中的温度参数优化
    • 表现评估
  • 结果和讨论

背景概述

PPI对于许多生物学功能至关重要,比如细胞代谢,将基因型转化为表型。了解这些相互作用可以增强对健康和疾病状态下的生物过程、pathways和networks的理解。现有各种公共PPI数据库,包括从中低通量实验收集的PPI。然而,这些资源仍然不完整,并未涵盖所有潜在的PPI。另外,全新的PPI通常在生信文本上报道。基于科学文献的快速增长,手动提取PPI已经变成一个困难的任务,我们需要一个无需人工参与的自动文本挖掘工具。

NLP是计算机科学的一个重点领域,并越来越多应用于各个领域,包括近年来经历了数据快速增长的生物医学研究。生信关系抽取是一种NLP方法,旨在识别生物医学文本中两个或多个实体之间的关系,用于支持生信文本的自动分析。深度学习的进步,例如CNN和RNN以及 NLP的进步使得生物医学文本挖掘能够成功地发现蛋白质之间的相互作用。预训练大型神经语言模型已使得许多NLP问题得到实质性改进。近年来,transformer架构在各种NLP任务中取得了最先进的成果,包括生物医学领域的关系提取。

随后,出现了基于 transformer 的模型,如BERT,一种掩码语言模型。这些模型称为大型语言模型LLM,专注于理解语言和语义。LLM在大量数据上进行了预训练,可以针对各种任务进行微调。最近的研究表明,LLM在上下文零样本和少样本学习、分析、生成和理解人类语言方面表现出色。LLM的海量数据处理能力可用于识别文本元素之间的联系和趋势。

另一种LLM是GPT,GPT-3由OpenAI开发,具有大规模预训练、零和少样本学习、上下文感知、创造力和自适应性等优势。OpenAI的ChatGPT是GPT模型的3.5版本,展示了分析和处理文本数据的巨大潜力。最近推出了GPT-4,能够在各种创意和技术写作任务中与用户进行制作、修改和合作,例如歌曲创作、剧本创作和模仿用户写作风格。GPT模型的进步,从GPT-3到GPT-4,展示了NLP的快速进步,并开辟了广泛的应用领域。

目前已经发表了几项研究,评估GPT模型在各种标准化测试中解决问题的性能,并且已经表明它们能够实现与人类相当甚至更好的性能,并且能够通过专业的标准化测试。然而,目前尚未进行任何研究来评估GPT模型可用于从生物医学文本中提取PPI。在这里,作者对多个GPT模型的PPI识别性能进行了全面评估,并将其与用于关系提取的最先进的基于 BERT的模型进行比较。

方法

数据集

作者使用了LLL语料库,其中包含77个句子中的164个PPI。LLL语料库是为2005年逻辑学习语言LLL05挑战创建的数据集。它包含枯草芽孢杆菌(Bacillus subtilis,一种细菌)中手动标记的基因/蛋白质相互作用,句子在XML文件中提供。

LLL不包含无相互作用关系的实体对,这影响BERT-based方法的训练,为了解决这个问题,作者使用每个句子中标识的实体生成了所有可能的实体对组合。因此,在一个句子中用 n n n个蛋白质实体可以生成总共 C ( n , 2 ) C(n,2) C(n,2)个实体对,然后,如果在LLL中报告了相互作用对,将其标记为正样本,将其余的标记为负样本。

作者还应用了基本的预处理步骤,通过删除标点符号、纯数字字符串和空格,并将所有字母转换为小写来确保捕获所有实体,从而产生标准化的蛋白质名称。对于基于BERT的模型,将实体对中的实体名称替换为PROTEIN1和PROTEIN2关键字。

语言模型

作者评估了三个自回归语言模型GPT-3、GPT-3.5 via ChatGPT 和 GPT4 via ChatGPT,以及七个掩码语言模型Bio_ClinicalBERT、BioBERT、BioM-ALBERT-xxlarge、BioM-BERT-PubMed- PMC-Large、PubMedBERT、SciBERT_scivocab_cased 和 SciBERT_scivocab_uncased。

Auto-regressive Language Models

GPT是OpenAI在2018年基于Transformer架构开发的语言模型。Transformer 模型由一个生成隐藏表示的编码器和一个生成输出序列的解码器组成。自注意力机制使神经网络能够确定输入元素的重要性,使其成为语言翻译、文本分类和文本生成的理想选择。GPT架构包括具有自注意机制的层、全连接层和层归一化,可以防止训练期间的过拟合。

图1展示了OpenAI在过去几年中发布的GPT模型的历史。GPT的第一个版本GPT-1有1.17亿个参数。它是使用包括维基百科在内的大量文本数据进行训练的。GPT-2比其前身GPT-1有15亿个参数的显著提升。它是在包括网页和书籍在内的更大的文本数据语料库上进行训练的,可以产生更连贯、更令人信服的语言。GPT-3使用1750亿个参数进行训练,包括庞大的文本数据语料库,包括网页、书籍和学术文章。GPT-3在语言翻译、聊天机器人开发和内容生成等一系列NLP任务中表现出色。

2022年11月30日,OpenAI发布了ChatGPT,这是一种引人入胜的对话工具,能够基于文本数据产生与上下文相关的响应。ChatGPT在GPT-3.5系列上进行了微调,其中包括以下型号:GPT-3.5-turbo-0301、code-davinci-002、text-davinci002和text-davicin-003。在作者的研究中,最新的gpt-3.5-turbo-0301作为gpt-3.5。2023年3月14日,OpenAI推出了迄今为止最先进、最前沿的系统GPT-4,该系统通过产生更可靠的结果而超越了其前身。表1总结了GPT模型的架构和参数数量,包括的GPT-3、ChatGPT和GPT-4。
fig1

  • 图1:GPT(generative pre-trained transformer),API(application programming interface)。

fig2

  • 表1:GPT型号规格。

Masked Language Models

作者研究了包括六种不同的基于BERT的模型:

  • BioBERT:一个基于PubMed摘要和PubMed Central(PMC)全文文章预先训练的BERT模型,用于不同的NLP任务。BioBERT v1.0使用了超过20万篇摘要和超过27万篇PMC文章。扩展版BioBERT v1.1使用>1M PubMed摘要进行了微调。
  • SciBERT:在随机语义学者文章(random Semantic Scholar articles)上预训练的BERT模型。在对文章进行预训练时,使用了整个文本。
  • Bio-ClinicalBERT:一个微调的BioBERT v1.0模型(PubMed 200K+PMC 270K),包含MIMIC-III v1.4的所有注释,MIMIC-IIII v1.4是一个电子健康记录数据库,包含约8.8亿个单词。
  • PubMedBERT:一个在BLURB(生物医学语言理解与推理基准)上训练的BERT模型。
  • BioM-ALBERTxxlarge:在PubMed摘要上预训练的BERT模型,具有与ALBERTxxLarge相同的架构。
  • BioM-BERTLarge:与BERTLarge具有相同架构的BERT模型。

为GPT定制query

为了从LLL语句中提取PPI,作者利用OpenAI的应用程序编程接口(API)访问GPT-3,而GPT-3.5和GPT-4是通过ChatGPT Plus的web界面访问的。作者仔细设计了API和web界面所需的prompts,以最少的后处理步骤生成稳定的interaction。LLL数据包括44篇出版物中的77句话,共164个PPI。作者从数据集中提取了必要的信息,并使用文档级折叠将其分为十个fold。对于每个fold,提供了句子ID和句子作为输入以及query,如表2所示。为了评估涵盖这77个句子的生物医学实体词典的影响,还执行了两个额外的查询,即在上述预处理之后创建的原始蛋白质名称和标准化蛋白质名称。

Query typeQuery
Base: without protein names从给定的句子中找出所有可能的PPI,并以表格形式提供结果,比如列为(句子ID|蛋白质1|蛋白质2|蛋白质-蛋白质相互作用)。确保表格每一行都包含一对蛋白质-蛋白质相互作用,即使从一句话中可以识别出多对。
With protein names从给定的句子中找出所有可能的蛋白质-蛋白质相互作用,并以表格形式提供结果,列为(句子ID|蛋白质1|蛋白质2|蛋白质-蛋白质相互作用)。确保每一行都包含一对蛋白质-蛋白质相互作用,即使从一句话中可以识别出多对。以下是蛋白质名称供您参考:[‘KinC’ ‘KinD’ ‘sigma(A)’ ‘Spo0A’ ‘SigE’ ‘SigK’ ‘GerE’ ‘sigma(F)’ ‘sigma(G)’ ‘SpoIIE’ ‘FtsZ’ ‘sigma(H)’ ‘sigma(K)’ ‘gerE’ ‘EsigmaF’ ‘sigmaB’ ‘sigmaF’ ‘SpoIIAB’ ‘SpoIIAA’ ‘SigL’ ‘RocR’ ‘sigma(54)’ ‘E sigma E’ ‘YfhP’ ‘SpoIIAA-P’ ‘sigmaK’ ‘sigmaG’ ‘ComK’ ‘FlgM’ ‘sigma X’ ‘sigma B’ ‘sigma(B)’ ‘sigmaD’ ‘SpoIIID’ ‘sigmaW’ ‘PhoP~P’ ‘AraR’ ‘sigmaH’ ‘yvyD’ ‘ClpX’ ‘Spo0’ ‘RbsW’ ‘DnaK’ ‘sigmaE’ ‘sigma W’ ‘sigmaA’ ‘sigma(X)’ ‘CtsR’ ‘Spo0A~P’ ‘spoIIG’ ‘ydhD’ ‘ykuD’ ‘ykvP’ ‘ywhE’ ‘spo0A’ ‘spoVG’ ‘rsfA’ ‘cwlH’ ‘KatX’ ‘katX’ ‘rocG’ ‘yfhS’ ‘yfhQ’ ‘yfhR’ ‘sspE’ ‘yfhP’ ‘bmrUR’ ‘ydaP’ ‘ydaE’ ‘ydaG’ ‘yfkM’ ‘sigma F’ ‘cot’ ‘sigK’ ‘cotD’ ‘sspG’ ‘sspJ’ ‘hag’ ‘comF’ ‘flgM’ ‘ykzA’ ‘CsbB’ ‘nadE’ ‘YtxH’ ‘YvyD’ ‘bkd’ ‘degR’ ‘cotC’ ‘cotX’ ‘cotB’ ‘sigW’ ‘tagA’ ‘tagD’ ‘tuaA’ ‘araE’ ‘sigmaL’ ‘spo0H’ ‘sigma G’ ‘sigma 28’ ‘sigma 32’ ‘spoIVA’ ‘PBP4*’ ‘RacX’ ‘YteI’ ‘YuaG’ ‘YknXYZ’ ‘YdjP’ ‘YfhM’ ‘phrC’ ‘sigE’ ‘ald’ ‘kdgR’ ‘sigX’ ‘ypuN’ ‘clpC’ ‘ftsY’ ‘gsiB’ ‘sigB’ ‘sspH’ ‘sspL’ ‘sspN’ ‘tlp’]
With normalized protein names从给定的句子中找出所有可能的蛋白质-蛋白质相互作用,并以表格形式提供结果,列为(句子ID|蛋白质1|蛋白质2|蛋白质-蛋白质相互作用)。确保每一行都包含一对蛋白质-蛋白质相互作用,即使从一句话中可以识别出多对。以下是蛋白质名称供您参考:[‘kinc’ ‘kind’ ‘sigmaa’ ‘spo0a’ ‘sige’ ‘sigk’ ‘gere’ ‘sigmaf’ ‘sigmag’ ‘spoiie’ ‘ftsz’ ‘sigmah’ ‘sigmak’ ‘esigmaf’ ‘sigmab’ ‘spoiiab’ ‘spoiiaa’ ‘sigl’ ‘rocr’ ‘sigma54’ ‘esigmae’ ‘yfhp’ ‘spoiiaa-p’ ‘comk’ ‘flgm’ ‘sigmax’ ‘sigmad’ ‘spoiiid’ ‘sigmaw’ ‘phop~p’ ‘arar’ ‘yvyd’ ‘clpx’ ‘spo0’ ‘rbsw’ ‘dnak’ ‘sigmae’ ‘ctsr’ ‘spo0a~p’ ‘spoiig’ ‘ydhd’ ‘ykud’ ‘ykvp’ ‘ywhe’ ‘spovg’ ‘rsfa’ ‘cwlh’ ‘katx’ ‘rocg’ ‘yfhs’ ‘yfhq’ ‘yfhr’ ‘sspe’ ‘bmrur’ ‘ydap’ ‘ydae’ ‘ydag’ ‘yfkm’ ‘cot’ ‘cotd’ ‘sspg’ ‘sspj’ ‘hag’ ‘comf’ ‘ykza’ ‘csbb’ ‘nade’ ‘ytxh’ ‘bkd’ ‘degr’ ‘cotc’ ‘cotx’ ‘cotb’ ‘sigw’ ‘taga’ ‘tagd’ ‘tuaa’ ‘arae’ ‘sigmal’ ‘spo0h’ ‘sigma28’ ‘sigma32’ ‘spoiva’ ‘pbp4*’ ‘racx’ ‘ytei’ ‘yuag’ ‘yknxyz’ ‘ydjp’ ‘yfhm’ ‘phrc’ ‘ald’ ‘kdgr’ ‘sigx’ ‘ypun’ ‘clpc’ ‘ftsy’ ‘gsib’ ‘sigb’ ‘ssph’ ‘sspl’ ‘sspn’ ‘tlp’]
  • 表2:GPT-3(API)、GPT-3.5(ChatGPT)和GPT-4(ChatGPT)提示中包含的查询。

GPT-3中的温度参数优化

OpenAI的API允许调整GPT中的“温度”参数,这决定了生成模型的贪婪程度或创造性。参数范围在0(最不具创造性)和1(最具创造性)之间。作者使用OpenAI API和11个温度(最小值=0,最大值=1,增量=0.1)探讨了该参数在PPI识别中的影响。0.1的温度证明了GPT-3的最高整体性能,因此用于这项研究。

表现评估

为了确保每个fold的一致性,从三次单独的运行中获得GPT-3、GPT-3.5和GPT-4的输出,并获得它们的评估性能的平均值。在每次提示后刷新浏览器,以防止ChatGPT记住以前的提示。

对于基于BERT的模型,在10倍交叉验证设置中对这些模型进行了微调,在该设置中,fold是在文档级别创建的。该策略采用了文档级折叠拆分,确保一个文档中的句子仅在训练或测试集中使用,以避免过拟合。

结果和讨论

作者使用具有相同10倍设置的LLL数据集对基于GPT和BERT的模型进行了彻底比较,以保持所有模型的一致性。对GPT模型的查询是在三次单独的运行中完成的。

图2说明了访问GPT-3 API及其输出的Python代码段。预测的interaction pairs与相应的句子ID一起返回。

fig3

  • 图2:GPT API代码和输出。图A为用于访问OpenAI API的Python代码段。图B为用于fold9的GPT-3示例输出。

与GPT-3不同,GPT-3.5和GPT-4是通过名为ChatGPT Plus的web界面访问的,因为在该研究期间,API访问有限。因此用图3描述GPT-4的示例输入和输出。
fig4

  • 图3:GPT-4的示例输入和输出,通过ChatGPT-Plus web界面实现。

表3总结了16个模型的PPI识别性能,包括每个GPT版本的三种变体。一般来说,基于BERT的模型优于GPT;然而,当提供蛋白质名称时,GPT,特别是GPT-4,表现出与性能最好的基于BERT的模型相当的性能。

总的来说,无论是否提供蛋白质名称,GPT-4在所有版本的GPT模型中表现最好。然而,就精度而言,GPT-3.5的性能高于GPT-4,得分为79.11%,而GPT-4的得分为73.97%。最初,基本GPT模型的精度低于大多数基于BERT的模型。然而,当提供蛋白质名称时,GPT模型的精度显著提高,接近性能最好的PubMedBERT模型,该模型的精度达到85.17%。具体而言,提供了蛋白质名称的GPT-4模型实现了83.71%的精度。

fig5

  • 表3:基于BERT和GPT的模型在LLL数据集上的PPI评估结果。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/39003.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Limma | 三个组的差异分析怎么分析做呢!?~

1写在前面 高考结束了,不知道各位考生考的怎么样,这种时候总是几家欢喜几家忧,但这也是实现阶级流动的最佳机会。🤔 回想自己高考过去10几年了,不能说学了医后悔吧,只能说后悔至极,苦不堪言啊&a…

生信分析案例 Python简明教程 | 视频13

开源生信 Python教程 生信专用简明 Python 文字和视频教程 源码在:https://github.com/Tong-Chen/Bioinfo_course_python 目录 背景介绍 编程开篇为什么学习Python如何安装Python如何运行Python命令和脚本使用什么编辑器写Python脚本Python程序事例Python基本语法 数…

生信分析案例 Python简明教程 | 视频12

开源生信 Python教程 生信专用简明 Python 文字和视频教程 源码在:https://github.com/Tong-Chen/Bioinfo_course_python 目录 背景介绍 编程开篇为什么学习Python如何安装Python如何运行Python命令和脚本使用什么编辑器写Python脚本Python程序事例Python基本语法 数…

生信分析案例 Python简明教程 | 视频11

开源生信 Python教程 生信专用简明 Python 文字和视频教程 源码在:https://github.com/Tong-Chen/Bioinfo_course_python 目录 背景介绍 编程开篇为什么学习Python如何安装Python如何运行Python命令和脚本使用什么编辑器写Python脚本Python程序事例Python基本语法 数…

12款好用的Visual Studio插件,最后一款良心推荐

工欲善其事,必先利其器,整理的一些我必装的12款Visual Studio插件,希望你们能get到。 效率工具前文传送门: adb常用命令总结 程序员你可以考虑安装的15款谷歌插件 推荐20套实战源码 99%的人不知道搜索引擎的6个技巧 12款好用的Visual Stu…

七年磨一剑!苹果王炸产品Vision Pro诞生,未来已来

这是第一款「不见却可透见」的苹果产品 等了整整七年!2023年6月5日,WWDC23大会上,苹果发布首款头显Vision Pro,Vision Pro 可以算是苹果公司自 2015 年 Apple Watch 首次亮相以来最大的硬件产品发布,或许它会彻底改变数…

chatgpt赋能python:人机对话Python——让交互更智能

人机对话Python——让交互更智能 随着科技的不断发展,人类与机器之间的交互方式也在不断改变。从最初的键盘输入和鼠标点击,到现在的语音识别和手势交互,我们与计算机之间的交互方式日益智能化和自然化。人机对话技术就是其中一种重要的交互…

紫砂典故之“蔓生石瓢”

紫砂典故之“蔓生石瓢”

如何区分纯正紫砂底料

首先大家要区分一个概念,就是纯正的底料和调砂不是同一个概念,调砂其实是紫泥中的石英颗粒,调砂可以增强泥料的可塑性,增强了透气性,以及增加质感。纯的底料,不是那么坚硬,经过一到两天&#xf…

18把紫砂壶上了邮票:今起来厦展出

制壶高工沈龙娣,花了1年时间,纯手工打造了18把紫砂壶,然后由当代著名花鸟画家张贤明院长赴阳羡亲绘壶身,最后请中国第一批省级大师鲍仲 梅篆刻。最为难得的是,这套紫砂壶还上了邮票,由国家邮政总局限量发行…

怎么看安装包是什么bit的_什么是紫砂壶太阳线,怎么看?-紫砂壶

经常能在紫砂壶内的底部,见到一种由中心向四周呈发散状,如太阳光芒线的泥痕,称之为“太阳线”。 常见的模具壶,一般都是以“外模内挡”的成型方式为主,“挡”成后,壶的内壁表面会因受力不均而出现凹凸不平&…

用计算机3d建模做紫砂壶好吗,做3D行业千万别被骗了!建模一点都不难!这一步才是最难的!...

闲来无事逛推特,发现竟然有大神开发了一个建模神器。在像素网格绘制好平面图,再设置下相关参数,就能生成一个3D锤子模型了,妙啊… 其实Windows10系统也有类似的傻瓜式建模软件,叫“画图3D”,它能帮你秒速建…

用计算机3d建模做紫砂壶好吗,3D建模制壶,走在制壶科技的前沿——潘洪强

原标题:3D建模制壶,走在制壶科技的前沿——潘洪强 每一种工艺都有其独特的美,他用艺术的眼光探寻,借助科技缔造出完美的紫砂艺术品。 潘洪强,宜兴紫砂圈的人才。他会做壶,有创意,灵活运用科技的…

扫黑牵出制壶大师,紫砂壶真的那么值钱?

特约作者| 与归 近日,江苏省宜兴市检察院通报了一则消息:该院依法以涉嫌敲诈勒索罪、寻衅滋事罪,对在宜兴市紫砂行业以打假为由,多次采用拘禁、殴打、上门滋扰等手段实施违法犯罪活动的邵洪群、许鹏、吴浩、盛云峰等4名恶势力犯罪…

用手刻出计算机系统,紫砂壶电脑刻字和手工刻字,你看得出吗?

原标题:紫砂壶电脑刻字和手工刻字,你看得出吗? 刻字即用刀在木头或石头上雕刻出文字或者图画,紫砂壶刻字亦是如此,就是在壶壁上雕刻出文字和图画。 “ 紫砂壶陶刻 紫砂壶大体分为光货,花货,筋纹…

最理想的饮茶器具──紫砂壶

饮茶习惯在我国有着悠久的历史,古代文人雅士平时经常聚集一起,且鼎且缶,以啜以饮,视为可获得无穷的情趣。据汉代《华阳国志》,司马相如《凡将篇》和杨雄的《方言》等书中记录了,武王伐纣时就出现将茶作为贡…

基于SSM的紫砂壶交易系统

紫砂壶交易系统采用了jsp的mvc框架,SSM(springMvcspringMybatis))框架进行开发,主要实现了从紫砂壶管理,紫砂壶分类和查询,到紫砂壶车实现,用户订单处理,再到系统管理。基本上实现了网上购物的功能流程,能够实现用户与…

江南情节——紫砂壶品茶

很多人有江南情结,故江南水乡引来八方宾客。人们经常会想起,那一次烟雨痴迷时节,撑一把油纸伞,走过水边小巷,选一处静静的茶楼,掏出随身携带的紫砂壶,此壶经数年泡养,略有小成。 静…

[日推荐] 『紫砂壶平台』一把紫砂,一种品味

最近小编一直想喝茶,但胃不是很好,又不敢喝,想当年小编喝茶是有讲究的啊,只喝人参乌龙茶,杯子只用紫砂杯或紫砂壶。人生境界瞬间提高。 不过小编那时喝茶真的不叫喝茶,叫吃茶~叶!So。。。胃病犯…

走进紫砂老泥料

泥料是紫砂壶中最重要的一关,但现在很多壶友对新、老泥料之说存在误区,所有的紫砂泥料至今都是经历了上千年甚至上亿年的时间,都可称之为老泥料,而我们平时说的老泥料实际上是指陈腐时间较长的泥料,从某种程度上来讲泥…