大型语言模型正在帮助科学家与人工智能交谈,甚至产生潜在的药物靶点。
近几个月来,世界大部分地区都被OpenAI的ChatGPT等文本生成引擎的出现所震惊,人工智能(AI)算法能够生成看起来像是由人类编写的文本。虽然像微软和谷歌这样的科技公司专注于使用此类引擎来改善搜索,而其他人则担心它们可能会导致大量抄袭文章、假新闻和糟糕的诗歌的出现,但生物技术公司正在研究这些算法来支持他们的业务,从而促进药物发现。
已经依赖人工智能寻找新药的生物技术公司可以将文本生成作为一种简单、直观的方式,与其他一些人工智能和机器学习工具进行互动。Andrew Beam是哈佛大学公共卫生学院流行病学系的科学顾问,他称ChatGPT是“一个非常有趣的界面”,它允许用户比当前的界面更容易地使用其他形式的人工智能。
例如,纽约和香港的Insilico Medicine是一家通过其人工智能驱动的平台搜索潜在药物靶点的公司,现在正在使用ChatGPT作为与其靶标发现平台交互的新方式,增强知识图谱提供的关系和集成 - 以前是整合数据的主要方法。计算化学家Petrina Kamya是Insilico Medicine的AI平台负责人兼总裁。他说,由于ChatGPT,他们可以与自己的发现系统进行对话:''而不是点击,点击和点击,你只需要问一个问题,它就会组成你阅读和理解的文本。''
除了使用聊天机器人来帮助制作书面材料,如论文、专利或授权申请外,其他人还可以将它们专门用于药物发现-作为一种专门针对生物科学的高级搜索引擎。“我们可以有一个更具体的,例如,Bio ChatGPT或Med ChatGPT,''阿拉巴马大学伯明翰分校的计算化学家Lurong Pan说,他是Ainnocence的创始人兼首席执行官,Ainnocence是一个拥有帮助药物发现平台的生物技术公司。''这可能会改变人们的搜索方式。例如,谷歌和DeepMind今年早些时候发布了Med-PaLM,这是一个旨在为医疗问题提供答案的聊天机器人。
所有这些聊天机器人都基于大型语言模型(LLM),该算法经过从互联网收集的数百万个文本示例进行训练。LLM是一种生成AI——能够创建以前不存在的数据。对于文本,LLM学习单词之间的统计关系。然后,给定诸如问题之类的提示,它们通过预测哪个单词最有可能跟随前一个单词来生成文本。结果似乎非常自然,尽管聊天机器人经常做出与现实不一致的陈述-“幻觉”事实。ChatGPT基于名为Generative Pre-train Transformer的LLM,Med-PaLM借鉴了Google的Pathways Language Model,,而Bard是Google正在将其纳入其搜索引擎的更通用的聊天机器人,依赖于对话应用程序的语言模型(LaMDA)。
Kamya说:''这些LLM已经被证明对寻找药物的人有用''。以前,Insilico平台的用户能够查看知识图谱,这是与特定疾病相关的基因的可视化表示,以及已知与这些基因相互作用的物质。这是有用的信息,但研究人员使用它的方式是有限的。现在,随着聊天功能的增加,数据变得更容易访问。Kamya说:''能够与该工具进行对话非常有用。如果你能够以你想要的方式查询我们的生物医学知识图,它会变得'更有趣''。
例如,如果一个科学家想调查牛皮癣,聊天功能可以查看该疾病的知识图。它将提供一个文本描述,包括涉及牛皮癣的主要信号通路和基因,以及已知的与它们相互作用的化合物。然后,用户可以提出任何问题 - 例如,''这个图中有多少个基因?''- 并获得即时响应,或者寻找基因与特定疾病(如肉瘤)之间的关联。名为PandaOmics的Insilico平台显示肉瘤的顶级靶基因是PLK1。用户可以进一步询问,请求链接到特定途径 - 例如细胞凋亡 - 并立即得到答案。
ChatGPT 生成对话输出。然后,Insilico使用多年来收集的根据自己的数据训练的其他预测AI程序来验证聊天中出现的内容。因此,''我们的输出非常准确'',该公司创始人兼首席执行官Alex Zhavoronkov说。Zhavoronkov的母语不是英语,他也使用ChatGPT来帮助他在撰写论文时提高语法,他最近因为通过将ChatGPT列为期刊文章的合著者而引起了争议。
科学家们还发现,llm有助于连接数据并以不同的方式表示数据。''总部位于英国牛津的制药技术公司Exscientia一直在试验LLM,将普通的英语陈述翻译成精心构建的机械断言,以帮助生成他们的知识图谱'',该公司的首席技术官Garry Pairaudeau说。
LLM仍在不断发展,开发人员正在以惊人的速度添加功能。十二月发布的ChatGPT基于OpenAI的GPT 3.5版本。更新 GPT-4 于三月月中旬发布,性能大大优于其前身。三月底,ChatGPT增加了一个所谓的检索插件,可能对药物发现特别有用。这是一个允许软件搜索个人或公司文档的模块,伦敦人工智能驱动的生物技术公司BenevolentAI的首席技术官Dan Neil对此感到兴奋,因为它可以根据公司自己的数据定制聊天功能。''如果你有一个专门的分析,你写下来并在公司内部文件中描述,你可以说,'嘿,看看我们在内部得到的这些结果,这如何更新你的想法?你能找到或想象生命科学中的其他新方法,这些方法实际上利用了我们发现的这些信息吗?',''他说。
尽管名字不同,但语言模型不需要接受英语或其他人类语言的训练。同样的,对统计关联的衍生技术也可以应用于DNA或蛋白质序列的“语言”。然后,它们可以产生新的蛋白质,而不是一个新的句子,这可能会成为很好的药物靶点。“这是同样的想法,”Beam说,“但我们展示的是生物数据,而不是来自互联网的文本。”
有些人担心,训练人工智能系统设计很有可能击中目标的分子需要大量数据,这些数据由人类手工标记。这样的收集并不总是即将推出,因为定期提供这些信息的公司并不总是热衷于分享它。Pan说:''允许ChatGPT写句子的同样的方法可能会为新的分子设计提供完美的解决方案。一个提供了大量未标记数据的语言模型——比如UniProt数据库中包含的近2.5亿条蛋白质序列——可以自己推导出分子构建块之间的正确关系。''
Bioxcel治疗公司使用人工智能来识别在第二阶段或第三阶段试验中,甚至在批准后被搁置的药物,该公司正在考虑LLM从不同的数据库中挑选出潜在的化合物。但是,神经科学家兼该公司首席战略官Frank Yocca说:''只有当LLM适合Bioxcel的人工智能工具套件时,它们才会被证明是有价值的。现在,就你得到的东西而言,它不是很准确'',他警告说。''但我们正处于起步阶段。''
确保结果准确并避免人工智能幻觉的一种方法是尼尔所说的“证据浮出水面”。当LLM产生它声称是事实的东西时,他的公司添加了一种算法来提供引用和参考来支持这一点。他们的系统使用语义搜索(一种评估单词含义的方法)从论文和生物学文本中提取支持断言的句子。该系统从数百万份文档中选择一些相关句子,并将它们呈现给人类专家,然后人类专家可以查看这一小部分数据来判断所谓的事实是否真实。
Yocca说,人们可能会被最新技术所诱惑,而忽视它是否真的有助于他们实现目标。他说:''你只要让机器去做你想做的事情,而不一定能给你一个功能性的答案,就会消耗你,我们尽量避免这种情况。”
不是每个人都加入了ChatGPT的潮流。“基本上我们已经拥有了生成我们想要的东西的所有工具,我们已经在探索很多信息,我们现在并没有试图扩展更多,”巴黎Enterome免疫学研究负责人Joao Magalhaes说。首先,他担心提供患者信息来训练LLM可能会损害隐私。
不过,他并不反对采用新的人工智能技术。例如,该公司使用AlphaFold,这是DeepMind开发的人工智能系统,该系统可以观察氨基酸序列,并使用这些序列来预测蛋白质的三维结构,包括许多以前未知的结构。''这对我们来说是一个巨大的进步,''Magalhaes说。他将密切关注ChatGPT,如果它看起来可能有用,公司将考虑采用它。
Beam指出,其他类型的生成人工智能,例如可以从随机噪声中创建图像的扩散模型,已经进入生物学领域。因为这些模型可以创建蛋白质结构的新图像,所以它们''可以说是药物发现和药物开发的更直接的路线'',Beam说。
他说,如果不出意外,ChatGPT的兴起使人们广泛意识到生成人工智能的潜力,并鼓励生物技术公司仔细研究。“ChatGPT让每个人都意识到的是生成模型的力量,”Beam说。
文献来源: nature biotechnology Volume 41 | May 2023 | 585–596 | 586
-------------------------------------------
欢迎点赞收藏转发!
下次见!