超越诺奖?生物界「ChatGPT」首次实现从零合成全新蛋白,登Nature子刊!喂了2.8亿种氨基酸序列...

abb3caabd513214266716b066d34e16e.jpeg


  新智元报道  

编辑:好困 Aeneas

【新智元导读】这家成立三年的小初创公司,首次利用深度学习语言模型合成出了自然界中不存在的全新蛋白质,引爆蛋白质设计革命。

人工智能的应用,已经极大地加速了蛋白质工程的研究。

最近,加州伯克利的一家初出茅庐的初创公司再次取得了惊人的进步。

科学家们采用类似ChatGPT的蛋白质工程深度学习语言模型——Progen,首次实现了AI预测蛋白质的合成。

0977d2284863b1b71d47de2719c80a72.jpeg

这些蛋白质不仅与已知的完全不同,相似度最低的甚至只有31.4%,但和天然蛋白一样有效。

现在,这项工作已经正式发表于Nature子刊。

7c10f01b3ec867dd0052e50fb85b8430.png论文地址:https://www.nature.com/articles/s41587-022-01618-2

这个实验也表明,自然语言处理虽然是为读写语言文本而开发的,但它也可以学习生物学的一些基本原理。

比肩诺奖的技术

对此,研究人员表示,这项新技术可能会变得比定向进化(获得诺贝尔奖的蛋白质设计技术)更加强大。

「它将通过加快开发可用于从治疗剂到降解塑料等几乎所有用途的新蛋白质,为有50年历史的蛋白质工程领域注入活力。」

59d6681a3f1524500015332e7ab20df6.png

这家公司名叫Profluent,由前Salesforce AI研究负责人创立,已获得900万美元的启动资金,用于建立一个集成的湿实验室,并招募机器学习科学家和生物学家。

以往,在自然界中挖掘蛋白质,或者调整蛋白质到所需功能,都十分费力。Profulent的目标是,让这个过程变得毫不费力。

他们做到了。

f76e2456cc763ad2872400aa8ce09318.pngProfluent创始人兼CEO Ali Madani

Madani在采访中表示,Profulent已经设计出了多个家族的蛋白质。这些蛋白质的功能与样本蛋白(exemplar proteins)一样,因此是具有高活性的酶。

这项任务非常困难,是以zero-shot的方式完成的,这意味着并没有进行多轮优化,甚至根本不提供湿实验室的任何数据。

而最终设计出的蛋白质,是通常需要数百年才能进化出来的高活性蛋白质。

c842a345413c5c8989760bec575c27b3.png

基于语言模型的ProGen

作为深度神经网络的一种,条件语言模型不仅可以生成语义和语法正确且新颖多样的自然语言文本,而且还可以利用输入控制标签来指导风格、主题等等。

类似的,研究人员开发出了今天的主角——ProGen,一个12亿参数的条件蛋白质语言模型。

具体来说,基于Transformer架构的ProGen通过自注意机制来模拟残基的相互作用,并且可以根据输入控制标签生成不同的跨蛋白质家族的人工蛋白质序列。

389f335f589f01c61c6fa11333a31da5.png用条件语言模型生成人工蛋白质

为了创建这个模型,研究人员喂了2.8亿种不同蛋白质的氨基酸序列,并让它「消化」了几周的时间。

接着,他们又用五个溶菌酶家族的56,000个序列以及关于这些蛋白质的信息,对模型进行了微调。

Progen的算法与ChatGPT背后的模型GPT3.5类似,它学习到了蛋白质中氨基酸排序的规律,以及它们与蛋白结构和功能的关系。

很快,模型就生成了一百万个序列。

根据与天然蛋白质序列的相似程度,以及氨基酸「语法」和「语义」的自然程度,研究人员选择了100个进行测试。

其中,有66个产生了与消灭蛋清和唾液中细菌的天然蛋白质类似的化学反应。

也就是说,这些由AI生成的新蛋白质也可以杀死细菌。

ea413ee48da4b947aebc8c5781d671c9.png生成的人工蛋白是多样化的,且在实验系统中表达良好

更进一步,研究人员选择了反应最强烈的五种蛋白质,并将它们加入到大肠杆菌的样本中。

其中,有两种人工酶能够分解细菌的细胞壁。

通过与鸡蛋白溶菌酶(HEWL)进行比较可以发现,它们的活性与HEWL相当。

随后,研究人员又用X射线进行了成像。

尽管人工酶的氨基酸序列与现有的蛋白质有高达30%的差异,二者之间也只有18%是相同的,但它们的形状却与自然界的蛋白质相差无几,而且功能也可以与之媲美。

b70119b46853c209a206b10ce0bf8fac.png条件语言建模对其他蛋白质系统的适用性

除此之外,对于高度进化的天然蛋白质来说,可能只需一个小小突变就会让它停止工作。

但研究人员在另一轮筛选中发现,在AI生成的酶中,即使只有31.4%的序列与已知蛋白质相同,也能表现出相当的活性以及类似的结构。

6ef7f1578baa515f5b4f74e8b8946549.png

蛋白质设计,进入新时代

可以看到,ProGen的工作方式与ChatGPT很类似。

ChatGPT通过学习海量数据,可以参加MBA和律师考试、撰写大学论文。

而ProGen通过学习氨基酸如何组合成2.8亿个现有蛋白质的语法,学会了如何生成新的蛋白质。

381831e00e11258a8f1e2b6a26805621.gif

在采访中,Madani表示,「就像ChatGPT学习英语之类的人类语言一样,我们是在学习生物和蛋白质的语言。」

「人工设计蛋白质的性能比受进化过程启发的蛋白质要好得多,」论文作者之一、加州大学旧金山分校药学院生物工程和治疗科学教授James Fraser说。

「语言模型正在学习进化的各个方面,但它与正常的进化过程不同。我们现在有能力调整这些特性的产生,以获得特定效果。比如,让一种酶具有令人难以置信的热稳定性,或嗜好酸性环境,或者不会与其他蛋白质相互作用。」

早在2020年,Salesforce Research就开发了ProGen。它基于的自然语言编程,最初用于生成英语文本。

从之前的工作中,研究者们了解到,人工智能系统可以自学语法和单词的含义,以及其他使写作井井有条的基本规则。

「当你用大量数据训练基于序列的模型时,它们在学习结构和规则上的表现非常强大,」Salesforce Research人工智能研究总监、论文的资深作者Nikhil Naik博士说,「它们会了解哪些词可以同时出现,该怎样组合。」

「现在,我们已经证明了ProGen有能力生成新的蛋白质,并进行了公开发布,所有人都可以在我们的基础上进行研究。」

49dc37762c45a3aaa4edcee4326e0fd4.gif

作为蛋白质的溶菌酶虽然非常小,最多有约300个氨基酸。

但是有20种可能的氨基酸,就有20^300种可能的组合。

这比古往今来的所有人类,乘以地球上沙粒的数量,再乘以宇宙中的原子数量的积还要多。

考虑到这近乎无限的可能性,Progen能够如此轻松地设计出有效的酶,确实很了不起。

a2039358f270f9729346ab433cbcfce5.png

Profluent Bio创始人、Salesforce Research前研究科学家Ali Madani博士说:「开箱即用地从头开始生成功能性蛋白质的能力,表明我们正在进入蛋白质设计的新时代。」

「这是所有蛋白质工程师都可以使用的多功能新工具,我们期待看到它被应用于治疗。」

与此同时,研究人员仍在继续改进ProGen,试图突破更多的限制和挑战。

其中之一便它非常地依赖数据。

「我们已经探索了通过加入基于结构的信息来改善序列的设计,」Naik说,「我们还在研究当你没有太多关于某个特定蛋白质家族或领域的数据时,如何提高模型的生成能力。」

值得注意的是,还有一些初创公司也在尝试相似的技术,比如Cradle,以及自生物技术孵化器Flagship Pioneering的Generate Biomedicines,不过这些研究都还未经过同行评审。

参考资料:

https://endpts.com/exclusive-profluent-debuts-to-design-proteins-with-machine-learning-in-bid-to-move-past-ai-sprinkled-on-top/

https://www.newscientist.com/article/2356597-ai-has-designed-bacteria-killing-proteins-from-scratch-and-they-work/

https://www.sciencedaily.com/releases/2023/01/230126124330.htm

往期精品(点击图片直达文字对应教程)

98bce9858adeb346a0792c16ff564f51.jpeg

c1fb44c9fc52ce8f32fa107c173181d2.jpeg

1594e3204eee35b4182bd8be1c2c698b.jpeg

5d950a19f2062fab34a3d24d22da6b78.jpeg

926229eeca953f99a3867ef34dc65a72.jpeg

b2ff80aa9aad04ffe590effef0828671.jpeg

95065607ad1ffe9bd18537b49c5c9177.jpeg

b7e45329991e03ffe89cf3db80b2fdd2.jpeg

b3186b4a8a5891d833dd8e19e77607be.jpeg

277408e225c1bc46d888969febc78f5d.jpeg

79fb9be9dfe9ce66d9c6d6c22c9d7d6f.jpeg

447f7e9231bd5fd7ff7ffa8b6eb49bbc.jpeg

3e49c61d389f7787605f8d3782e3ddc4.png

44d17c9c9c0b539660daa1f2645af5ca.png

a0b54f3e66b883d7b5cce8e3715d3682.png

985d26d3cc2b5ca2ba2e61b466b106f4.png

3ebff061543c93e7b5f0f76e688e80a8.jpeg

4f2c2fbcf8f24c372f79901b4ca4be99.jpeg

efac7f9c8ba319dec8a8c6a81ed8152a.jpeg

3443a788c10bf0c66185c2b4cf101c36.jpeg

502f70969e3e2dc86bea88cf2c76401f.png

1aa74596303ed868f273766dcdaacaf3.png

f1952aed5b9ae99960eb9f6f3ac28665.jpeg

dc1c36b13669e9071692e643a3b3b0cd.png

d1543356f5b8a25e1978aed2307994d9.png

6cc734a7af88b539516d59a2d169212f.jpeg

ee90c20f710ea5f6b3558a9c5f6cb8b3.png

f3ddadeb161e6d8198caaa0a9181e62c.png

机器学习

后台回复“生信宝典福利第一波”或点击阅读原文获取教程合集

ce9b101ae0aeed67c29a686e765ecd23.jpeg

fa783cd75a25cdb888dff8ee2355a228.jpeg

0a94eff46a1d4d512191b2f0fad623f9.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/9074.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【R】Mac如何配置R和RStudio

前言 本篇文章将讲述如何在Mac上配置R和RStudio,惯例是先看看chatgpt会怎么回答这个问题: miniconda配置R和RStudio( Mac m系列芯片暂不适用) 安装R 在终端中执行一下命令 conda search -c conda-forge r-base # 备注-c conda…

深度学习实战26-(Pytorch)搭建TextCNN实现多标签文本分类的任务

大家好,我是微学AI,今天给大家介绍一下深度学习实战26-(Pytorch)搭建TextCNN实现多标签文本分类的任务,TextCNN是一种用于文本分类的深度学习模型,它基于卷积神经网络(Convolutional Neural Networks, CNN)实现。TextCNN的主要思想是使用卷积操作从文本中提取有用的特征,并…

写在2023年年中

写在2023年年中 收拾旧山河再出发 很久没有写规划了,博客也很少写,着实是太懒了。想想自己年纪也不小了,加上程序员的环境越来越不好,总得想想自己的出路不是。 目标 提升系统设计能力保持算法刷题能力(一般面试需要)知识输出能…

英语学习-29190410雅思图表作文写作--bar grapgh

主要参考来源:https://www.bilibili.com/video/av23014883?p2 Simon雅思 搜狐 http://www.sohu.com/a/130635097_372408 注意事项 开头语不能照抄题干中的句子,阅卷老师不会评估照抄的句子,所以你抄上去只是在浪费时间 请注意时态&…

四六级作文模板对提高写作成绩是否有用?让人工智能给我这套用模板的文章打分看看

最近的四六级考试又又又要开始啦,这里更新一下作文模板,来自B站大表哥的高级四六级通用模板; 原视频链接:【【救命抢分】四六级写作全能超强模板!(2022)| 四级672六级674 | 四六级作文模板】 ht…

雅思作文模板.html,【雅思备考外国视角】雅思大作文discuss both views模板

编者按:这是从国外一个考官的的博客里搬过来的一篇关于雅思大作文discus both views型的大作文改如何作答的一些结构上的归纳,有一些借鉴意义,特分享给大家。 A Task 2 questions often ask you to Discuss both views and give your own opi…

汉字无法被计算机替代作文,雅思大作文范文:老师会被电脑替代吗

新东方在线雅思频道特为大家收集整理了雅思大作文范文:老师会被电脑替代吗,供大家阅读参考。认真研读一定的雅思范文及作文模板可以帮助我们检验自己的写作水平,并能很好地吸收和应用优秀范文里的优秀内容~更多雅思报名官网的最新消息&#x…

托福改革后的Academic Discussion如何拿高分?

这次托福改革最大的变化当属写作部分。原来的Task 2独立写作取消,替换成了一篇10分钟长度的Academic Discussion。写这篇小短文之前是需要考生先阅读一小段文章,是关于一个教授引出的一个课堂讨论的话题以及两位持不同观点的学生给出的自己的想法。 我们…

雅思作文未来计算机的应用,9分考官级雅思大作文范文之电脑技术的忧虑

9分考官级雅思大作文范文之电脑技术的忧虑 2017年08月07日15:24 来源:小站整理 参与(10) 阅读(29402) 摘要:本文出自考官级作者之手,two part题型,讨论人类对电脑技术的过度依赖。对于这种级别的雅思写作范文,大家可以…

你真的会使用雅思写作模板吗?

中国国际教育网讯:在教学过程中,经常有学生问及:“我要背范文吗?”,“ 老师,多给点实用范文,让我能确保6分。”笔者在教学实践中发现,机械地背诵范文对任何考生而言都无太大意义,只…

Cursor

一、什么是Cursor 官网:Cursor | Build Fast Cursor是一个开源的AI编程编辑器。开源地址 https://github.com/pricing 目前在国内是可以不需要其他东西,可以直接访问的。而且目 「下面是官方的介绍:」 Cursor 是一个为 AI 编程而做的编辑…

大语言模型技术原理

在今天这个时代,人们的工作和生活已经离不开数据访问,而几乎所有平台背后的数据存储和查询都离不开数据库。SQL作为一种数据库的查询和处理语言历史悠久,最早由IBM于上世纪70年代初研究关系数据模型时提出,后续发展为一种广泛使用…

2023年AI十大展望:GPT-4领衔大模型变革,谷歌拉响警报,训练数据告急

新年伊始,大模型的话题热度不减。2022年11月底,ChatGPT展现的惊人能力将大模型研究和应用热度推向高潮,人们激烈讨论着这个高级“物种”的推出意味着什么,比如是否会颠覆搜索引擎市场格局。踏入2023年,这不禁让我们对G…

和ChatGPT大战多个回合,我知道了这些真相

最近,ChatGPT在国内外社交平台上可谓是火出圈了。作为一款人工智能语言模型,它可以和人类以对话的方式进行互动,比你早已熟知的Siri,小度还有小爱同学要更加智能与专业。因为它除了回答问题外还能进行创作,比如写小作文…

香港攻略 之 首次初次第一次去香港需要注意什么准备什么(仅供参考)

香港攻略 之 首次初次第一次去香港需要注意什么准备什么(仅供参考) 目录 香港攻略 之 首次初次第一次去香港需要注意什么准备什么(仅供参考) 一、简单介绍 二、可提前准备或者注意事项 1、根据去香港的目的,旅游、…

香港服务器哪家好?香港机房前十排名

香港服务器哪家好?香港那么多的机房,香港服务器哪个机房最好呢?香港本地的机房最好,如果是大陆的最好找一级代理机房,除此以外,别无其他!一般现在阿里云香港云服务器或腾讯云香港云服务器所处的香港机房都很正规,毕竟…

psn注册什么服务器,怎么注册PSN港服账号?PSN港服官网注册教程

PSN港服和国服的区别 在购置PS4的时候,很多人都会优先考虑港版。价格便宜是一回事,主要是港服可玩的游戏比国服多,这才是玩家最关心的。这是因为审查制度不同,所以很多带有暴力成分的游戏(也就是许多玩家偏爱的那种类型的游戏)都不…

香港服务器 微信支付,如何给微信开通香港钱包(WeChat Pay HK)

本文介绍一下如何微信香港钱包,暂时不知道有啥用。不管辣么多了,先开通了再说! 特别提醒:18年1月份的时候,开通香港钱包赠送余额的活动。目前这个活动已经结束,大家可以等待有活动再开通! 之前我…

港大全面封杀ChatGPT,AI作弊丑闻震惊全世界!

上一篇:阿里巴巴裁员19576人! 转载自:新智元 【导读】ChatGPT,已经开始在全世界的高校里肆虐。最近,港大打响了国内AI反击战第一枪。 随着AI生成的文本与人类的写作越来越像,高中和大学的老师们快被疑似AI作…

psn注册什么服务器,psn港服注册图文教程

对于刚刚购买索尼ps设备的玩家(例如psv、ps3和ps4),玩家首先需要考虑的自然是入驻哪个服务器的问题了,对于国内玩家来说,由于语言的原因,许多玩家还是会优先选择入驻港服的,下面就给大家带来psn港服的注册图文教程&…