Nature Chemical Engineering 威斯康星大学让机器人科学家做实验,自主设计全新蛋白质

【导读】这个自动化蛋白质设计系统可以自己设计和测试新的蛋白质,不需要人类的帮助。就像一个能自己做实验的机器人科学家。它能通过自主学习自行进行蛋白质设计,同时在实验室里自动进行测试。

AI Agent,已经可以不需要人类帮助,就能自行设计和测试全新的蛋白质了!

这个AI能够自主学习蛋白质结构与功能关系。而且在糖苷水解酶领域创造出的新蛋白质,比原始蛋白质更稳定。

最近,威斯康星大学麦迪逊分校研究者的这项研究,登上了Nature子刊。

论文地址:https://www.nature.com/articles/s44286-023-00002-4

自主设计全新蛋白质

蛋白质工程在化学、能源和医学领域有着近乎无限的应用,但创造具有新功能的新蛋白质的工作,目前仍然是缓慢、劳动密集且效率低下。
威斯康星大学麦迪逊分校研究者,研究出了用于蛋白质景观探索的自动驾驶自主机器 (SAMPLE) 平台,可以用于完全自主的蛋白质工程。

SAMPLE由智能体驱动,这个智能体会学习蛋白的质序列-功能关系,设计新蛋白质,并将设计发送到全自动机器人系统。

在这里插入图片描述

这个系统会通过实验测试设计的蛋白质,并提供反馈,以提高智能体对系统的理解。

研究者部署了四种SAMPLE试剂,目的是设计具有增强耐热性的糖苷水解酶。

实验结果表明,尽管智能体的搜索行为存在个体差异,但四种药物都迅速收敛了在热稳定酶上。

可以说,这种自动驾驶实验室是自动化的,它加速了科学发现过程,在蛋白质工程和合成生物学领域具有巨大潜力。

实验过程

以往,研究者设计生物系统,是通过设计实验来测试假说,进行实验后解释结果数据,完善对系统的理解。
随着过程被迭代,研究者们会收敛生物学机制的知识,并设计出具有改进特性和行为的新系统。

然而,尽管在生物工程和合成生物学方面取得了显著的成就,但这一过程仍然非常低效、重复和费力,需要多个假设生成和测试周期,可能需要数年时间才能完成。

而机器人科学家和自动驾驶实验室,可以将自动化学习、推理和实验相结合,来加速科学发现,设计新的分子、材料和系统。

智能机器人系统可以跨不同数据源和数据模式进行学习,在不确定的情况下做出决策,不间断地连续运行,通过完整的元数据跟踪和实时数据共享,生成高度可重复、优于人类的数据。

在这里插入图片描述

自动驾驶实验室在蛋白质工程和合成生物学领域具有巨大的前景,但这些应用并没有那么容易,因为生物表型是复杂和非线性的,基因组搜索空间是高维的。

生物实验需要多个容易出错、难以自动化的手动处理步骤。

以前也有一些合成生物学的自动化工作流程的例子,需要一些人工输入和手动样本处理,但这些工作流程在没有人工干预的情况下,并不是完全自主的。

而本项研究中的这个用于蛋白质景观探索的自动驾驶自主机器 (SAMPLE) 平台,无需人工干预、反馈或主观性,即可快速设计蛋白质。

平台由智能体驱动,智能体从数据中学习蛋白质序列-功能关系,并设计新的蛋白质来测试假设。

智能体通过一个全自动的机器人系统与物理世界互动,通过合成基因、表达蛋白质和执行酶活性的生化测量,来测试设计的蛋白质。

智能体和实验自动化之间的无缝集成,可以实现完全自主的设计-测试-学习周期,以理解和优化序列-功能环境。

研究者部署了四种独立的SAMPLE试剂,来探索糖苷水解酶的前景,并发现了具有增强热耐受性的酶。

试剂的优化轨迹从探索性行为开始,目的是了解广泛的景观结构,然后迅速收敛到高度稳定的酶上,这些酶比初始序列至少稳定12°C。

可以观察到,由于实验测量噪声,各个智能体的搜索行为存在显著差异,但所有智能体在搜索不到整个景观的2%时,都能可靠地识别出热稳定设计。

SAMPLE智能体通过主动信息采集不断完善对景观的理解,SAMPLE可以有效地发现优化的蛋白质。

作为一个通用的蛋白质工程平台,SAMPLE可以广泛应用于生物工程和合成生物学。

结果:用于蛋白质工程的完全自主系统

在这项工作中,研究者试图建立一个完全自主的系统,来模仿人类的生物发现和设计过程。
人类研究者可以被视为在实验室环境中执行操作、接收数据作为反馈的智能体。

通过与实验室环境的反复互动,人类智能体可以理解系统、学习行为,以实现工程目标。

SAMPLE由一个智能体组成,这个智能体会在实验室环境中自主学习、做出决策并采取行动,以探索蛋白质序列-功能关系,并设计蛋白质(图1a)。
在这里插入图片描述

SAMPLE是一个用于蛋白质工程的完全自主系统

这个蛋白质适应度景观,描述了从序列到功能的映射,可以想象为山峰、山谷和山脊的陆地景观。

SAMPLE智能体,可以从最初未知的序列-功能景观中识别高活性适应度峰值(即性能最佳的序列)。

在这个过程中,智能体会主动查询环境以收集信息,并构建对景观的内部感知。

智能体必须在勘探和开发之间分配资源,以了解景观结构,并利用当前的景观知识来确定最佳序列配置。

研究者将智能体的蛋白质工程任务视为贝叶斯优化(BO)问题,该问题旨在优化未知的目标函数,并且必须在探索和开发之间进行有效的权衡。

SAMPLE智能体会使用高斯过程 (GP) 模型,从有限的实验观察中构建对适应度景观的理解。

这个模型必须考虑感兴趣的蛋白质功能,以及由于蛋白质结构不稳定而产生的景观中的非活性「孔」。

研究者会使用多输出GP,同时模拟蛋白质序列是否为活性/非活性以及感兴趣的连续蛋白质特性。
在这里插入图片描述

以先前发表的细胞色素P450数据为基准,该数据包括331个非活性序列和187个带有热稳定性标记的活性序列。多输出GP表现出出色的预测能力,具有83%的主动/非主动分类准确率,并且对于主动序列的子集,预测热稳定性时r=0.84

在序列函数数据上训练的GP模型,代表了SAMPLE智能体的当前知识,从这里开始,智能体必须决定接下来要评估哪些序列,以实现蛋白质工程目标。

BO技术解决了不确定性下顺序决策的问题。置信上限(UCB)算法迭代采样具有最大置信上限(预测均值加预测区间)的点,并被证明可以快速收敛到最佳点,样本效率高。

然而,UCB在蛋白质工程中的实现是有限的,因为景观中的非活动「孔」没有提供任何信息来改进模型。

因此,研究者设计了两种启发式BO方法,考虑主动/非主动GP分类器(P (active) )的输出,将采样重点放在功能序列上。

「UCB阳性」方法仅考虑GP分类器预测为活动序列的子集 (P (active) > 0.5),并选择具有最高UCB值的序列。「预期UCB」方法通过乘以GP 分类器P (active) 来获取UCB分数的期望值。研究者通过使用细胞色素P450数据运行10,000次模拟蛋白质工程实验,来测试这些方法

平均而言,UCB阳性和预期UCB方法仅通过26次测量,就发现了热稳定的P450,并且所需的样品比标准UCB和随机方法少三到四倍。

研究者还在批量设置中测试了BO方法,其中多个序列并行测试,发现在较小批量中运行实验略有好处。

该试剂设计蛋白质后,会将其发送到SAMPLE实验室环境,以提供实验反馈。

研究者开发了一种高度精简、稳健和通用的流程,用于自动化基因组装、无细胞蛋白表达和生化表征。

程序使用克隆组装预合成的DNA片段25 ,以产生完整的基因和基于T7的蛋白质表达所需的5’/3’非翻译区域。

然后通过聚合酶链反应扩增组装的表达盒,并使用荧光染料EvaGreen验证产物以检测双链DNA。

然后将扩增的表达盒直接添加到基于T7的游离蛋白表达试剂中,以产生靶蛋白。最后,使用比色/荧光测定法对表达的蛋白质进行表征,以评估其生化活性和性质。

在这项工作中,研究者专注于糖苷水解酶及其对高温的耐受性。

在链霉菌属的四种不同的糖苷水解酶家族1(GH1)酶上,研究者测试了自动化实验流程的重现性。

该系统可靠地测量了酶的热稳定性。

该过程需要∼1小时的基因组装,1小时的PCR,3小时的蛋白质表达,3 小时的热稳定性测量,以及9小时的从请求的蛋白质设计到物理蛋白质样品再到相应数据点。

GH1组合序列空间

基于云端的糖苷水解酶自主设计

应用SAMPLE的目的,就是导航和优化GH1的热稳定性图景。
研究者在Strateos云实验室上实施了实验管道,以增强其他研究人员的可扩展性和可访问性。

为此,他们部署四个独立的SAMPLE试剂,每个试剂都接种了相同的六个天然GH1序列。

智能体根据预期 UCB 标准设计序列,每轮选择三个序列,总共运行20轮(图 3a)。

这四种智能体的优化轨迹显示出景观的逐渐攀升,早期阶段以探索行为为特征,后期轮次一致地对热稳定设计进行采样。

在两种情况下,质量过滤器遗漏了错误数据,并错误地将热稳定性值分配给非活动序列。

研究者故意不纠正这些错误的数据点,以观察智能体在获取更多景观信息时,如何从错误中恢复。

有大量不确定的实验,如图3a底部的问号所示。

在这里插入图片描述

其中大多数是非活性酶的结果,试剂必须测试两次才能将其指定为非活性酶。大约9%的实验失败,可能是由于液体处理错误。

每种试剂发现的GH1序列,都要比六个初始天然序列至少稳定12°C。

智能体在搜索不到2%的完整组合景观时,就能识别出这些序列。

研究者可视化了智能体的搜索轨迹,发现每个智能体在收敛到相同的全局适应度峰值之前广泛探索了序列空间(图3b)。

所有四个智能体都到达了景观的相似区域,但每个智能体发现的顶部序列都是独一无二的。

热稳定序列往往由 P6F0、P1F2或P5F2和P1F3基因片段组成,这表明相应的氨基酸片段可能含有稳定残基和/或相互作用。

因此,可以相信智能体已经确定了1,352个成员组合序列空间的全局适应度峰值,因为所有四个智能体都收敛到同一个峰值,并且使用所有智能体收集的所有数据训练的GP模型,都预测到了与智能体发现的序列相似的顶级序列。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/259790.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

数据结构-邻接矩阵

介绍 邻接矩阵,是表示图的一种常见方式,具体表现为一个记录了各顶点连接情况的呈正方形的矩阵。 假设一共有以下顶点,其连接关系如图所示 那么,怎么表示它们之间的连接关系呢? 我们发现,各条边所连接的都…

7.1 Qt 中输入行与按钮

目录 前言: 技能: 内容: 参考: 前言: line edit 与pushbotton的一点联动 当输入行有内容时,按钮才能使用,并能读出输入行的内容 技能: pushButton->setEnabled(false) 按钮不…

django中的中间件

在Django中,中间件(Middleware)是一个轻量级的、底层的“插件”系统,用于全局地修改Django的输入或输出。每个中间件组件都负责执行一些特定的任务,比如检查用户是否登录、处理日志、GZIP压缩等。Django的中间件提供了…

Python安装GDAL库

目录 一、GDAL介绍 二、GDAL应用 三、python安装GDAL库 一、GDAL介绍 GDAL(Geospatial Data Abstraction Library)是一个在X/MIT许可协议下的开源栅格空间数据转换库。它利用抽象数据模型来表达所支持的各种文件格式,并且提供了一系列命令…

10分钟带你了解分布式系统的补偿机制

我们知道,应用系统在分布式的情况下,在通信时会有着一个显著的问题,即一个业务流程往往需要组合一组服务,且单单一次通信可能会经过 DNS 服务,网卡、交换机、路由器、负载均衡等设备,而这些服务于设备都不一…

(10)Hive的相关概念——文件格式和数据压缩

目录 一、文件格式 1.1 列式存储和行式存储 1.1.1 行存储的特点 1.1.2 列存储的特点 1.2 TextFile 1.3 SequenceFile 1.4 Parquet 1.5 ORC 二、数据压缩 2.1 数据压缩-概述 2.1.1 压缩的优点 2.1.2 压缩的缺点 2.2 Hive中压缩配置 2.2.1 开启Map输出阶段压缩&…

elementui 中 el-date-picker 控制选择当前年之前或者之后的年份

文章目录 需求分析 需求 对 el-date-picker控件做出判断控制 分析 给 el-date-picker 组件添加 picker-options 属性&#xff0c;并绑定对应数据 pickerOptions html <el-form-item label"雨量年份&#xff1a;" prop"date"><el-date-picker …

洛谷 P6546 [COCI2010-2011#2] PUŽ

讲解&#xff1a; 首先还是正常输入&#xff1a; int a,b,v; cin>>a>>b>>v; 然后经入一个函数num&#xff1a; cout<<num(1.0*(v-a),(a-b))1<<endl; 之所以要乘以1.0是因为要向上取整&#xff01;而这个num函数的两个参数则是“蜗牛白天爬了多…

【智能家居入门2】(MQTT协议、微信小程序、STM32、ONENET云平台)

此篇智能家居入门与前两篇类似&#xff0c;但是是使用MQTT协议接入ONENET云平台&#xff0c;实现微信小程序与下位机的通信&#xff0c;这里相较于使用http协议的那两篇博客&#xff0c;在主程序中添加了独立看门狗防止程序卡死和服务器掉线问题。后续还有使用MQTT协议连接MQTT…

LabVIEW焊缝缺陷超声检测与识别

LabVIEW焊缝缺陷超声检测与识别 介绍基于LabVIEW的焊缝缺陷超声检测与识别系统。该系统利用LabVIEW软件和数据采集卡的强大功能&#xff0c;实现了焊缝缺陷的在线自动检测&#xff0c;具有通用性、模块化、功能化和网络化的特点&#xff0c;显著提高了检测的效率和准确性。 随…

Qt的基本操作

文章目录 1. Qt Hello World 程序1.1 通过图形化界面的方式1.2 通过代码的方式实现 2. Qt 的编码问题3. 使用输入框实现hello world4. 使用按钮实现hello world5. Qt 编程注意事项6. 查询文档的方式7. 认识Qt坐标系 1. Qt Hello World 程序 1.1 通过图形化界面的方式 我们先讲…

8、内网安全-横向移动RDPKerberos攻击SPN扫描WinRMWinRS

用途&#xff1a;个人学习笔记&#xff0c;有所借鉴&#xff0c;欢迎指正 目录 一、域横向移动-RDP-明文&NTLM 1.探针服务&#xff1a; 2.探针连接&#xff1a; 3.连接执行&#xff1a; 二、域横向移动-WinRM&WinRS-明文&NTLM 1.探针可用&#xff1a; 2.连接…

每日一练:LeeCode-501、二叉搜索树中的众数【二叉搜索树+pre辅助节点+DFS】

本文是力扣LeeCode-LeeCode-501、二叉搜索树中的众数【二叉搜索树pre辅助节点DFS】 学习与理解过程&#xff0c;本文仅做学习之用&#xff0c;对本题感兴趣的小伙伴可以出门左拐LeeCode。 给你一个含重复值的二叉搜索树&#xff08;BST&#xff09;的根节点 root &#xff0c;…

Android Compose 一个音视频APP——Magic Music Player

Magic Music APP Magic Music APP Magic Music APP概述效果预览-视频资源功能预览Library歌曲播放效果预览歌曲播放依赖注入设置播放源播放进度上一首&下一首UI响应 歌词歌词解析解析成行逐行解析 视频播放AndroidView引入Exoplayer自定义Exoplayer样式横竖屏切换 歌曲多任…

如何根据需求理解CPU、SoC和MCU的区别

在当今数字化的世界中&#xff0c;我们经常听到关于CPU、SoC和MCU的名词&#xff0c;它们都是计算机科学和电子工程领域中的重要组成部分。然而&#xff0c;这三者之间存在着明显的区别。本文将深入探讨CPU&#xff08;中央处理器&#xff09;、SoC&#xff08;系统芯片&#x…

一、部署Oracle

部署Oracle 一、Docker部署1.Oracle11g1.1 测试环境1.1.1 拉取镜像1.1.2 启动容器1.1.3 配置容器环境变量1.1.4 修改sys、system用户密码1.1.5 创建表空间1.1.6 创建用户并授权1.1.5 使用DBeaver测试连接 二、安装包部署 一、Docker部署 1.Oracle11g 1.1 测试环境 当前只能用…

练习题解(关于最短路径)

目录 1.租用游艇 2.邮递员送信 3.【模板】单源最短路径&#xff08;标准版&#xff09; 1.租用游艇 P1359 租用游艇 - 洛谷 | 计算机科学教育新生态 (luogu.com.cn) 输入数据&#xff1a; 3 5 15 7 因为这道题数据不大&#xff0c;所有我们直接使用Floyd 算法。 这道题大…

OpenAI:Sora视频生成模型技术报告(中文)

概述 视频生成模型作为世界模拟器 我们探索视频数据生成模型的大规模训练。具体来说&#xff0c;我们在可变持续时间、分辨率和宽高比的视频和图像上联合训练文本条件扩散模型。我们利用transformer架构&#xff0c;在视频和图像潜在代码的时空补丁上运行。我们最大的模型Sor…

《苍穹外卖》知识梳理6-缓存商品,购物车功能

苍穹外卖实操笔记六—缓存商品&#xff0c;购物车功能 一.缓存菜品 可以使用redis进行缓存&#xff1b;另外&#xff0c;在实现缓存套餐时可以使用spring cache提高开发效率&#xff1b;   通过缓存数据&#xff0c;降低访问数据库的次数&#xff1b; 使用的缓存逻辑&#…

C#,二进制数的按位旋转(Bits Rotate)算法与源代码

1 二进制数的按位旋转 二进制数的按位旋转&#xff08;翻转&#xff09;是编程中常见的按位运算方法。 二进制数的按位旋转分为左转、右转。 左转意味着数据变大&#xff0c;右转意味着数据变小&#xff08;有损&#xff09;。 2 源程序 using System; using System.Text; us…