达尔文——生物医疗科学领域大模型

在这里插入图片描述
在这里插入图片描述
赛灵力官网

在这里插入图片描述
在这里插入图片描述

1. 生物医疗领域的挑战

1.1 复杂性

在这里插入图片描述

生物系统和生物过程非常复杂,包含大量的相互作用和调控机制,理解和解析这些复杂性是一项巨大的挑战。
举例来说,单单一个人类,体内的生物信息就非常复杂:

  • 人类体内体内平均大约生活着1,000种不同种类的细菌
  • 单个测序的人类基因组大约为140GB
  • 人类基因组含有约31.6亿个DNA 碱基对

1.2 数据爆炸

在这里插入图片描述

生物领域产生的数据呈爆炸性增长,包括基因组数据、表型数据、蛋白质数据等,这些数据的规模和复杂性使得传统方法难以有效处理和分析。

  • 文献数量增长:PubMed 数据库中的生物医学文献数量不断增加。目前 PubMed 包含超过 3,500 万篇生物医学文献
  • 随着测序技术的发展,基因组数据量呈爆炸性增长。NCBI 的 Sequence Read Archive (SRA) 数据库收录了 7亿亿级别的 的测序数据。

1.3 知识碎片化

在这里插入图片描述

生物科学领域存在大量的碎片化知识,散布在各种文献、数据库和研究中,整合和理解这些知识是一项困难的任务。

  • 生物医疗专科增多,学科交叉:生物医疗领域涉及多个学科的知识,如生物学、化学、医学、计算机科学等。学科交叉的增加使得研究人员需要具备多学科的知识,而且跨学科合作也面临知识整合的挑战。同时,医学领域不断出现新的专科和亚专科,涉及各种疾病和治疗方法。根据美国医学会的数据,医学专科已经超过180个,导致医学知识的分散和碎片化。
  • 数据分散罕见:病历、药物信息、试验结果数据的分散性使得生物医疗领域难以综合和比较不同的数据。全球已知的罕见病约有7,000多种, 而在分类更为细致的疾病数据库Malacards上的统计一共有14000多种

2. 达尔文模型核心优势

在这里插入图片描述

2.1 RDDC数据中心

在这里插入图片描述

背靠赛业生物,赛灵力有专业的生物科研数据库——RDDC。 RDDC 罕见病数据库
罕见病数据中心(RDDC)由清华珠三角研究院人工智能创新中心与赛业生物联合研发提供生物和遗传技术支持。RDDC专注于基因及遗传相关数据呈现,充分利用遗传大数据进行生物人工智能工具的开发。目前,我国尚无公共的罕见病数据库,现有的国际疾病数据库也没有对罕见病的展示模式以及大多数研究者关心的相关问题提供足够清晰的可视化展示。RDDC的目的是帮助医生、大学和研究机构的研究人员以及罕见病患者及其家属快速、直观地了解他们感兴趣的罕见病。RDDC还通过数据库整合国内罕见病相关资源,为罕见病科学研究提供全面的数据档案。

  • 在**基因方面,RDDC已经收集了600GB+**的人类、小鼠、大鼠等物种的基因信息
  • 疾病页面,RDDC收集了130GB+的数据,包括 Malacards、OMIM、Orphanet、ClinVar等开源数据库的信息以及罕见病联盟提供的本地疾病信息。
  • 在**小鼠模型领域,RDDC收集了50GB+**的许多文献中使用的各类基因编辑小鼠模型数据

在“海量、中英文、高质量、通用开源”数据,以及专业上进行预训练,即续写(预测下一个词)。再次基础上,RDDC 的各类生物医学数据(如 临床与生物文本、DNA序列、基因表达。蛋白质等等)也用于“达尔文”大模型(通用开源数据以外)进一步的预训练,赋予“达尔文”大模型在生物医疗领域比一般通用大模型具备更有竞争力的表现

2.2 科研强化

在这里插入图片描述
RLHF 是指"Reinforcement Learning from Human Feedback",即从人类反馈中进行强化学习。它是一种强化学习方法,通过与人类交互来训练智能体,并从人类提供的反馈中进行学习和改进。
RLHF 的目标是利用人类的专业知识或经验来加速强化学习过程,尤其是在环境动态或奖励函数复杂的情况下。它可以通过人类提供的示例轨迹、偏好或评估来引导智能体的学习过程。
背靠赛业,数百名生物领域的专业研究员为我们达尔文提供专业知识和经验,来训练反馈模型,以指导“达尔文”大模型的强化学习

2.3 生物AGI

在这里插入图片描述
大语言模型的兴起,带动当下最热门的研究方向之一就是:基于大语言模型(如 GPT4)的AI代理(如 AutoGPT、AgentGPT)。
AI代理能够通过自动循环来执行任务。它能够自主决策并调用外部应用工具、模型接口等来完成各种任务(如 查询天气、搜索引擎、计算器、天气、模型库(语音识别模型)等等),并通过循环评估策略实时评估目标当前的达成程度。
AI代理技术 能够处理更为复杂的任务。展示了真正的AGI(通用人工智能) 的雏形,即:一个可以自我完善、具备完成各种任务能力的AI
达尔文大模型 指令微调(instruction tuning)训练,除了进行常规的指令(如问答、摘要等),我们基于赛业生物在多年在生物领域技术的沉淀,构造了更丰富的生物垂类领域指令进行训练。使其拥有决策与调用各类生物信息AI工具能力,实现生物领域的通用人工智能:

  • RNA Splicer :预测碱基突变是否引起mRNA剪接位点变化,并详细分析和显示预测结果
  • Patho Predict :利用机器学习中的xgboost方法预测碱基突变引起的疾病效应水平。预测结果可分为四个致病性级别:良性、疑似良性、疑似致病性和致病性
  • 小鼠表型预测模型: Patho Predict 工具基于 Ensembl VEP 来预测突变对小鼠表型的影响。与其他现有预测工具相比,Patho Predict可以更准确地预测新发现突变的表型效应
  • ASO Predict :通过计算ASO与目标区域碱基序列的结合能以及其他碱基配对指标(如ASO的GC百分比、ASO的自由能等)来预测最佳ASO候选序列
  • SNP可视化工具:可以查看输入基因的突变分布和突变状态,方便突变热点和位点的查询
  • 小鼠到人类基因表达预测模型:基于线性表达法结合Bootstrap方法的AI模型,可以根据小鼠直系同源基因表达输入来预测人类基因的表达变化
  • Pathway Analysis :在线通路富集工具,可以直观地展示富集后通路中基因表达的变化。
    工具还在持续丰富中……

2.4 火山方舟

在这里插入图片描述
在这里,我们还要非常感谢我们的合作伙伴——字节跳动火山引擎。
就在前些天,6月28日,在2023火山引擎V-Tech体验创新科技峰会上,火山引擎发布大模型服务平台“火山方舟”。“火山方舟” 包含模型广场、模型体验、模型训练推荐以及模型应用的功能,其使命是加速大模型和大算力的应用落地,加快大模型在各行业发挥商业价值。
赛灵力和字节跳动火山引擎深度合作,得到大模型服务平台“火山方舟”的强劲GPU算力支持,加速了“达尔文”大模型的训练学习。
带给大家一个好消息,“达尔文”大模型将入驻火山引擎大模型生态,上架至“火山方舟”的模型广场,补全火山引擎大模型生态的生物医疗领域,并供大家使用与反馈。

火山方舟

3. 应用案例

在这里插入图片描述

3.1 面向个人

在这里插入图片描述

  • 在线问诊:在线智能问诊是指用户通过与智能助手进行对话,获取初步的医疗咨询和建议。助手可以提供常见症状的解释、推荐适当的医疗检查或建议咨询医生的时间。尽管在线智能问诊可以提供有用的信息,但它不是替代真正医疗专业人员的诊断和治疗。
  • 线下导诊:线下智能导诊是指智能助手在医疗机构的实际场景中提供导诊服务。当患者到达医院或诊所时,助手可以与患者进行对话,了解症状、查询病历、指导患者到正确的科室或医生那里就诊。这有助于提高就诊流程的效率,并为患者提供更好的导诊体验。
  • 诊后随访:智能助手可以在患者就诊后进行随访服务。通过与患者的对话,智能助手可以了解患者的康复情况、用药情况等,并提供相关的建议和回答患者的疑问,以及在必要时提醒患者进行复诊或进行特定的健康管理。

2.2 面向科研

  • 文献调研:智能助手可以根据科研人员的需求,提供基于专业科研文献的信息检索和分析服务。科研人员可以通过与智能助手的对话,快速获取相关领域的最新研究成果、技术手段和方法论等信息,以支持其科研工作。
  • 药物研发:智能助手可以协助生物科技企业或医药公司进行药物研发工作。通过与研发人员的对话,智能助手可以提供药物相关的数据库查询、药物设计和筛选、药效预测等方面的支持,以加快药物研发的速度和效率。
  • 基因解读:智能助手可以通过与科研人员的对话,提供针对基因组数据的问答服务。科研人员可以向智能助手提供基因组数据,然后与其进行对话,获得关于基因组信息、基因突变、潜在疾病风险等方面的问题的回答。智能助手可以解释基因组数据的含义,帮助科研人员理解个人或样本的基因组信息,并提供相关的解释、分析和建议。这种智能问答服务可以支持科研人员在基因组研究中的数据解读和分析工作,加快研究的进展和发现。

2.3 面向企业

在这里插入图片描述

  • 虚拟专家IP:智能助手可以模拟生物、医疗企业的领袖专家形象,通过与用户的对话,提供专业领域的知识分享、意见建议等服务。这种虚拟人形象可以为企业树立专业形象,提升企业的知名度和品牌形象。举例;”马叔来啦“,从单方面的内容(如 视频号)输出 -> 双向的专家与用户一对一互动
  • 数智销售:智能助手可以通过与潜在客户的对话,了解客户的需求和偏好,并根据客户的情况推荐合适的生物、医疗产品。智能助手可以提供产品的特点、优势和适用范围等信息,帮助客户做出购买决策。
  • 数智客服:智能助手可以协助客户解答关于生物、医疗产品的使用方法、维护保养、故障排除等方面的问题。智能助手可以通过与客户的对话,提供技术支持和解决方案,以满足客户的需求和解决客户的问题。
    在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/26412.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

计算机数学基础⑤(Graphs)

文章目录 Graph Theory(图论)Graphs: Useful Concepts(图:有用的概念)Walks and connectedness(走法和连通性) Graph Theory(图论) Definition 5.1. Intuitively, a graph is just a way of modeling a collection of objects and the connections between them.直…

权威发布丨2022 中国开源先锋 33 人之心尖上的开源人物

国家政策的扶持,开源在千行百业的应用,有人说开源最好的时代到了; 全球政治经济环境的快速变化,疫情的肆虐,有人说最寒冷的时代到了。 开源社主办的 COSCon22 中国开源年会上,我们也以「开源站在十字路口」…

对话实在智能CEO孙林君:AI创新加速RPA普惠

刚刚过去的2022年,以AI绘画和ChatGPT为代表的人工智能应用,让互联网业界眼前一亮,更让不少AI创新企业的估值水涨船高,最新报道称,ChatGTP的创建者OpenAI的估值已高达290亿美元,成为当下美国估值最高的初创公…

这10本书,带你了解 ChatGPT 的底层逻

文章来源:人民邮电出版社 自2022年11月30日发布以来,ChatGPT已经真正意义上地火爆全球:它在不到40天内就拥有了1000万用户,而Instagram足足用了355天;最近它的日活已经达到1000万,这意味着其用户已经超过20…

论文工具——写论文好用的绘图工具(甘特图+流程图+网络模型图+泳道图)

文章目录 引言正文手动画图的在线画图工具tldraw开源免费ProcessOnDraw.io 网络模型图工具NN-SVG设置参数自动生成Netron上传模型自动生成PlotNeuralNet编码生成 总结 引言 在写HiFi-GAN论文的代码阅读过程中,我发现仅仅通过文字来描述网络结构,不够详细…

GPT-4来了

(1)注意三个东西 这个IT世界,一直要注意三个东西: 硬件:新的计算设备软件:开源-免费交互:新的交互方式 你看每一代新的计算设备:大型主机-小型机-工作站-PC机-智能手机,每…

机器人博客等自媒体逐渐回归平静

先说结论吧,普通人比如我,最终将全力给AI(也就是人工智能)打工谋取生存的薪资。 关于机器人教学考核: AI回复: 我认为用AI评价学生成绩比人类老师更客观公正的原因是因为AI不会受到情感、偏见、疲劳等因素的…

好莱坞片酬最高的演员,投资了世界上最成功的 AI 公司

作者 | 汤一涛 编辑 | 靖宇 由 ChatGPT 带火的这波 AI 热潮,来的迅猛,让全世界措手不及。尤其是投资机构,当反应过来时,OpenAI 等领头公司估值已经坐上火箭,并且背后都是硅谷巨头,已经无从入手。 然而&…

没有他们,人工智能只能死翘翘

我过去写过一篇文章《很多所谓伟大的贡献,其实都是狗屎运》,今天我也写写人工智能。 (1)人才 深度神经网络如果不从明斯基和罗森布拉特说起,那就应该可以从1965年Ivakhnenko发明前馈神经网络说起。但关键里程碑是出自R…

欢迎来到新世界

(1) 我去年对技术的发展是比较灰心的: 云原生:技术一直动荡,SOA->Servless、Docker->WASM、GitOpsCICDDevOps云计算:在中国从公有云走向了私有云,乃至金融云、国资云、政务云等等N种云Saa…

CHATGPT-4变笨引爆舆论!文本代码质量都下降,OpenAI刚刚回应了降本减料质疑

ChatGPT狂飙160天,世界已经不是之前的样子。 新建了人工智能中文站https://ai.weoknow.com 每天给大家更新可用的国内可用chatGPT资源 大模型天花板GPT-4,它是不是……变笨了? 先是少数用户提出质疑,随后大量网友表示自己也注意…

万字解析GPT的情感与意识,它是一只被人类操控的“风筝” | AI未来指北

来源:AI未来指北 编辑整理:周小燕、郭晓静 《AI未来指北》栏目由腾讯新闻推出,邀约全球业内专家、创业者、投资人,探讨AI领域的技术发展、商业模式、应用场景、伦理及版权争议。 丨划重点 ● 一部分基础工作可能会被AI产品替代&am…

清华教授钱颖一:人工智能将使中国教育优势荡然无存

编辑 | CVer 点击下方卡片,关注“自动驾驶之心”公众号 ADAS巨卷干货,即可获取 在由国务院参事室公共政策研究中心和新华网思客共同主办的《参事讲堂》上,国务院参事、(前)清华大学经济管理学院院长钱颖一以“创新人才…

让 GPT-4 帮我设计一个分布式缓存系统,从尝试到被我逼疯!

点击关注公众号,Java干货及时送达 学习 Spring Cloud 微服务的正确姿势! 用上 ChatGPT 啦,强的离谱! 博客园在绝境求生。。 整理 | 屠敏 出品 | CSDN(ID:CSDNnews) 比 ChatGPT 背后 GPT-3.5 更为…

Android模仿微信浮窗功能的效果实现

转载请注明出处,谢谢:https://blog.csdn.net/HarryWeasley/article/details/82591320 源码地址:https://github.com/HarryWeasley/weChatFloatDemo 最近研究了微信悬浮窗的效果实现,写此文章记录一下,后面有我的GitH…

Qt 停靠悬浮窗口 使用实例

工程中我们常用到悬浮窗口,Qt 实现停靠和悬浮使用类QDockWidget, 效果: 悬浮窗口 这里主要介绍怎么使用; Part1.使用流程: 1. 创建QDockWidget对像的停靠窗体; QDockWidget *dw new QDockWidget(&quo…

android悬浮窗口的实现

当我们在手机上使用360安全卫士时,手机屏幕上时刻都会出现一个小浮动窗口,点击该浮动窗口可跳转到安全卫士的操作界面,而且该浮动窗口不受其他activity的覆盖影响仍然可见(多米音乐也有相关的和主界面交互的悬浮小窗口)。那么这种不受Activit…

ChatGPT提示词工程(六):Expanding扩展

目录 一、说明二、安装环境三、扩展(Expanding)1. 自定义自动回复客户电子邮件2. 提醒模型使用客户电子邮件中的详细信息3. 参数 temperature 一、说明 这是吴恩达 《ChatGPT Prompt Engineering for Developers》 的课程笔记系列。 本文是第七讲的内容…

通达信自动包络线指标公式以及ATR通道指标

根据亚历山大埃尔德在其著作《以交易为生》中的描述,自动包络线的设计思路是将通道看作试穿衬衫一样,寻找那些穿起来既不过松也不过紧的衬衫,只让手腕和脖子露在外面。自动包络线能够适应最近的行情波动,只有在极端情况下&#xf…

微信支付费率0.38还是0.6,0.2费率怎么开,3分钟申请教程

目前微信支付官方给到商家的费率统一为0.6%,部分线下实体店商家由服务商推广开户一般是用的0.38%的费率。 其实很多商户都不知道,其实还可以开通更低的费率,0.2~0.35%的费率。 现在就分享一个如何在几分钟申请提交开通0.2费率的…