生物科学大模型调研

生物大模型竞品调研

1 概念分类

在这里插入图片描述

  • 大模型:大模型通常指的是参数量较大、层数较深的机器学习模型,例如深度神经网络。这些模型具有大量的可训练参数,通过在大规模数据集上进行训练,能够更好地捕捉数据中的复杂模式和特征。大模型在各种领域都有广泛应用,包括自然语言处理、计算机视觉、语音识别等。这里的“大”没有明确的界限,0.x B ~ x00 B 参数都可称作大模型。

  • 大语言模型:大语言模型是指具有大规模训练参数的语言序列处理模型。这些模型经过大规模的训练,可以理解和生成语言序列。尽管大语言模型主要用于处理自然语言文本,但在某些情况下,它们也可以用于处理非自然语言数据,如编程语言、蛋白质、特定领域的术语等。

  • 大自然语言模型:特指目标是模拟人类语言理解和生成的能力的大语言模型。可以应用于多种领域,包括:

    • 机器翻译:将一种自然语言翻译成另一种自然语言。

    • 文本摘要:从长篇文本中提取关键信息,生成简洁的摘要。

    • 问答系统:回答用户提出的问题,基于文本语境提供准确的答案。

    • 文本生成:生成文章、故事、对话等自然语言文本。

    • 情感分析:分析文本中的情感倾向,如正面、负面、中性等。

    • 信息抽取:从文本中提取结构化信息,如实体、关系等。

2. 生物-大自然语言模型

结论:工业界和生物相关的大自然语言模型都**偏向医疗行业(用于问诊等),没有生物科学知识(如基因组学等)相关的。**也就是说,类似于定位的生物科学-大自然语言模型,目前工业界是没有的。

公司机构时间参数量应用场景亮点参考
微软:BioGPT2022.111.5B(GPT-2)可用于辅助生物医学文献的研究、分析和挖掘,包括问答系统、文本生成、信息提取等应用。* 相比于基于BERT的模型,BioGPT具备生成能力,可以生成生物医学领域的流畅描述。 * 在六个生物医学自然语言处理任务上表现出色,超过了之前的模型。特别是在BC5CDR、KD-DTI和DDI端到端关系抽取任务上,分别获得了44.98%、38.42%和40.76%的F1得分,以及在PubMedQA任务上获得了78.2%的准确率,创造了新的记录。https://github.com/microsoft/BioGPT image
Google、Deepmind:MultiMedQA、Med-PaLM 22023.3.14540B -> 340B为了致力于开发能够检索医学知识、准确回答医学问题并提供推理的 AI 工具Med-PaLM 2成为首个在MedQA数据集上以**“专家”级别表现**的LLM,该数据集包含类似于美国医学执照考试(USMLE)的问题,准确率达到85%以上image https://sites.research.google/med-palm/
百度:GBIBot2023.3.21260B(文心一言)文心大模型首个落地医药行业的应用,医药垂类对话机器人文心大模型与GBI专业数据库的有机结合https://news.sina.com.cn/sx/2023-03-23/detail-imymvyyy9637503.shtml
阿里+卫宁健康:WiNGPT2023.56B以Colipot方式将互联网问诊等功能融合到WiNEX产品中。通过候诊患者预问诊,人工智能快速记录数据并给出回答,医生可以实时看到和引用AI生成的内容,提升回答效率。WiNGPT训练的数据量已达到9720项药品知识、7200余项疾病知识、2800余项检查检验知识、1100余份指南文档,总训练Token数达37亿。共包含7大类基础任务与20多项子任务,在与ChatGPT问诊对比中,WiNGPT更为专业、准确、简练地生成主诉、现病史、诊断和建议。智慧医疗云:https://developer.aliyun.com/article/997643 image https://m.21jingji.com/article/20230531/herald/fd29fac5ef48e4700fcb9ebc16c7cba1.html

3. 生物-大语言模型

结论:工业界和生物相关的大语言模型会更集中在蛋白质语言(序列)、氨基酸预测上。

公司机构时间参数量应用场景亮点参考
百度&百图生科:HelixFold-Single2022.7.281B基于语言模型的单序列的蛋白结构预测模型在CASP14和CAMEO数据集上取得了与基于MSA(多序列比对)的方法相竞争的准确性。所需时间远少于主流蛋白质结构预测流程,展示了它在需要进行多次预测的任务中的潜力。image https://arxiv.org/pdf/2207.13921.pdf https://github.com/PaddlePaddle/PaddleHelix/tree/dev/apps/protein_folding/helixfold-single
NVIDIA:BioNeMo2022.9.201B大型生物分子语言模型,帮助科学家更好地了解疾病,并为患者找到治疗方法。该LLM框架将支持化学、蛋白质、DNA 和 RNA 数据格式。BioNeMo 是 NVIDIA NeMo Megatron 框架的扩展,可实现大规模自监督语言模型的 GPU 加速训练。这一针对特定领域的框架支持以 SMILES 化学结构标记表征的分子数据、以及以 FASTA 氨基酸和核酸序列字符串表征的分子数据。https://www.youtube.com/watch?v=PWcNlRI00jo&t=4399s
腾讯:scBERT2022.9.27110~340M能给细胞中的每个基因都印上专属“身份证”,可用于临床单细胞测序数据,并辅助医生描述准确的肿瘤微环境、检测出微量癌细胞,从而实现个性化治疗方案或者癌症早筛。同时,对疾病致病机制分析、耐药性、药物靶点发现、预后分析、免疫疗法设计等领域都具有极其重要的作用。首次将transformer运用到单细胞转录组测序数据分析领域。该模型基于BERT范式,将细胞中基因的表达信息转化成可被计算机理解、学习的语言,并对细胞进行精准标注。通过了9个独立数据集、超过50万个细胞、覆盖17种主要人体器官和主流测序技术组成的大规模benchmarking测试数据集上,该算法模型的优越性均得以验证。其中,在极具挑战的外周血细胞亚型细分任务上,相较现有最优方法的70%准确度提升了7%。image https://github.com/TencentAILabHealthcare/scBERT
Meta:ESM22022.12.2215B由于语言模型的迷惑性和结构预测的准确性之间有很强的联系,当ESM-2能较好地理解蛋白质序列,驱动ESMFold获得了准确的原子分辨率结构预测。共评估了228个生成的蛋白质的实验结果,在尺寸排除色谱法中以较高的总成功率(67%)生成可溶性和单体物种。 推理时间还比AlphaFold2快了一个数量级,将使绘制大型元基因组学序列数据库的结构空间成为可能,有利于发现对天然蛋白质的广度和多样性的新认识,并能发现全新的蛋白质结构和蛋白质功能。image https://www.biorxiv.org/content/10.1101/2022.12.21.521521v1.full.pdf
Salesforce:ProGen2023.1.261.2B通过学习在给定原始序列中过去的氨基酸的情况下,预测下一个氨基酸的概率来迭代优化,没有明确的结构信息或成对协同进化假设。可以提示从头开始为任何蛋白质家族生成全长蛋白质序列,与天然蛋白质具有不同程度的相似性。在 100 种天然蛋白质的阳性对照集中,72% 的表达良好。ProGen 生成的蛋白质在所有序列同一性箱中与任何已知的天然蛋白质的表达同样好image https://www.nature.com/articles/s41587-022-01618-2

4. 生物-大模型

结论:工业界在,生物大模型相关的布局产品形态多以**“AI平台”的形式向外提供能力,平台包含多个不同任务的大模型,多应用于生物制药**领域。

公司机构时间参数量应用场景亮点参考
华为:鹏程.神农 平台2021.9.25未知“鹏程.神农”是一个面向生物医学领域的人工智能平台,包含蛋白质结构预测、小分子生成、靶点与小分子相互作用预测以及新抗菌多肽设计与效果评价等模块。制药企业和医学研究机构可以使用“鹏程.神农”提供的AI能力,加速新型药物的筛选和创制。https://www.mindspore.cn/largeModel/shennong
百度&百度生科:BioMap平台2022.2未知HelixGEM化合物表征大模型,自动推断化合物的构象信息,进行化合物属性预测HelixGEM-1 使用 2000 万数据进行训练,是业内首个融合化合物三维几何空间构象信息的神经网络,进行自监督学习的工作。HelixGEM1 在 14 个药物属性相关的 benchmarks 都达到业界最优。image https://zhuanlan.zhihu.com/p/618509086 https://www.biomap.com/zh/
2022.5未知HelixADMET:基于 HelixGEM-1,通过多任务学习、学习指标任务之间的相关性,百度进一步提出一种融合多种任务的知识迁移框架。通过训练任务的先后顺序来控制模型的注意力重点,形成了成药性预测的工作。在同样的预测目标上,HelixADMET 平均领先其他方法 4% 以上。image

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/7333.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ChatGPT鲁棒性分析:对抗鲁棒与分布外泛化视角

©作者 | 胡曦煦 单位 | 香港城市大学 研究方向 | 领域自适应,领域泛化 众所周知,最近聊天机器人 ChatGPT 吸引了所有人的注意力,一方面人们想要在国内复刻相同的成功,另一方面也有人焦虑于研究范式的转变,担忧现在…

王兴将出任王慧文创业公司董事/ 谷歌多年来故意推迟发布类ChatGPT/ 飞书回应齐俊元并未负责日本业务...今日更多新鲜事在此...

日报君 发自 凹非寺量子位 | 公众号 QbitAI 家人们早上好,今天是3月9日,疯狂星期四。 快来和日报君一起来品尝今日份的“科技早餐”吧~ 美团王兴入局中国版OpenAI创业 美团创始人王兴的一条朋友圈火了。 内容的核心爆点,归结为一句话就是——…

ChatGPT中文LLM与医疗领域相结合的开源资源汇总

文章目录 前言DoctorGLMBenTsaoBianQueHuatuoGPTMed-ChatGLMQiZhenGPTChatMedXrayGLMMeChatMedicalGPTSunsimiaoShenNong-TCM-LLMSoulChat 总结 基于开源ChatGPT大模型构建自己的知识库系统 前言 自ChatGPT为代表的大语言模型(Large Language Model, LLM&#xff0…

人工智能历史上的重要一步:ChatGPT影响到谷歌地位?

AI神器ChatGPT 火了。 能直接生成代码、会自动修复bug、在线问诊、模仿莎士比亚风格写作……各种话题都能hold住,它就是OpenAI刚刚推出的——ChatGPT。 有脑洞大开的网友甚至用它来设计游戏:先用ChatGPT生成游戏设定,再用Midjourney出图&am…

ChatGPT当医生,谁敢来问诊

基于LLM的生成式聊天工具,如ChatGPT或谷歌的MedPaLM,具有巨大的医疗潜力,但它们在医疗保健中不受管制的使用将存在固有的风险。一篇发表在《Nature Medicine》新研究讨论了当今时代最紧迫的国际问题之一:如何监管大型语言模型&…

九龙证券|权重股引领A股强势反弹 沪指创今年以来最大单日涨幅

周一,沪深两市强势反弹,上证综指全天收涨超2%,创本年以来最大单日涨幅。到收盘,上证综指报3290.34点,上涨2.06%;深证成指报11954.13点,上涨2.03%;创业板指报2480.79点,上…

马云非公开会议:阿里电商应该回归淘宝;微信上线“安静模式”;ChatGPT会生成Win11激活密钥 | 极客头条...

「极客头条」—— 技术人员的新闻圈! CSDN 的读者朋友们早上好哇,「极客头条」来啦,快来看今天都有哪些值得我们技术人关注的重要新闻吧。 整理 | 苏宓 出品 | CSDN(ID:CSDNnews) 一分钟速览新闻点&#xf…

总结:Grafana Mimir调研

一、背景 Prometheus单实例,可用性低,可靠性低,不能存储更多数据。 解决业务问题 如:当前QKE是一个集群一个项目一个prometheus实例,那么当我一个应用分多个集群部署的时候,查询数据时就得从三个promethe…

现代软件工程 — 第一部分:系统设计

在80年代末和90年代初长大的我,对电脑的接触几乎仅限于游戏机(我认为是Atari 800和Commodore 64游戏机,因为我只看到过在它们上面运行的游戏)或早期的X86系统。直到2000年我上了大学,我才掌握了一台Sun Microsystems S…

钉钉接入大模型后,我才看懂阿里云钉一体战略的真正价值

来源: 首席数智官(ID:shouxishuzhiguan) hello 大家好,我们是数字化领军者都在看的首席数智官。 关注我,每天给你讲一个商业案例。 今天我们要给你讲的是:钉钉接入大模型后,阿里云…

微软或将于下周推出GPT-4;百度将在3月16日发布文心一言;小i机器人成功登陆纳斯达克丨每日大事件...

‍ ‍数据智能产业创新服务媒体 ——聚焦数智 改变商业 企业动态 百度计划于3月16日14时召开新闻发布会,主题围绕文心一言 3月10日,据百度官方微博消息,百度计划于3月16日14时在北京总部召开新闻发布会,主题围绕文心一言。百度创…

小i机器人登陆纳斯达克:市值4.2亿美元,与苹果打了10年专利侵权官司

‍数据智能产业创新服务媒体 ——聚焦数智 改变商业 要问当前科技圈里最靓的仔是谁?那当然是非 ChatGPT莫属。当下谁能推出真正意义上的中国版ChatGPT,并且在这轮AI浪潮竞争白热化阶段中笑到最后,已经成为人们关注的焦点。 美东时间3月9日&a…

Python年利率计算器【N日年化收益率】

现在有闲钱的人,按照聪明等级从低到高排序应该是 钱买股票,一年利率约为-20% 钱放银行活期,年利率约为0.3% 钱放银行定期,一年利率约为1.5% 钱放余额宝(支付宝)或零钱通(微信)&#…

李宏毅-2023春机器学习 ML2023 SPRING-学习笔记:3/3 机器学习基本概念介绍

目录 3/3 机器学习基本概念介绍快速了解機器學習基本原理生成式學習的兩種策略:要各個擊破,還是要一次到位能夠使用工具的AI:New Bing, WebGPT, ToolformerBrief Introduction of Deep LearningGradient DescentBackpropagation卷積神經網路 …

如何用 GPT-4 帮你写游戏?

你知道的,GPT-4 发布了。 目前你想要用上 GPT-4,主要的渠道是 ChatGPT Plus 。作为交了订阅费的用户,你可以在对话的时候选择模型来使用。 另一种渠道,就是申请官方 API 的排队。我在申请 New Bing Chat 的时候,耐心被…

chatGPT与人形机器人,高泽龙接受中国经营报采访谈二者发展

1.相较于Chatgpt,人形机器人的市场前景有多大? 答:人形机器人的市场前景可以用“无限大”来形容,这看起来很夸张而且并不合理,其实是客观而且中肯的。因为这个问题就仿佛是五十年前,人们问“未来的电脑市场…

ChatGPT 来了,你准备好了吗?

周三的晚上,我做了一次直播,题目叫做《ChatGPT 来了,老师和同学们准备好了吗?》。如果你还没看,欢迎看看回放视频。 做这次直播,是因为受了三重刺激。 第一重,来自于我的一位好友,也…

7 个月来,ChatGPT 首次遭遇“负增长”!月访问量下滑 10%​,网友:“过气”预警?...

整理 | 郑丽媛 出品 | CSDN(ID:CSDNnews) 在全球掀起 AI 热潮的 ChatGPT,爆火了 7 个月后,似乎开始有些“过气”了? 根据网站数据分析工具 SimilarWeb 最新调查显示,在刚刚过去的 6 月中&#x…

GPT-4 手画设计稿 直接生成前端页面

1.演讲者直接手画了一个设计稿 2.输入指令:用html/js把这个原型稿变成彩色网站,填充 2 条真实的笑话 3. 网站代码自动生成 不少所谓的大V在朋友圈噱头喊着前端要失业XX,其实本质上对事物的理解认知不够 AI本质上是帮助人提高生产力的工具,人才…

文心一言话题的思考

⭐️我叫忆_恒心,一名喜欢书写博客的在读研究生👨‍🎓。 如果觉得本文能帮到您,麻烦点个赞👍呗! 近期会不断在专栏里进行更新讲解博客~~~ 有什么问题的小伙伴 欢迎留言提问欧,喜欢的小伙伴给个三…