赛灵力官网
1. 生物医疗领域的挑战
1.1 复杂性
生物系统和生物过程非常复杂,包含大量的相互作用和调控机制,理解和解析这些复杂性是一项巨大的挑战。
举例来说,单单一个人类,体内的生物信息就非常复杂:
- 人类体内体内平均大约生活着1,000种不同种类的细菌
- 单个测序的人类基因组大约为140GB
- 人类基因组含有约31.6亿个DNA 碱基对
1.2 数据爆炸
生物领域产生的数据呈爆炸性增长,包括基因组数据、表型数据、蛋白质数据等,这些数据的规模和复杂性使得传统方法难以有效处理和分析。
- 文献数量增长:PubMed 数据库中的生物医学文献数量不断增加。目前 PubMed 包含超过 3,500 万篇生物医学文献
- 随着测序技术的发展,基因组数据量呈爆炸性增长。NCBI 的 Sequence Read Archive (SRA) 数据库收录了 7亿亿级别的 的测序数据。
1.3 知识碎片化
生物科学领域存在大量的碎片化知识,散布在各种文献、数据库和研究中,整合和理解这些知识是一项困难的任务。
- 生物医疗专科增多,学科交叉:生物医疗领域涉及多个学科的知识,如生物学、化学、医学、计算机科学等。学科交叉的增加使得研究人员需要具备多学科的知识,而且跨学科合作也面临知识整合的挑战。同时,医学领域不断出现新的专科和亚专科,涉及各种疾病和治疗方法。根据美国医学会的数据,医学专科已经超过180个,导致医学知识的分散和碎片化。
- 数据分散罕见:病历、药物信息、试验结果数据的分散性使得生物医疗领域难以综合和比较不同的数据。全球已知的罕见病约有7,000多种, 而在分类更为细致的疾病数据库Malacards上的统计一共有14000多种
2. 达尔文模型核心优势
2.1 RDDC数据中心
背靠赛业生物,赛灵力有专业的生物科研数据库——RDDC。 RDDC 罕见病数据库
罕见病数据中心(RDDC)由清华珠三角研究院人工智能创新中心与赛业生物联合研发提供生物和遗传技术支持。RDDC专注于基因及遗传相关数据呈现,充分利用遗传大数据进行生物人工智能工具的开发。目前,我国尚无公共的罕见病数据库,现有的国际疾病数据库也没有对罕见病的展示模式以及大多数研究者关心的相关问题提供足够清晰的可视化展示。RDDC的目的是帮助医生、大学和研究机构的研究人员以及罕见病患者及其家属快速、直观地了解他们感兴趣的罕见病。RDDC还通过数据库整合国内罕见病相关资源,为罕见病科学研究提供全面的数据档案。
- 在**基因方面,RDDC已经收集了600GB+**的人类、小鼠、大鼠等物种的基因信息
- 在疾病页面,RDDC收集了130GB+的数据,包括 Malacards、OMIM、Orphanet、ClinVar等开源数据库的信息以及罕见病联盟提供的本地疾病信息。
- 在**小鼠模型领域,RDDC收集了50GB+**的许多文献中使用的各类基因编辑小鼠模型数据
在“海量、中英文、高质量、通用开源”数据,以及专业上进行预训练,即续写(预测下一个词)。再次基础上,RDDC 的各类生物医学数据(如 临床与生物文本、DNA序列、基因表达。蛋白质等等)也用于“达尔文”大模型(通用开源数据以外)进一步的预训练,赋予“达尔文”大模型在生物医疗领域比一般通用大模型具备更有竞争力的表现
2.2 科研强化
RLHF 是指"Reinforcement Learning from Human Feedback",即从人类反馈中进行强化学习。它是一种强化学习方法,通过与人类交互来训练智能体,并从人类提供的反馈中进行学习和改进。
RLHF 的目标是利用人类的专业知识或经验来加速强化学习过程,尤其是在环境动态或奖励函数复杂的情况下。它可以通过人类提供的示例轨迹、偏好或评估来引导智能体的学习过程。
背靠赛业,数百名生物领域的专业研究员为我们达尔文提供专业知识和经验,来训练反馈模型,以指导“达尔文”大模型的强化学习
2.3 生物AGI
大语言模型的兴起,带动当下最热门的研究方向之一就是:基于大语言模型(如 GPT4)的AI代理(如 AutoGPT、AgentGPT)。
AI代理能够通过自动循环来执行任务。它能够自主决策并调用外部应用工具、模型接口等来完成各种任务(如 查询天气、搜索引擎、计算器、天气、模型库(语音识别模型)等等),并通过循环评估策略实时评估目标当前的达成程度。
AI代理技术 能够处理更为复杂的任务。展示了真正的AGI(通用人工智能) 的雏形,即:一个可以自我完善、具备完成各种任务能力的AI
达尔文大模型 指令微调(instruction tuning)训练,除了进行常规的指令(如问答、摘要等),我们基于赛业生物在多年在生物领域技术的沉淀,构造了更丰富的生物垂类领域指令进行训练。使其拥有决策与调用各类生物信息AI工具能力,实现生物领域的通用人工智能:
- RNA Splicer :预测碱基突变是否引起mRNA剪接位点变化,并详细分析和显示预测结果
- Patho Predict :利用机器学习中的xgboost方法预测碱基突变引起的疾病效应水平。预测结果可分为四个致病性级别:良性、疑似良性、疑似致病性和致病性
- 小鼠表型预测模型: Patho Predict 工具基于 Ensembl VEP 来预测突变对小鼠表型的影响。与其他现有预测工具相比,Patho Predict可以更准确地预测新发现突变的表型效应
- ASO Predict :通过计算ASO与目标区域碱基序列的结合能以及其他碱基配对指标(如ASO的GC百分比、ASO的自由能等)来预测最佳ASO候选序列
- SNP可视化工具:可以查看输入基因的突变分布和突变状态,方便突变热点和位点的查询
- 小鼠到人类基因表达预测模型:基于线性表达法结合Bootstrap方法的AI模型,可以根据小鼠直系同源基因表达输入来预测人类基因的表达变化
- Pathway Analysis :在线通路富集工具,可以直观地展示富集后通路中基因表达的变化。
工具还在持续丰富中……
2.4 火山方舟
在这里,我们还要非常感谢我们的合作伙伴——字节跳动火山引擎。
就在前些天,6月28日,在2023火山引擎V-Tech体验创新科技峰会上,火山引擎发布大模型服务平台“火山方舟”。“火山方舟” 包含模型广场、模型体验、模型训练推荐以及模型应用的功能,其使命是加速大模型和大算力的应用落地,加快大模型在各行业发挥商业价值。
赛灵力和字节跳动火山引擎深度合作,得到大模型服务平台“火山方舟”的强劲GPU算力支持,加速了“达尔文”大模型的训练学习。
带给大家一个好消息,“达尔文”大模型将入驻火山引擎大模型生态,上架至“火山方舟”的模型广场,补全火山引擎大模型生态的生物医疗领域,并供大家使用与反馈。
火山方舟
3. 应用案例
3.1 面向个人
- 在线问诊:在线智能问诊是指用户通过与智能助手进行对话,获取初步的医疗咨询和建议。助手可以提供常见症状的解释、推荐适当的医疗检查或建议咨询医生的时间。尽管在线智能问诊可以提供有用的信息,但它不是替代真正医疗专业人员的诊断和治疗。
- 线下导诊:线下智能导诊是指智能助手在医疗机构的实际场景中提供导诊服务。当患者到达医院或诊所时,助手可以与患者进行对话,了解症状、查询病历、指导患者到正确的科室或医生那里就诊。这有助于提高就诊流程的效率,并为患者提供更好的导诊体验。
- 诊后随访:智能助手可以在患者就诊后进行随访服务。通过与患者的对话,智能助手可以了解患者的康复情况、用药情况等,并提供相关的建议和回答患者的疑问,以及在必要时提醒患者进行复诊或进行特定的健康管理。
2.2 面向科研
- 文献调研:智能助手可以根据科研人员的需求,提供基于专业科研文献的信息检索和分析服务。科研人员可以通过与智能助手的对话,快速获取相关领域的最新研究成果、技术手段和方法论等信息,以支持其科研工作。
- 药物研发:智能助手可以协助生物科技企业或医药公司进行药物研发工作。通过与研发人员的对话,智能助手可以提供药物相关的数据库查询、药物设计和筛选、药效预测等方面的支持,以加快药物研发的速度和效率。
- 基因解读:智能助手可以通过与科研人员的对话,提供针对基因组数据的问答服务。科研人员可以向智能助手提供基因组数据,然后与其进行对话,获得关于基因组信息、基因突变、潜在疾病风险等方面的问题的回答。智能助手可以解释基因组数据的含义,帮助科研人员理解个人或样本的基因组信息,并提供相关的解释、分析和建议。这种智能问答服务可以支持科研人员在基因组研究中的数据解读和分析工作,加快研究的进展和发现。
2.3 面向企业
- 虚拟专家IP:智能助手可以模拟生物、医疗企业的领袖专家形象,通过与用户的对话,提供专业领域的知识分享、意见建议等服务。这种虚拟人形象可以为企业树立专业形象,提升企业的知名度和品牌形象。举例;”马叔来啦“,从单方面的内容(如 视频号)输出 -> 双向的专家与用户一对一互动
- 数智销售:智能助手可以通过与潜在客户的对话,了解客户的需求和偏好,并根据客户的情况推荐合适的生物、医疗产品。智能助手可以提供产品的特点、优势和适用范围等信息,帮助客户做出购买决策。
- 数智客服:智能助手可以协助客户解答关于生物、医疗产品的使用方法、维护保养、故障排除等方面的问题。智能助手可以通过与客户的对话,提供技术支持和解决方案,以满足客户的需求和解决客户的问题。