AI帮你解读基因检测结果?任重道远,未来可期
依赖于测序技术的发展,越来越多的基因检测产品应用于临床诊疗,可以辅助临床医生进行生育相关遗传病诊断、肿瘤精准诊疗与早期预防和感染病因查找等。但是,测序结果如何应用到临床诊疗,中间需要庞大的解读知识库的支撑。目前这些解读知识都是依靠具有丰富经验的遗传分析师人工阅读大量文献资料去获取,过程极其耗时耗力。近几年AI领域飞速发展,也出现了一些辅助文献阅读的AI工具。我们调研选取了几款AI工具,并测试了它们在回答病原微生物领域专业知识及进行文献阅读并提取专业知识的能力,探讨这些AI工具在辅助进行基因检测结果解读方面的可行性和效果。
一、AI工具分类
1. 泛AI工具
这类工具无需提供文献,可以直接进行提问,工具根据已有的大数据模型给出回答。但也正是因为脱离于文献给出回答,所以不会给出回答内容的依据来源。而临床诊疗是需要的严谨的循证医学支持,因此这类工具不太满足遗传分析师获取解读知识的需求。但我们还是选取了当下最具代表性的ChatGPT进行了测试看看其准确性如何。结果发现ChatGPT在回答专业领域的问题时仍存在较多问题:回答错误,回答内容找不到证据支持,漏答案,回答繁琐等。
只能回答固定问题的文献阅读AI工具:这类工具可以对文献内容自动进行总结归纳,帮助快速阅读,了解文章内容,使用什么方法获得了什么结果,有效节省阅读文献的时间。但是上述固定回答可能不包含有我们所需要的具体知识,而且这类工具不支持与文献进行对话,无法通过个性化提问来获取具体知识。比如Paper Digest工具,它目前只能固定的给出“What this paper is about”、“What you can learn”两个问题的答案,帮助我们快速了解文献主体内容。而无法获取文章的具体知识,比如某种细菌是革兰氏阳性菌还是革兰氏阴性菌。所以该类工具也无法满足上述需求。
2. 可以对话的文献阅读AI工具
这类工具不是设置固定问题,而是可以支持任何个性化提问。比如,我们既可以提问“What this paper is about?”去快速了解文章主体,又可以提问“Whether XX bacteria is gram-positive or gram-negative?”这种细节问题去获取文章具体内容。上传文献后,只需要使用者提出问题,工具即可以对文献内容进行提取解析,针对性的回答问题。这类工具从使用功能上有可能可以满足我们的要求。
二、AI工具测试比较
我们选取了可以与文献进行对话的4款文献阅读AI工具,分别测试了他们阅读并解析病原微生物专业文献的效果。
1. 最“知错能改”的ChatPDF
ChatPDF是基于ChatGPT API开发的文献阅读工具。上传文件后,ChatPDF能够从 PDF文件中快速提取有用信息,并进行总结,并指明在文献的哪一页。ChatPDF在回答问题的整体准确性方面在几款工具中属中上水平,但是也会存在回答错误、漏答案、扩展文献外内容进行回答等不良表现。但是ChatPDF在错误学习能力方面表现最为优异。
2. “阅读理解”最好的HUMATA AI
HUMATA AI也是基于ChatGPT开发的另一款AI阅读工具。它首先让模型学习上传的论文,然后可以通过提问快速了解这篇论文的具体内容,而且可以将原文依据进行高亮显示,但是效果并不理想。HUMATA AI在总体准确性方面与ChatPDF相当,但是在理解能力方面似乎略胜一筹。比如提问跟药物敏感性/耐药性相关的问题,HUMATA AI能理解MIC(最小抑菌浓度)是与其相关的回答,并给出回答,而ChatPDF和ChatDOC均没有给出。
3. 最“懂图表”最“啰嗦”的ChatDOC
ChatDOC也是一款基于ChatGPT的文献阅读助手,可以快速从PDF、DOC等文档文件中提取、定位和总结文献信息,其定位答案的表现与HUMATA AI有得一比。ChatDOC在解析文章图表内容方面较前面两个工具会更好一些。但是ChatDOC是这几款工具当中回答最为繁琐的。
解析文献内容的能力弱一些,会出现文献内容遗漏或排版混乱等问题。
4. 最“简单”的Elicit
Elicit是一个基于人工智能模型的检索工具,根据关键词找到相关论文,并能以其中一篇为原点去获取到众多与之相关的文献。针对每篇文献也可进行个性化提问获取目标信息。Elicit的对话风格与前面三种不太一样,前面三种工具给出的答案都是完全的一句或几句话,但是Elicit给出的是原文中的短语描述(少数情况也会出现原文没有的答案描述),答案最为简洁。但是该工具解析文献内容的能力弱一些,会出现文献内容遗漏或排版混乱等问题,导致答案准确性低,遗漏答案的情况较多。
我们的工作
深圳市合木千行科技有限公司,专注于利用IT + AT + BT技术对实验室自动化、数字化场景需求进行深入挖掘,赋能生命科学及医疗行业,致力于打造面向未来的实验室自动化和智能化解决方案及产品。在生物信息分析领域,合木千行也利用ABC(AI+Bio Bigdata+Cloud)技术协助进行数据分析、报告解读等工作。
目前我们正在开发一款基于NLP模型和问答范式的自动化文献阅读和知识提取的工具平台。通过该平台,只要输入物种名关键词,模型即可自动检索相关文献,针对选定的文献,自动抓取文献全文,最终自动提取出可以辅助临床诊疗的病原微生物知识。借助我们前期积累的超过5000条病原训练数据集,目前我们的模型测试结果F1 score已经达到94.57%,后续我们将持续进行开发,继续提升模型准确性,并进一步完善功能,使其成为一款可以实现自动化检索文献、阅读文献、提取知识、知识集成和翻译的AI知识库构建和管理平台。