前言:参加了2021年5月21日至23日于武汉举办的生物信息学与智能信息处理2021年会议,使得我对于生物信息有了更深入的了解。于是,在本文中记录下心得与体会。
一、会议主题
本次会议大主题为生物信息学和智能信息处理,可以细分为三种子模块:生物测序数据分析,机器学习在生物信息上的应用,生物网络与医疗大数据挖掘。
- 生物测序数据分析:这部分我的理解是对于生物中(基因、RNA、蛋白质)数据的格式,采集和分析等工作,在我接触的工作中,蛋白质质谱数据分析应该属于这一类。
- 机器学习在生物信息上的应用:结合生物信息任务与机器学习方法,提升系统性能。此部分得看具体任务是什么?碰到的难点是什么?机器学习是否能助力该领域的发展?
- 生物网络与医疗大数据挖掘:生物网络包括蛋白质互作用网络与各种生物数据的信息提取。
总的来说,上述三个子方向只是大致上进行了划分,其划分并非绝对,因此在某个具体任务中可能具备上述三个方向中的几个特征。
二、报告介绍
2.1、陈小平:深度学习的封闭性思考
现如今机器学习,深度学习十分流行。各行各业的研究人员都可以将深度学习与其研究方向相结合。但是深度学习并不是万能的,与任何方向都可以结合。现如今就发现大量场景下,深度学习的表现并不是那么有效。因此,陈小平教授就与深度学习相结合的问题做了划分,利用封闭性概念对深度学习在不同问题上表现的差异进行了解释。
封闭性
:不存在丢失变元,测试数据所有可能性。在训练的时候都已经被考虑到了。
陈小平老师就机器学习发展过程的三种方法进行了封闭性解释:知识推理,搜索,机器学习(训练法)
其次剖析了AlphaGo与封闭性理论的关系
最后,如何对于封闭性理论感兴趣,可关注参考文献。
思考:
机器学习工具可与我们任何任务相结合,只不过性能好坏而已。之后对于问题建模,应该也将问题的封闭性考虑进去。这样才能更好的解决问题,以及提高模型的泛化能力!
2.2、潘毅:人工智能技术在生物信息与药物上的挑战与机遇
潘毅老师介绍了多种人工智能技术在生物信息上的应用,但是对于我来说印象最深的是生物数据的理解。当生物数据脱离其生物背景后。可以很简单的被我们建模成不同维度的数据。但是当你需要对数据进行特征提取与网络选择时,对于生物意义理解深浅直接决定了你算法的性能。
思考:
记得大会上张巍老师说过,现如今与人工智能相关的交叉学科已经走入了深水区。那种数据与网络粗鲁相结合的时代已经过去了。现如今,你必须真正的理解生物问题,在此基础上,明确任务目标,对于深度学习这一工具进行私人会定制服务。
2.3、潘林强:基于基因的生物计算电路
初看潘林强老师的报告,我非常震惊,竟然可以用DNA来搭建电路。这样的话,之后还可以出现DNA电脑了!
DNA电路的基础在于DNA碱基对的配对,结合DNA特性,你再讲你要解决的问题映射为与DNA上的问题。这样就达到了利用DNA计算的目的。到目前为止已经可以做好利用DNA做简单逻辑门操作,也实现了神经网络的搭建。可以说基于DNA的生物复杂计算是可以实现的。未来身体中的DNA电路也是可能可以实现的。
思考:
建模能力很重要,我认为在该汇报中。解决问题的思路没有变,是载体发生了变化。但是由于该载体的其他性能,就可能发生重大突破。
2.4、欧阳乐:差异网络推断模型
欧阳乐老师从基因表达矩阵中构建了基因网络,结合正常与非正常的差异网络构建差异网络。
思考:
纯属打卡,也不知道这种由基因表达数据构建基因结构的方法我们是否可以借鉴。
2.5、涂世奎:feature enrichment
涂世奎老师认为:现如今深度学习中不能网络的性能是不一样的,比如用于解决图像问题的CNN网络就比较突出。我们有时间并不要固执的将一维数据就当做一维数据处理,可以尝试不同的数据表示方式,尤其是那些深度学习方法表现的比较优秀的数据格式。这样对于算法性能的提升很可能大于网络的调整。
这一点与鱼神在kaggle竞赛经验分享时观点比较一致,有时候简单添加两个数据特征就可能导致算法性能大幅度提升。
2.6、徐云刚:scIGAN
徐云刚老师,将GAN网络用于基因表达数据的填充。由王教练之前的报告知道现在很多A会上存在对于病例数据填充的文章。对比起基因表达数据,病例数据是一种更为复杂的数据。其实我也可以在蛋白质数据填充上利用GAN网络。应该可以得到不错的结果。
2.7、袁野:Deep learning for inferring gene ralationships from single-cellexpression dara
将基因表达数据转换为概率密度函数,这样CNN就不会将基因位置排序作为差异考虑进来。
2.8、Else
- 在本次会议中还有一些文章是利用图神经网络解决了一些生物问题,确实图神经网络对于理解非结构化数据有非常强大的能力。
- 另外还有一些软件包的工作。