「传统研究方法高度依赖于科研人员自身的特征和问题定义能力,通常采用小数据,在泛化能力和拓展能力上存疑。而 AI 研究方法则需要引入大规模、高质量数据,并采用机器学习进行特征抽取,这使得产生的科研结果在真实世界的问题中非常有效」。
OpenBayes贝式计算创始人王臣汉在 COSCon’24 的 AI for Science 论坛中,以「AI 驱动的科研新范式:⼈⼯智能对统计⽅法的全⾯升级」为题,分享了其面向 AI4S 发展的观点。HyperAI超神经在不违原意的基础上,对其分享内容进行了整理汇总,以下是精彩实录。
机器学习是统计学的有效应用
OpenBayes贝式计算是国内领先的人工智能服务商,在赋能国内一流高校及研究机构的过程中,我们观察到,在科研领域,尤其是理工科研究中,AI 技术和方法的应用规模正在大幅上升。今天,我想和大家分享的是,AI、机器学习为何能够成为科研领域与工业研究领域的全新范式。
机器学习理论于上世纪 90 年代便已经建立,尽管经历了多年的迭代发展,但从该领域目前的 backbone 来看,机器学习仍然没有脱离传统统计学的范畴,这也是 AI 为人所诟病的重要原因之一,即统计系统缺乏可解释性。
相信大家对于我们公司的名字并不陌生——OpenBayes贝式计算,除了人们熟知的利用贝叶斯公式来完成自动化系统的复杂运算外,我们也认为机器学习就是统计学中的贝叶斯学派。
其中,监督学习在工业应用和科研领域更加可靠。尤其是在科研领域,更加依赖于被标注的、结构化的数据,通过对这些数据集进行多种模型结构式的建模,来解析具体的科研问题。在这个过程中,我认为科研的本质是通过统计、解析研究人员收集的研究样本,从而反应真实世界中的问题。
规模数据 X 模型结构 = AI 科研成绩 - 传统研究
不久前,AlphaFold 摘冠诺贝尔化学奖,引发大家的广泛讨论。其实 AlphaFold 近几年一直在迭代升级,超越人类极限,实现了对人类蛋白质组的相对准确的预测。AlphaFold 1 始于 2018 年,在第 13 届 CASP (Critical Assessment of protein Structure Prediction) 中,准确地从 43 种蛋白质中预测出了 25 种蛋白质的结构。而同组比赛中获得第二名的参赛者仅准确预测出了 3 种。
到 2020 年,Google DeepMind 将其升级为 AlphaFold 2,在蛋白质结构预测方面的准确率能够达到 94%-98%,对制药领域起到了参考性意义,甚至对冷冻电镜等观测手段能够实现 85%-90% 以上的替代。同时,当人类掌握了蛋白质结构的奥秘,那么在抗体和生物制药的研究上,也就掌握了最为有效的即时性工具。相信这也是 AlphaFold 能够荣获诺贝尔奖的重要原因。
除了 AlphaFold 的案例外,我还想介绍一下与贝式计算合作的国内知名研究者,北京大学人工智能研究院施柏鑫教授团队发表的论文「EventPS: Real-Time Photometric Stereo Using an Event Camera」,已经入选 CVPR 2024 最佳论文。
该研究入选 CVPR 2024 最佳论文
该研究通过事件触发与表⾯法线建立关联的「零化向量」信息,利⽤最优化与深度学习分别实现了光度立体表⾯法线估计的求解,配合⾃研的⾼速转台所搭建的数据采集系统,和经过 GPU 优化的算法,实现了超过 30 帧每秒的实时表⾯法线重建。
- 论文地址:
https://openaccess.thecvf.com/content/CVPR2024/papers/Yu_EventPS_Real-Time_Photometric_Stereo_Using_an_Event_Camera_CVPR_2024_paper.pdf
总结来看,基于二维信息的三维信息模型重建一直是学术领域的研究重点之一,因为无论是从宏观还是微观的角度,人类都有对真实世界的理解需求。而 AlphaFold 便是将一维的化学、生物信息在空间中进行重构,EventPS 是通过事件相机来还原物体的三维轮廓。
上述介绍的两个案例展示了机器学习方法推动前沿研究多带来的价值,针对于此,借助贝式对科研群体的观察,我总结出了一个简单的公式:规模数据 X 模型结构 = AI 科研成绩 - 传统研究。
具体而言,在科研过程中,将规模化的数据应用于有效的模型结构上,能够起到「乘积」的作用,能在任何一个工业领域的落地研究课题上大幅超越传统方法,这便是 AI 驱动的科研能够在近两年内实现了 2-5 倍增长的重要原因。
而我们提出的公式之所以是乘积而非加法,核心原因在于单独依靠某一个参数的增长,其所得到的效果都不是很明显。如果保持模型结构不变而一味地增加数据量,则可能会产生边际效应,导致性能提升困难;同样地,当数据规模一定时,模型参数也并非越大越好。
如下图所示,如果使用线性函数对一组数据进行二分类任务,可以看到一元的线性函数有效性很有限;如果我们上升为二元函数,能够看到,虽然有部分样本错误,但整体实现了泛化;进而,如果在数据不变的情况下,继续提供更高维的函数或更大参数规模的模型来拟合数据集,所得结果的拟合度和预测准确度是非常高的,但同时也会导致过拟合问题,使得模型丧失在该数据集之外的泛化能力。
所以,数据规模并不是越大越好,模型复杂度也不是越高越好。
近年来,业界激烈探讨的 Scaling Law 也提到,只有当数据规模和参数规模都同等增大时,模型 loss 函数的下限,也就是其预测的失误率将会下探到一个较低水平,这个水平是较小规模的数据和较小参数规模的模型无法实现的。
监督式学习推动科学研究创新升级
聚焦到科研领域,通常还是使用监督式学习的方法来推动科学研究。
监督式学习的本质是抽样调查,通过科研人员手中的数据集和样本来尝试解决真实世界的问题。当数据集规模与模型规模、复杂度同时扩大时,本质上是学习样本变得更大了,研究人员得以在更大规模想样本中抽取更多特征。这便是机器学习的优势所在,即将定义特征与抽取特征的工作从研究者手中解放出来。
其更高层次的价值在于,当数据集中的特征过于复杂时,人脑很难抽取其中的主要特征、并分配相应的权重,但机器学习能够自动化提取特征,能够很好的解决大规模样本的特征提取,而越大规模的样本和模型结构越能拟合真实世界的问题。
不妨大胆推断,当机器学习变得更加成熟后,科研人员的主要工作就变成了定义问题、提升并提纯手中的数据集规模,以及选定合适的机器学习模型。这也将带来一个划时代的创新,工业研究、理工科研究能够像工厂制作产品一样以流水线的形式进行生产。
使用机器学习对世界进行认知/感知与推演
贝式计算相信,随着 AI 在科研领域的落地和新范式的不断推广,人类正面临一个类似于寒武纪时代的大爆发,几乎每一个工业、理工科研领域的前沿都会被推进。
我们认为,机器学习对科研领域的促进将体现在两个方面,其一是使⽤机器学习对世界进⾏认知/感知,其二是使⽤机器学习对世界进⾏推演。
其中,在感知侧最大的推动来自于机器学习方法对世界进行超采样。
人类感知世界主要依赖眼耳口鼻等感官,在计算机领域可以理解为使用传感器和大规模数据记录来对世界进行采样,而当人们拥有更大规模的数据集后,使用机器学习的方法就可以对采样的精度和规模进行成比例的扩增,这也是使用机器学习认知世界的本质。
换言之,机器学习加强了对世界的感知,从而帮助人们对世界的本质展开研究。
举例来看,中科院、上海交通大学等高校、研究机构,已经开始利用机器学习处理质谱和光谱数据,例如使用机器学习对光谱进行建模,从而提高地底矿物发现的准确率。
此外,在使用机器学习对世界规律进行推演方面,我想分享的是时序数据的研究范式。
时序数据就是在时间序列上对事物的发展进行量化的定义,最常见的就是股市数据、降雨量、气温变化等等,都是时序数据。在 AI 领域,大语言模型的本质就是将人类语言或知识使用文本方式进行表达的同时,将文本的序列当做一种时序数据来进行理解,预测前述输入文字所带来的下一个 token 出现的概率。
总结来看,时序数据能够表达事物的前沿发展运行规律,那么,我们自然可以使用机器学习来拟合大量的数据,进而根据前序输入的数据来推演后续输出的数据。
举例来看,在气象领域,中国、美国、法国等国家的各类科研院所都在积极地将机器学习模型应用到各维度的预测中,目前的气象预测不仅扩摸扩大、预测时间延长,而且精度也在不断提高。
可以看到,从认知到推演,这是机器学习在科研领域最有可能批量产出科研结果的两个方向。
传统研究方法 vs. AI 研究方法
在此,我将传统研究方法与 AI 的研究方法进行了对比。
传统研究方法高度依赖于科研人员自身特征和问题定义能力,只采用「小数据」。而一旦数据量较小,研究成果在工业领域或更广泛的人类社会中进行拓展应用时就会存疑。
当科研领域引入 AI 时,首先需要引入大规模的数据,人们使用机器学习模型进行相关特征的抽取,正如刚刚所讲,只要使用规模性的数据和有效的模型结构,就能带来科研领域的突破性进展。通常而言,如此产生的科研结果在真实社会的真实问题应用中仍然有效,这也恰恰是 AI 推动科研的最大魅力,即横向扩展中的有效性。
OpenBayes贝式计算打造集群软件
最后为大家介绍一下 OpenBayes贝式计算,我们是国内相对领先的人工智能服务商,在集群构架、编译器和模型结构领域拥有丰富的创新成果与产品。目前 OpenBayes 的模型构件系统已经被超过百家企业和研究机构所采用,进行私有部署。同时,我们的线上公开服务注册用户已经超过 17 万,其中大多数是终端工程师及科研领域的学者,重点用户覆盖了国内的双一流 985、211 高校的工科和工业研究机构,例如清华大学、北京大学、天津大学、上海交大等等。
我们面向 AI for Science 提供的工具集能够端到端覆盖人工智能模型研发的全生命周期,将全球的开源数据集和大量 AI、HPC 领域的教程,同时还预置了开源和私有模型,将科研领域的要素整合到一个集群软件中,这也是我们公司的主要产品——OpenBayes。我们将其部署在 NVIDIA 及其他国产芯片的计算集群中,为科研人员和团队提供开箱可用的服务,帮助科研人员在模型构建、模型推理、工业软件计算等方面实现一站式衔接。
整个套件能够能够将模型训练成本降低到常规 AI 构建此水准模型成本的 8.25%,例如,过去需要数千万集群才能完成的计算,基于 OpenBayes 的软件成本能够降低至数十万。
也正是基于对 AI for Science 领域的深度赋能,我们观察到,目前在科研领域,仍然有大量 AI 仍未触达、有待开垦的领域,我们也相信,科研领域的寒武纪时代即将到来,几乎所有的工业研究、理工科研究都将落地 AI 范式及方法。