贝式计算的 AI4S 观察:使用机器学习对世界进行感知与推演,最大魅力在于横向扩展的有效性

「传统研究方法高度依赖于科研人员自身的特征和问题定义能力,通常采用小数据,在泛化能力和拓展能力上存疑。而 AI 研究方法则需要引入大规模、高质量数据,并采用机器学习进行特征抽取,这使得产生的科研结果在真实世界的问题中非常有效」。

OpenBayes贝式计算创始人王臣汉在 COSCon’24 的 AI for Science 论坛中,以「AI 驱动的科研新范式:⼈⼯智能对统计⽅法的全⾯升级」为题,分享了其面向 AI4S 发展的观点。HyperAI超神经在不违原意的基础上,对其分享内容进行了整理汇总,以下是精彩实录。

机器学习是统计学的有效应用

OpenBayes贝式计算是国内领先的人工智能服务商,在赋能国内一流高校及研究机构的过程中,我们观察到,在科研领域,尤其是理工科研究中,AI 技术和方法的应用规模正在大幅上升。今天,我想和大家分享的是,AI、机器学习为何能够成为科研领域与工业研究领域的全新范式。

机器学习理论于上世纪 90 年代便已经建立,尽管经历了多年的迭代发展,但从该领域目前的 backbone 来看,机器学习仍然没有脱离传统统计学的范畴,这也是 AI 为人所诟病的重要原因之一,即统计系统缺乏可解释性。

相信大家对于我们公司的名字并不陌生——OpenBayes贝式计算,除了人们熟知的利用贝叶斯公式来完成自动化系统的复杂运算外,我们也认为机器学习就是统计学中的贝叶斯学派。

在这里插入图片描述

其中,监督学习在工业应用和科研领域更加可靠。尤其是在科研领域,更加依赖于被标注的、结构化的数据,通过对这些数据集进行多种模型结构式的建模,来解析具体的科研问题。在这个过程中,我认为科研的本质是通过统计、解析研究人员收集的研究样本,从而反应真实世界中的问题。

在这里插入图片描述

规模数据 X 模型结构 = AI 科研成绩 - 传统研究

不久前,AlphaFold 摘冠诺贝尔化学奖,引发大家的广泛讨论。其实 AlphaFold 近几年一直在迭代升级,超越人类极限,实现了对人类蛋白质组的相对准确的预测。AlphaFold 1 始于 2018 年,在第 13 届 CASP (Critical Assessment of protein Structure Prediction) 中,准确地从 43 种蛋白质中预测出了 25 种蛋白质的结构。而同组比赛中获得第二名的参赛者仅准确预测出了 3 种。

到 2020 年,Google DeepMind 将其升级为 AlphaFold 2,在蛋白质结构预测方面的准确率能够达到 94%-98%,对制药领域起到了参考性意义,甚至对冷冻电镜等观测手段能够实现 85%-90% 以上的替代。同时,当人类掌握了蛋白质结构的奥秘,那么在抗体和生物制药的研究上,也就掌握了最为有效的即时性工具。相信这也是 AlphaFold 能够荣获诺贝尔奖的重要原因。

除了 AlphaFold 的案例外,我还想介绍一下与贝式计算合作的国内知名研究者,北京大学人工智能研究院施柏鑫教授团队发表的论文「EventPS: Real-Time Photometric Stereo Using an Event Camera」,已经入选 CVPR 2024 最佳论文。

在这里插入图片描述

该研究入选 CVPR 2024 最佳论文

该研究通过事件触发与表⾯法线建立关联的「零化向量」信息,利⽤最优化与深度学习分别实现了光度立体表⾯法线估计的求解,配合⾃研的⾼速转台所搭建的数据采集系统,和经过 GPU 优化的算法,实现了超过 30 帧每秒的实时表⾯法线重建。

  • 论文地址:
    https://openaccess.thecvf.com/content/CVPR2024/papers/Yu_EventPS_Real-Time_Photometric_Stereo_Using_an_Event_Camera_CVPR_2024_paper.pdf

总结来看,基于二维信息的三维信息模型重建一直是学术领域的研究重点之一,因为无论是从宏观还是微观的角度,人类都有对真实世界的理解需求。而 AlphaFold 便是将一维的化学、生物信息在空间中进行重构,EventPS 是通过事件相机来还原物体的三维轮廓。

上述介绍的两个案例展示了机器学习方法推动前沿研究多带来的价值,针对于此,借助贝式对科研群体的观察,我总结出了一个简单的公式:规模数据 X 模型结构 = AI 科研成绩 - 传统研究。

具体而言,在科研过程中,将规模化的数据应用于有效的模型结构上,能够起到「乘积」的作用,能在任何一个工业领域的落地研究课题上大幅超越传统方法,这便是 AI 驱动的科研能够在近两年内实现了 2-5 倍增长的重要原因。

而我们提出的公式之所以是乘积而非加法,核心原因在于单独依靠某一个参数的增长,其所得到的效果都不是很明显。如果保持模型结构不变而一味地增加数据量,则可能会产生边际效应,导致性能提升困难;同样地,当数据规模一定时,模型参数也并非越大越好。

如下图所示,如果使用线性函数对一组数据进行二分类任务,可以看到一元的线性函数有效性很有限;如果我们上升为二元函数,能够看到,虽然有部分样本错误,但整体实现了泛化;进而,如果在数据不变的情况下,继续提供更高维的函数或更大参数规模的模型来拟合数据集,所得结果的拟合度和预测准确度是非常高的,但同时也会导致过拟合问题,使得模型丧失在该数据集之外的泛化能力。

所以,数据规模并不是越大越好,模型复杂度也不是越高越好。

在这里插入图片描述

近年来,业界激烈探讨的 Scaling Law 也提到,只有当数据规模和参数规模都同等增大时,模型 loss 函数的下限,也就是其预测的失误率将会下探到一个较低水平,这个水平是较小规模的数据和较小参数规模的模型无法实现的。

在这里插入图片描述

监督式学习推动科学研究创新升级

聚焦到科研领域,通常还是使用监督式学习的方法来推动科学研究。

监督式学习的本质是抽样调查,通过科研人员手中的数据集和样本来尝试解决真实世界的问题。当数据集规模与模型规模、复杂度同时扩大时,本质上是学习样本变得更大了,研究人员得以在更大规模想样本中抽取更多特征。这便是机器学习的优势所在,即将定义特征与抽取特征的工作从研究者手中解放出来。

在这里插入图片描述

其更高层次的价值在于,当数据集中的特征过于复杂时,人脑很难抽取其中的主要特征、并分配相应的权重,但机器学习能够自动化提取特征,能够很好的解决大规模样本的特征提取,而越大规模的样本和模型结构越能拟合真实世界的问题。

不妨大胆推断,当机器学习变得更加成熟后,科研人员的主要工作就变成了定义问题、提升并提纯手中的数据集规模,以及选定合适的机器学习模型。这也将带来一个划时代的创新,工业研究、理工科研究能够像工厂制作产品一样以流水线的形式进行生产。

使用机器学习对世界进行认知/感知与推演

贝式计算相信,随着 AI 在科研领域的落地和新范式的不断推广,人类正面临一个类似于寒武纪时代的大爆发,几乎每一个工业、理工科研领域的前沿都会被推进。

我们认为,机器学习对科研领域的促进将体现在两个方面,其一是使⽤机器学习对世界进⾏认知/感知,其二是使⽤机器学习对世界进⾏推演。

其中,在感知侧最大的推动来自于机器学习方法对世界进行超采样。

人类感知世界主要依赖眼耳口鼻等感官,在计算机领域可以理解为使用传感器和大规模数据记录来对世界进行采样,而当人们拥有更大规模的数据集后,使用机器学习的方法就可以对采样的精度和规模进行成比例的扩增,这也是使用机器学习认知世界的本质。

在这里插入图片描述

换言之,机器学习加强了对世界的感知,从而帮助人们对世界的本质展开研究。

举例来看,中科院、上海交通大学等高校、研究机构,已经开始利用机器学习处理质谱和光谱数据,例如使用机器学习对光谱进行建模,从而提高地底矿物发现的准确率。

在这里插入图片描述

此外,在使用机器学习对世界规律进行推演方面,我想分享的是时序数据的研究范式。

时序数据就是在时间序列上对事物的发展进行量化的定义,最常见的就是股市数据、降雨量、气温变化等等,都是时序数据。在 AI 领域,大语言模型的本质就是将人类语言或知识使用文本方式进行表达的同时,将文本的序列当做一种时序数据来进行理解,预测前述输入文字所带来的下一个 token 出现的概率。

总结来看,时序数据能够表达事物的前沿发展运行规律,那么,我们自然可以使用机器学习来拟合大量的数据,进而根据前序输入的数据来推演后续输出的数据。

举例来看,在气象领域,中国、美国、法国等国家的各类科研院所都在积极地将机器学习模型应用到各维度的预测中,目前的气象预测不仅扩摸扩大、预测时间延长,而且精度也在不断提高。

可以看到,从认知到推演,这是机器学习在科研领域最有可能批量产出科研结果的两个方向。

传统研究方法 vs. AI 研究方法

在此,我将传统研究方法与 AI 的研究方法进行了对比。

在这里插入图片描述

传统研究方法高度依赖于科研人员自身特征和问题定义能力,只采用「小数据」。而一旦数据量较小,研究成果在工业领域或更广泛的人类社会中进行拓展应用时就会存疑。

当科研领域引入 AI 时,首先需要引入大规模的数据,人们使用机器学习模型进行相关特征的抽取,正如刚刚所讲,只要使用规模性的数据和有效的模型结构,就能带来科研领域的突破性进展。通常而言,如此产生的科研结果在真实社会的真实问题应用中仍然有效,这也恰恰是 AI 推动科研的最大魅力,即横向扩展中的有效性。

OpenBayes贝式计算打造集群软件

最后为大家介绍一下 OpenBayes贝式计算,我们是国内相对领先的人工智能服务商,在集群构架、编译器和模型结构领域拥有丰富的创新成果与产品。目前 OpenBayes 的模型构件系统已经被超过百家企业和研究机构所采用,进行私有部署。同时,我们的线上公开服务注册用户已经超过 17 万,其中大多数是终端工程师及科研领域的学者,重点用户覆盖了国内的双一流 985、211 高校的工科和工业研究机构,例如清华大学、北京大学、天津大学、上海交大等等。

我们面向 AI for Science 提供的工具集能够端到端覆盖人工智能模型研发的全生命周期,将全球的开源数据集和大量 AI、HPC 领域的教程,同时还预置了开源和私有模型,将科研领域的要素整合到一个集群软件中,这也是我们公司的主要产品——OpenBayes。我们将其部署在 NVIDIA 及其他国产芯片的计算集群中,为科研人员和团队提供开箱可用的服务,帮助科研人员在模型构建、模型推理、工业软件计算等方面实现一站式衔接。

整个套件能够能够将模型训练成本降低到常规 AI 构建此水准模型成本的 8.25%,例如,过去需要数千万集群才能完成的计算,基于 OpenBayes 的软件成本能够降低至数十万。

也正是基于对 AI for Science 领域的深度赋能,我们观察到,目前在科研领域,仍然有大量 AI 仍未触达、有待开垦的领域,我们也相信,科研领域的寒武纪时代即将到来,几乎所有的工业研究、理工科研究都将落地 AI 范式及方法。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/467120.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

[产品管理-58]:安索夫矩阵矩阵帮助创业者确定研发出来的产品在市场中定位策略

目录 一、提出背景 二、核心思想与结构 三、应用背景与领域 四、实践案例 安索夫矩阵(Ansoff Matrix),也被称为产品/市场方格或成长矢量矩阵,其应用背景可以从以下几个方面进行详细阐述: 一、提出背景 安索夫矩阵…

安当ASP系统:适合中小企业的轻量级Radius认证服务器

安当ASP(Authentication Service Platform)身份认证系统是一款功能强大的身份认证服务平台,特别适用于中小企业。其中,简约型Radius认证服务器是安当ASP系统中的一个重要组成部分。以下是对该系统的详细介绍: 一、主要…

uniapp配置h5路由模式为history时404

为了不让URL中出现#,让uniapp项目配置h5路由模式为hisory 然而本地好好的,放到服务器上却404了。 解决方法是给nginx配置一个伪静态: location /xxx-html/ {alias /home/nginx_web/xxx_new_html/;try_files $uri $uri/ /xxx-html/index.ht…

Go-HTTP框架设计实现概述

1.再谈HTTP协议 第一个大规模使用:HTTP0.9 三十多年了 HTTP:超文本传输协议(Hypertext Transfer Protocal) 为什么是超文本:因为图片、音乐、视频是文本的扩充 为什么需要协议:约定俗称的规则(像说话&…

使用Matlab建立决策树

综述 除了神经网络模型以外,树模型及基于树的集成学习模型是较为常用的效果较好的预测模型。我们以下先构建一个决策树模型。 决策树算法的优点如下:1、 决策树易于理解和实现,用户在学习过程中不需要了解过多的背景知识,其能够…

【JavaSE】(3)数组

目录 一、数组的定义和初始化 1. 什么是数组 2. 数组的定义 3. 数组的初始化 4. 操作数组的工具包 二、数组的使用 三、引用类型 1. JVM内存分布 2. 引用变量 3. 默认值 null 四、二维数组 1. 二维数组的定义和初始化 2. 不规则的二维数组 一、数组的定义和初始化…

uniapp—android原生插件开发(3Android真机调试)

本篇文章从实战角度出发,将UniApp集成新大陆PDA设备RFID的全过程分为四部曲,涵盖环境搭建、插件开发、AAR打包、项目引入和功能调试。通过这份教程,轻松应对安卓原生插件开发与打包需求! 一、打包uniapp资源包: 打包…

【 AI写作鹅-注册安全分析报告-无验证方式导致安全隐患】

前言 由于网站注册入口容易被黑客攻击,存在如下安全问题: 1. 暴力破解密码,造成用户信息泄露 2. 短信盗刷的安全问题,影响业务及导致用户投诉 3. 带来经济损失,尤其是后付费客户,风险巨大,造…

esp32学习:利用虫洞ESP32开发板,快速实现无线图传

我们的虫洞开发板,能够完美运行esp who AI代码,所以实现无线图传那是非常容易的,我们先看看examples目录: 里面有比较多的web例程,在这些例程下,稍作修改,就可以快速实现我的图传无线功能&#…

Docker网络概述

1. Docker 网络概述 1.1 网络组件 Docker网络的核心组件包括网络驱动程序、网络、容器以及IP地址管理(IPAM)。这些组件共同工作,为容器提供网络连接和通信能力。 网络驱动程序:Docker支持多种网络驱动程序,每种驱动程…

RK3568平台开发系列讲解(设备树篇)设备树中CPU描述

🚀返回专栏总目录 文章目录 一、CPU节点1.1、节点结构:1.2、处理器属性:1.3、 处理器拓扑关系:二、cpu-map、 socket、 cluster 节点三、core、 thread 节点沉淀、分享、成长,让自己和他人都能有所收获!😄 一、CPU节点 设备树的 cpus 节点是用于描述系统中的处理器的一…

element plus中修改el-table的样式

文章目录 前情提要相关环境package.jsonvue代码结果 方式一直接看代码 方式二直接看代码 前情提要 因为项目中用到el-table的时候,需要将el-table表格的样式进行修改,将整个表格的背景颜色从白色变成透明,使得表格变得透明之后,展…

【启程Golang之旅】一站式理解Go语言中的gRPC

在本文中将深入探讨如何使用Go语言构建基于gRPC的高效服务通信,无论你是刚刚接触gRPC还是已经有一定基础的开发者,这篇文章都将带你从理论到实践,全面理解如何借助Go和gRPC提升应用程序的性能与可维护性。 目录 初识gRPC gRPC基本使用 初识…

Ubuntu22.04安装DataEase

看到DataEase的驾驶舱,感觉比PowerBI要好用一点,于是搭建起来玩玩。Dataease推荐的操作系统是Ubuntu22.04/Centos 7。 下载了Ubuntu22.04和DataEase 最新版本的离线安装包 一.安装ubuntu22.04 在安装的时候,没有顺手设置IP地址信息&#xff…

IDEA加载通义灵码插件及使用指南

安装通义灵码插件 登录通义灵码IDE插件 下载登录参考教程 https://help.aliyun.com/zh/lingma/user-guide/download-the-installation-guide 本地工程和企业知识库准备 请下载本地工程和知识库压缩包,并在本地解压缩,其中包含demoProject和知识库文件…

第二届开放原子大赛-开源工业软件算法集成大赛即将启动!

第二届开放原子大赛-开源工业软件算法集成大赛作为开放原子开源基金会组织举办的开源技术领域专业赛事,聚焦开源底座框架平台建设,通过组件化集成的开发模式,丰富平台功能模块,拓展其应用场景,以此促进工业软件生态的繁…

帮你快速理解并巧记设计模式

经常因为记不住或不能理解设计模式而苦恼的童鞋们注意了,闲暇之余总结了常用的22中设计模式,并一一举例,帮助大家快速理解、牢记,如有不对的地方,欢迎大家指正哈 创建型模式 单例模式(Singleton Pattern&…

甘肃高校大数据实验室建设案例分享

随着信息技术的快速发展,大数据技术已成为推动经济社会发展的重要引擎。甘肃省高度重视教育信息化建设,并积极支持省内高校建立大数据相关实验室,以促进学科交叉融合及创新人才培养。在此背景下,泰迪携手多所甘肃高校共同打造了一…

成都睿明智科技有限公司共赴抖音电商蓝海

在这个短视频风起云涌的时代,抖音作为现象级的社交媒体平台,不仅改变了人们的娱乐方式,更悄然间重塑了电商行业的格局。在这片充满机遇与挑战的蓝海中,成都睿明智科技有限公司凭借其敏锐的市场洞察力和专业的服务能力,…

【前端】JavaScript 方法速查大全-对象(二)

🔥 前言 在现代Web开发中,JavaScript已经成为不可或缺的编程语言。无论是前端开发还是后端服务,JavaScript都扮演着重要角色。为了帮助开发者更高效地使用JavaScript,本文将为您提供一个全面、系统的JavaScript方法参考&#xff…