2023 龙蜥操作系统大会演讲实录:《兼容龙蜥的云原生大模型数据计算系统——πDataCS》

image.png

本文主要分三部分内容:第一部分介绍拓数派公司,第二部分介绍 πDataCS 产品,最后介绍 πDataCS 与龙蜥在生态上的合作。

杭州拓数派科技发展有限公司(简称“拓数派”,英文名称“OpenPie”)是国内基础数据计算领域的高科技创新企业。作为国内云上数据库和数据计算领域的引领者,以“Data Computing for New Discoveries”「数据计算,只为新发现」为使命,致力于在数字原生时代,运用突破性计算理论、独创的云原生数据库旗舰产品以及之上的算法和数学模型,建立下一代云原生数据平台的前沿标准,驱动企业实现从“软件公司”到“数据公司”再到“数学公司”的持续进阶,加速数字化转型升级。

拓数派自成立以来专注于数据计算领域,旗下大模型数据计算系统(PieDataComputingSystem, 缩写:πDataCS),以云原生技术重构数据存储和计算,一份存储,多引擎数据计算,让 AI 模型更大更快,全面升级大数据系统至大模型时代。πDataCS 旨在助力企业优化计算瓶颈、充分利用和发挥数据规模优势,构建核心技术壁垒,更好地赋能业务发展,使得自主可控的大模型数据计算系统保持全球领先,让大模型技术全面赋能各行各业。 目前大模型数据计算系统,面向国内市场提供公有云版、社区版、企业版及一体机多个版本,满足企业不同业务场景需求,并已为金融、制造、医疗及教育等行业用户构建了 AI 数据底座。

image.png

拓数派拥有强悍的研发核心团队和有成功上市经验的管理团队。其核心团队成员主要来自 Pivotal、IBM、腾讯、字节跳动、快手、Oracle 等世界 500 强以及国内头部互联网公司。拓数派创始人兼 CEO 冯雷(Ray Von)是数据云和人工智能领域的连续创业者和技术引领者。冯雷于 2010 年从美国硅谷归国,曾在 500 强公司 EMC 旗下创建 Greenplum 中国研发部门工作。2013 年随着全球 Pivotal 组建,冯雷先生在中国 Greenplum 大数据和 VMWare 的 PaaS 云的基础上组建了 Pivotal 中国研发中心,推动了 Greenplum 大数据库、CloudFoundry PaaS 云等知名开源产品的领域领先地位。

image.png

拓数派 2021 年创立,迅速进入快速发展阶段,引领数据计算时代的到来。成立当天即获得头部产业基金天使轮投资,成为 DAY-1 准独角兽。2022 年拓数派发布了云原生虚拟数仓 PieCloudDB 社区版与商业版。2023 年拓数派大模型数据计算系统 πDataCS 正式亮相,让 AI 模型更大更快。

image.png

下面介绍 πDataCS。数据分析的目的最终是为了发现解释世界规则的模型。有了数据和计算,最终用来描述世界规律,构建一个模型系统。构建模型系统的关键是要有足够多的数据,数据是核心竞争力。有了数据后要构造出解释世界的模型。拓数派团队既具备大数据分析的丰富经验,也具备云计算方面的实战经验。

image.png

一提到模型可能首先想到有几千亿参数的大模型数据系统,其实日常生活中的模型无处不在。例如自由落体模型,由物理实验推导而来。最早的物理规律并不是理论推导而成,而是由数据分析得出,例如开普勒行星运动三定律,就是通过分析天文学家几十年的观测数据总结得出。以自由落体模型为例,可以考虑物体的自由落体运动以时间和变量为参数。构造这样简单的一套模拟系统,通过观测收集到数据,再经过计算发现 p0、p1 参数都是 0,只有 p3 是5 。经过分析后得出,只有当 p0、p1 值为该值时才符合客观规律,这就是简单的模型训练过程。进行数据分析时,不仅要构造像大模型这种复杂系统,生活中也有很多像自由落体这种模型等待我们发现。

下面是 πDataCS 产品的架构图。

image.png

πDataCS 打造了全新的云原生架构,支持一份数据,多引擎计算。πDataCS 支持多种云平台,包括公有云和私有云。πDataCS 以云原生技术重构数据存储和计算,先将数据计算系统中的计算和数据分离,增强系统的弹性。接着,考虑到未来数据治理和交易,拓数派把元数据和用户数据再次分离,实现了全新的 eMPP 架构。元数据被映射到块存储,由元数据管理系统「木牍」进行管理;用户数据被映射到对象存储,由「简墨」存储系统来管理;计算被映射到容器或者虚拟机,由计算系统来管理。元数据可以在系统中描述数据的结构,找到数据位置。将元数据单独处理后简化了数据交换。例如进行黄金交易时不一定一手交钱一手交货,可以将存储黄金的保险柜钥匙交出,此处的保险柜钥匙就相当于元数据管理系统,避免了数据遗漏等风险。此外 πDataCS 还利用 FPGA 硬件加速技术来提高对数据文件的访问。

目前,πDataCS支持三种计算引擎:

  • PieCloudDB: 作为拓数派首款云原生数仓计算引擎,支持 SQL 语言模型,兼容 HTAP
  • PieCloudVector: 为支持和大模型配合的向量计算而建立的云原生向量计算引擎
  • PieCloudML: 为支持 Python 和 R 等机器学习语言而建立的云原生机器学习引擎

πDataCS 的第一个优势是全面升级 Hadoop 大数据和 Greenplum 数仓至云原生数据平台。打造 πDataCS 是为了全面升级用户的数据平台。曾经谈到大数据时一定会提到 Hadoop,随着时间发展,人们发现 Hadoop 的很多问题,但很多用户的大数据系统还是基于 Hadoop 实现。自从 Hadoop 之后出现很多大数据技术,但只能解决一部分数据问题。例如 MPP 数据库,主要为了处理关系型数据,还有 MySQL 数据库只能处理某一个类型的数据。只有 Hadoop 平台可以使用它的若干个模块来处理所有的数据,包括结构化的、非结构化的、文本、图像等等。同 Hadoop 一样,πDataCS 和也可以通过一个平台多种计算引擎来为客户处理所有数据,包括结构化的、非结构化的、文本、图像等。

image.png

πDataCS 的第二优势是可以全面支持大语言基础模型和私域数据结合做垂直应用。拓数派第二款计算引擎 PieCloudVector,是一款可以用于存储、查询和分析向量数据(比如特征向量)的向量数据库。

image.png

某知名金融客户积累了很多金融方面的数据,包括各种各业的行业和所投资的各个公司的一些财务数据等,这些是他的核心竞争力。他希望打造一个他私有的大模型系统,使用问答的方式来使用他收集的这些金融方面数据,但是考虑到数据的隐私和安全等,不可能使用公开的大模型。上图是以 PieCloudVector 为核心,帮助客户找到了这样一套私有的金融方面的大模型系统。首先这些文档使用模型进行提取,将特征存入向量计算 Vector 数据中,再通过架构和他的应用程序进行交互,然后可以使用问答的方式来使用金融数据,也可以使用像大语言模型系统。

πDataCS 的第三个优势是云原生 eMPP 计算引擎全面颠覆 MPP 技术,打造大模型数据计算新范式。这一优势是通过第一款计算引擎 PieCloudDB Database 来实现的。

image.png

虚拟机技术可以把一台物理服务器切换成若干台小的服务器,把它一台物理服务器的资源切换虚拟机,给不同的用户来用。同样我们希望把数仓资源切算成若干的虚拟数仓,然后交给各个部门来使用,提高硬件的使用效率。以上解释了为什么拓数派团队要对 PieCloudDB 打造基于云原生的 eMPP 架构。

PieCloudDB 是基于 eMPP 架构的数仓系统,实现了把元数据收集到元数据服务木牍当中,把用户数据存储到了简墨系统中,然后实现了存储分离的虚拟数仓,实现了元数据、用户数据和虚拟数仓数据计算之间独立的扩缩容。使用基于 PC 架构的传统数仓系统,数据和计算紧紧绑定在一起。可以对它进行横向的扩展,但是同时必须要扩展存储,也需要扩展计算,计算和存储不能进行独立的扩展。这种架构下需要缩容时操作很困难。通过 PieCloudDB 虚拟数仓,将一个个数仓打造成不包含任何数据而且无状态的计算平台。可以根据需要对数仓的计算能力进行扩缩容。

image.png

在实际的应用场景中,简墨系统可以构建在 S3 对象存储中或者 HDFS 和 NAS 中。

image.png

PieCloudDB 通过映射,让每一个业务部门自己拥有独立的一套数仓系统,使用起来与传统 MPP 数据库没有太大区别。但各个部门进行数据交换时,不需要再进行 ETL 操作,通过数据授权对元数据进行操作,将不同部门之间的数据映射给其他部门。在存储系统中,所有数据只存储了一份。类似前文交换保险柜钥匙来获得黄金,而不是真正进行黄金交换。通过虚拟数仓系统,可以降低硬件和管理成本。虚拟化可以提高硬件的使用率,提升数据资源的应用效率,再通过一些技术提高数据安全性。

image.png

为了实现虚拟数仓系统,PieCloudDB 完成了四大技术突破。

image.png

首先,PieCloudDB 实现了云原生存算分离架构:用户数据,元数据和计算三层分离,可进行独立扩缩容。第二根据云原生特点打造优化器达奇。云原生优化器负责根据部署 PieCloudDB 架构的特点来生成更优的执行计划,提高数据分析效率。第三是全新的数据存储引擎简墨,还有相关缓存架构设计,提高虚拟数仓访问数据输出的效率。第四是 eMPP 分布式技术,为传统 MPP 架构增加弹性,使虚拟数仓进行横向的扩容和缩容变得非常方便。

πDataCS 第二款计算引擎PieCloudVector,针对一些像金融、保险这方面用户,对数据的安全性要求比较高,需要打造一个自己私有的大模型系统。

image.png

把用户收集的数据或者是公有的数据,通过特征提取,创建一系列 embeddings,存储到向量数组中,再通过其他一些开源框架和大模型进行一个交互。相当于 PieCloudVector 为客户自己构建自有大模型提供存储底座。相对于其他的向量数据库,包括一些专用的数据库,还有传统的关键数据库有这些向量的插件。

image.png

相比这两种方案,我们这套系统有哪些优势呢?第一,使用专用的向量数据库,其他一些相关数据,例如存储在数据库中的关键型数据等,需要进行若干数据移动。传统的数据库在高可用或者扩展方面有缺陷。所以 PieCloudVector 集中了两方面优势,比较方便进行水平的扩缩容,第二个同时具有这两方面的优点,既可以存储普通的关系型数据,也可以存储向量数据。

第三款计算引擎是正在开发的新一代(大模型)机器学习 PieCloudML,在现有这些架构的基础上,通过新一代 PieCloudML,增加机器学习、图像数据处理等大模型系统提供更深一步的支持。

image.png

大模型数据计算系统,面向国内市场提供云上云版、社区版、企业版、一体机四个版本,满足企业不同业务场景需求。πDataCS 有三种部署方式。第一种直接部署在云上,第二种部署在客户现有的云平台,第三种是一体机系统,用户接上网线,插上电源可以直接使用。

image.png

拓数派一直秉持着“开放互信、合作共赢”的理念,致力于构建蓬勃的数据生态。πDataCS 也非常注重软件生态打造,注重与社区方面的合作。πDataCS 需要适配各种各样的云环境,所以需要打造强大的软件生态系统。拓数派团队针对不同的部署方式与龙蜥平台进行了全方位的测试,测试结果显示,龙晰平台安全稳定、性能优异。因此,我们确信,龙蜥平台可以支持 πDataCS 良好运行。 除了龙蜥外,πDataCS 也完成了与其他主流软硬件平台的适配工作。拓数派将继续努力,打造完善的产品生态,为用户提供更安全稳定、高性能、易用的大模型数据计算平台。

image.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/264005.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

文献阅读:Transformers are Multi-State RNNs

文献阅读:Transformers are Multi-State RNNs 1. 内容简介2. 方法介绍 1. 基础回顾 1. RNN2. Transformer 2. Transformer解构 1. MSRNN2. Transformer 3. TOVA 1. 现有转换策略2. TOVA 3. 实验考察 & 结论 1. 实验设计2. 实验结果 1. LM2. 长文本理解3. 文本生…

仗剑天涯路 侠气传千古《有翡》湖北热血开播

由吴锦源执导,赵丽颖、王一博领衔主演,张慧雯、陈若轩、孙坚、周洁琼、张昕宇、冷纪元主演的古装武侠剧《有翡》,将于2月25日晚19:30登陆湖北卫视长江剧场。该剧改编自Priest小说《有匪》,讲述了南北朝年间,各方势力盘…

modbus-tcp协议详解

本文参考:Modbus协议中文版【完整版】.pdf,加上自己的理解的记录,该文章主要讲modbus-TCP协议。(文档下载链接:【免费】modbus协议中文详细解释文档资源-CSDN文库) 本系列文章分为三章: 1.mod…

Stable Diffusion 绘画入门教程(webui)-ControlNet(深度Depth)

上篇文章介绍了线稿约束,这篇文章介绍下深度Depth 文章目录 一、选大模型二、写提示词三、基础参数设置四、启用ControlNet 顾名思义,就是把原图预处理为深度图,而深度图可以区分出图像中各元素的远近关系,那么啥事深度图&#xf…

【README 小技巧】在项目README.md 中展示发布到使用的JDK 版本

在项目README.md 中展示发布到使用的JDK 版本 <a target"_blank" href"https://www.oracle.com/java/technologies/javase/jdk11-archive-downloads.html"><img src"https://img-home.csdnimg.cn/images/20230724024159.png?origin_urlhtt…

分布式知识整理

分布式锁 以商场系统超卖现象举例 超卖现象一 现象&#xff1a; 商品卖出数量超出了库存数量。 产生原因&#xff1a; 扣减库存的动作在程序中进行&#xff0c;在程序中计算剩余库存&#xff0c;在并发场景下&#xff0c;导致库存计算错误。 代码复现 es.shutdown(); cycl…

智慧应急与物联网相结合:物联网技术如何提升智慧应急响应能力

目录 一、引言 二、智慧应急与物联网技术的结合 三、物联网技术提升智慧应急响应能力的途径 四、物联网技术在智慧应急中的应用案例 五、物联网技术在智慧应急中面临的挑战与解决方案 挑战一&#xff1a;技术标准与规范不统一 解决方案&#xff1a; 挑战二&#xff1a;…

Linux之JAVA环境配置jdkTomcatMySQL

目录 一. 安装jdk 1.1 查询是否有jdk 1.2 解压 1.3 配置环境变量 二. 安装Tomcat&#xff08;开机自启动&#xff09; 2.1 解压 2.2 启动tomcat 2.3 防火墙设置 2.4 创建启动脚本&#xff08;设置自启动&#xff0c;服务器开启即启动&#xff09; 三. MySQL安装&#xff08;…

国漫年番成趋势?但只有这5部最值得看

自从《斗罗大陆》动画爆火之后&#xff0c;越来越多国漫都开始以年番形式播出&#xff0c;每周都能追自己喜欢的动画也是观众们所期待的。但其实年番对制作公司的要求很高&#xff0c;如果技术跟不上难免出现质量下滑的问题。今天就带大家盘点一下目前在播的最值得看的5部国漫年…

查看navicat保存的数据库连接密码

背景 经常使用navicat的朋友可能会碰到忘记数据库连接密码的情况&#xff0c;自然会想到navicat连接配置中就保存了密码。 个人经验&#xff0c;按以下步骤可查看密码明文 本人在mac上使用的navicat版本 1&#xff0c;导出connection_local.ncx 点击OK导出保存为connection_l…

基于频率增强的数据增广的视觉语言导航方法(VLN论文阅读)

基于频率增强的数据增广的视觉语言导航方法&#xff08;VLN论文阅读&#xff09; 摘要 视觉和语言导航&#xff08;VLN&#xff09;是一项具有挑战性的任务&#xff0c;它需要代理基于自然语言指令在复杂的环境中导航。 在视觉语言导航任务中&#xff0c;之前的研究主要是在空间…

Android RecyclerView 如何展示自定义列表 Kotlin

Android RecyclerView 如何展示自定义列表 Kotlin 一、前提 有这么一个对象 class DeviceDemo (val name: String, val type: String, val address: String)要展示一个包含这个对象的列表 bluetoothDevices.add(DeviceDemo("bb 9800", "LE", "32:…

Linux 内存管理概述(偏实战,略理论,附链接)

基础理论 1. 内存映射 可以参考&#xff1a; Linux内存映射 - 知乎 写的很详细&#xff0c;而且也有代码分析 2. 虚拟内存的空间分布 通过这张图你可以看到&#xff0c;用户空间内存&#xff0c;从低到高分别是五种不同的内存段。只读段&#xff0c;包括代码和常量等。数据段…

Unity学习之Unity中的MVC思想

文章目录 1 前言2 MVC的基本概念3 不使用MVC思想制作UI逻辑3.1 拼面板3.2 面板脚本3.3 角色面板逻辑3.4 角色升级 4 使用MVC思想制作UI逻辑4.1 Model数据脚本4.2 View界面脚本4.2.1 MainView主界面4.2.2 RoleView 角色面板界面 4.3 Controller业务逻辑脚本4.3.1 MainController…

使用openai-whisper实现语音转文字

使用openai-whisper实现语音转文字 1 安装依赖 1.1 Windows下安装ffmpeg FFmpeg是一套可以用来记录、转换数字音频、视频&#xff0c;并能将其转化为流的开源计算机程序。采用LGPL或GPL许可证。它提供了录制、转换以及流化音视频的完整解决方案。 # ffmpeg官网 https://ffm…

2024年2月20日v1.0.5更新·优雅草便民工具youyacao-tools

2024年2月20日v1.0.5更新优雅草便民工具youyacao-tools apk下载 https://fenfacun.youyacao.com/tools105.apk 介绍 优雅草便民工具是一款由成都市一颗优雅草科技有限公司打造的便民查询公益工具&#xff0c;2024年1月17日正式发布v1.0.0版本&#xff0c;本工具为了方便大众免…

互联网加竞赛 机器视觉opencv答题卡识别系统

0 前言 &#x1f525; 优质竞赛项目系列&#xff0c;今天要分享的是 &#x1f6a9; 答题卡识别系统 - opencv python 图像识别 该项目较为新颖&#xff0c;适合作为竞赛课题方向&#xff0c;学长非常推荐&#xff01; &#x1f947;学长这里给一个题目综合评分(每项满分5分…

力扣● 343. 整数拆分 ● 96.不同的二叉搜索树

● 343. 整数拆分 想不到&#xff0c;要勇于看题解。 关键在于理解递推公式。 1、DP数组及其下标的含义&#xff1a;dp[i]是分解i这个数得到的最大的乘积。 2、DP数组如何初始化&#xff1a;dp[0]和dp[1]都没意义&#xff0c;所以直接不赋值&#xff0c;初始化dp[2]1即可。…

golang通过http访问外部网址

不同项目之前,通过http访问,进行数据沟通 先设定一个接口,确认外部能访问到 PHP写一个接口 public function ceshi_return() {$data $this->request->param();$id $data[id];$res Db::name(user)->field(id,status,price,name)->where([id>$id])->find…

【大数据】Flink SQL 语法篇(四):Group 聚合

Flink SQL 语法篇&#xff08;四&#xff09;&#xff1a;Group 聚合 1.基础概念2.窗口聚合和 Group 聚合3.SQL 语义4.Group 聚合支持 Grouping sets、Rollup、Cube 1.基础概念 Group 聚合定义&#xff08;支持 Batch / Streaming 任务&#xff09;&#xff1a;Flink 也支持 G…