拥抱 AGI:PieDataCS 引领云原生数据计算系统新范式

自2023年后,人工智能技术进入了一个更为成熟和广泛应用的阶段,人工通用智能(AGI)这一概念也成为了科技界和产业界热议的焦点。本文将结合 AGI 时代背景,从架构设计到落地实践,详细介绍拓数派云原生数据计算系统 PieDataCS。

1 中国 AGI 发展现状与趋势

1.1 AGI 市场与技术发展趋势

2023年被称为是 AGI 元年,大模型在人工智能领域掀起了一场风暴。尽管⼤模型在模仿⼈类认知⽅⾯取得了显著进步,但距离真正的通⽤智能还有很长的一段路。由于底层模型和算力离企业市场较远,我们相信 AGI 的发展将由应用占主导。

image.png

中国 AGI 市场将长期保持快速增长态势(InfoQ 研究中心)

而 AI Agent 可以简化用户与大模型的互动,允许用户只需指定目标,即可驱动大模型完成任务。由于 AI Agent 实现应用的优势主要集中于高度的环境适应性,企业环境的特定场景为 AI Agent 提供了理想的应用背景,垂直行业成为 AI Agent 最先实现应用的领域。

1.2 国内 AGI 市场分层

中国 AGI 市场技术框架自下向上可分为基础设施层、模型层、中间层和应用层四层:

基础设施层: 是实现 AGI 的基⽯,提供算力支撑,是保证模型训练、推理部署能⼒的基础。例如云厂商等。

模型层: 是 AGI 的核⼼,其能⼒直接影响最终 AGI 应⽤效率,业界相关产品可分为自研模型和基于开源模型的变种两种实现方案。

中间层: 提供了 AGI 实际应⽤所需的核⼼功能和服务,是将用户应用场景和模型结合起来的桥梁,作为⼤模型应⽤落地能⼒补充的重要层级。这也是拓数派在 AGI 市场所扮演的角色。

应用层: 是⽤户/客户直接使⽤ AGI 技术的界⾯,以提供特定服务和解决具体业务问题作为出发点。例如手机端和电脑端的 SaaS 服务软件。

image.png

中国 AGI 市场分层

2 云原生数据计算系统 PieDataCS

为了顺应 AGI 时代的发展,拓数派打造了云原生数据计算系统 PieDataCS, 围绕数据组织云原生计算系统,重构数据存储和计算,让 AI 数学模型、数据和计算三者互为增强。PieDataCS 实现「一份存储,多引擎数据计算」,全面升级大数据系统至大模型时代,赋能行业 AI 场景应用。

2.1 PieDataCS 整体架构

作为国内数仓虚拟化技术的提出者,拓数派旗下的云原生数据计算系统 PieDataCS 围绕数据构建计算,采用首创的云原生 eMPP(elastic Massive Parallel Processing)架构,实现元数据、数据和计算全分离,云上存储资源与计算资源可独立管理,数据计算资源可按需扩缩容,实现计算资源配置最优化。

image.png

PieDataCS 系统架构

PieDataCS 自下而上可分为数据存储层、硬件加速层、数据存储引擎层以及数据计算引擎层:

数据存储层: PieDataCS 采用存算分离架构,元数据、数据资源和计算“三权分立”,通过存储引擎简墨实现数据的统一管理,充分利用云存储等存储系统所带来的优势;

硬件加速层: 采用 FPGA 异构技术,专注极致性能优化。在 SQL 计算引擎层面,对数据过滤、排序等方面进行优化;在存储引擎层面,对存储的加解密、解压缩等方面进行加速;在模型层,集成 GEMM(通用矩阵乘法)、GEMV(通用矩阵-向量乘法)等多种算法,针对一些算子进行加速;

数据存储引擎层: PieDataCS 结合云存储能力打造的简墨存储系统,兼容 S3 对象存储、HDFS 及其他分布式文件系统,并可打通多种存储技术,实现数据的统一管理;

数据计算引擎层: 目前支持 SQL 计算引擎 PieCloudDB Database,向量计算引擎 PieCloudVector 以及机器学习引擎 PieCloudML,所有计算引擎共享一份底层数据。

2.2 PieDataCS 的设计

云原生数据计算系统 PieDataCS 的目标是为行业 AI 大模型赋能,从设计理念上主要考虑五个方面:

数据准备

数据是大模型的基石,数据质量直接决定了模型训练的效果,也是大模型能力涌现的关键。PieDataCS 可通过对实际业务数据(结构化、非结构化、半结构化数据)进行清洗、分类、去重、标注和增强等一系列处理,提升数据准确性、完整性、一致性,构建出高质量的行业数据集, 为后续的模型训练和应用提供可靠的基础,提升模型的性能和适用性。

数据共享

PieDataCS 打造的存储底座简墨,所有计算引擎共享一份数据资源,可将日常业务中跨领域、跨业务的多样化数据进行统一存储,通过 data sharing 技术方便直观的共享给大模型,针对特定的问题领域进行模型的微调和优化

数据安全

数据的安全性和隐私性一直是用户最关注的话题之一,数据计算系统的打造必须解决数据保护和数据访问权限管理的难题。PieDataCS 提供了企业级透明数据加密(TDE) ,通过实时加密、高级加密算法、多级密钥等多种技术保证所有数据在落盘前完成加密,并提供细粒度的角色与权限控制,实现私域隐私数据可控不出域,充分保证数据安全。

推理加速

在推理过程中,PieDataCS 为 AI 大模型提供 RAG 架构,可将先前计算得到的结果保存下来,并与当前的输入进行匹配。当发现相似的问题输入时,系统可以直接返回已经计算过的结果,而无需再次执行大模型的推理过程,避免了大量重复计算,大大提高了响应速度和推理的效率

提升准确度

大模型通常会基于已经训练过的数据生成结果,但这也带来了专业知识缺乏和数据时效性的问题,限制了它在处理新问题上的表现。PieDataCS 利用 RAG 技术,通过引入外部知识库,突破预训练带来的知识时间限制,有效提高检索准确度,避免大模型出现幻觉和因模型更新或数据变化而引起的结果不一致问题,进而增加用户信任度。

image.png

PieDataCS 为行业大模型赋能

2.3 PieDataCS 虚拟数仓引擎

PieDataCS 首款数据计算引擎 PieCloudDB 采用了领先的数仓虚拟化技术,可将多个物理数仓统一整合到一个高可用的虚拟数仓,基于用户不同的业务场景,对资源进行池化, 支持根据数据授权动态创建虚拟数仓,打破数据孤岛,解决数据多副本问题。

image.png

虚拟数仓引擎 PieCloudDB

  • 架构与主要模块设计

在 PieCloudDB 中,数据可以保存在本地,也可以选择保存在 S3、HDFS 等共享存储上,PieCloudDB 拥有灵活的架构,除了支持存算分离之外,也可以支持存算一体架构。

对于元数据,PieCloudDB 将其抽离并存储于自研的分布式 KV 系统,基于键的自然排序实现索引以及基于 watcher 机制实现了高效的分布式锁管理,具备更高的性能,可进一步释放 PieCloudDB 存算分离架构的优势。当数据量较小时,也可以采用集中化的方式部署轻量集群,从而快速支撑业务场景。

针对计算性能优化,PieCloudDB 打造了 SIMD 向量化执行器, 充分利用 CPU 并行计算等硬件资源实现更高效的数据处理。此外,PieCloudDB 还提供了管控服务,可帮助用户快速进行集群自动化安装部署,可实现资源的统一监控和管理,确保系统的稳定性和可靠性。通过可视化的界面,用户可以轻松地进行故障排查、权限管理、安全审计等运维工作,降低运维成本。

  • 分布式优化器设计

针对云原生和分布式场景,PieDataCS 对查询优化器同样进行了大量改造,实现聚集下推优化。经过测试,对比不使用聚集下推,在开启聚集下推后性能提升了大约 300 倍。此外,PieDataCS 还实现了多阶段聚集、分区表裁剪、递归 CTE 优化以及多表连接的最优顺序搜索等多种优化手段,大幅提升了查询性能。

  • 结构化和半结构化数据同步

PieDataCS 兼容多种文件格式,除了自研的janm格式,还兼容主流的Parquet、ORC、CSV、JSON 等文件格式,具备对这些类型的文件进行 SQL 查询,无需数据导入或转换。

此外,为了满足实时数据分析的需求,PieDataCS 打造了 DataFlow 同步工具,支持将多种数据源的数据实时抽取并写入 PieDataCS,并支持通过云原生平台进行可视化操作;如果原始数据过大,也可以选择先将文件中转到 S3 对象存储中,并采用不同的算法进行压缩,节约存储空间的开销。

image.png

DataFlow 支撑实时数据同步场景

2.4 PieDataCS 向量计算引擎

云原生向量计算引擎 PieCloudVector,作为 PieDataCS 的第二款计算引擎,是大模型时代的分析型数据库升维,助力多模态大模型 AI 应用,进一步实现海量向量数据存储与高效查询。

image.png

向量计算引擎 PieCloudVector

PieCloudVector 集成了市面上主流的 Embedding 算法以及模型(ChatGLM、LLaMA、通义千问等),用户可以直接调用内置算法或者通过封装好的 API 接口,也可以根据自身需求选择本地或是公有云模型的 API,来进行数据的 Embedding。

对于向量数据库,索引算法可以加速向量数据的搜索,是其高效检索能力的关键。PieCloudVector 支持主流的向量索引算法,如 IVF_FLAT、HNSW 以及混合索引等,同时实现了索引加速缓存机制,进一步提高了检索速度,缩短了响应时间。此外,PieCloudVector 还提供了 L2 距离、内积以及余弦相似度等多种向量检索算法。

在数据应用层面,PieCloudVector 对主流的大语言模型应用开发框架(LangChain、FinGPT 等)进行了适配,提供了对应的 sdk,用户无需进行二次开发,可以直接使用现成的框架调用 Embedding 算法,然后将数据存储到 PieCloudVector 中,进行 RAG 检索增强生成或者语义推理及检索等方面的应用。

与大部分传统计算引擎不同的是,PieCloudVector 除了支持 CPU 以外,还支持在 GPU 计算节点上进行部署,可充分利用其强大的并行计算能力,并且还可以利用 SIMD 等硬件加速技术,进一步提升向量计算和数据处理的速度和效率,为大规模向量计算提供了必要的性能支持。

2.5 PieDataCS 机器学习引擎

PieDataCS 的第三款计算引擎 PieCloudML,旨在整合企业多模态数据资源,为多模态大型模型提供强大的数据计算支持,以满足数据科学家的需求和使用。

image.png

机器学习引擎 PieCloudML

PieCloudML 设计了灵活的计算和存储架构,以支持不同规模和需求的机器学习任务。可以全面兼容主流的机器学习生态系统,支持使用 Python、R 等语言,满足不同数据科学家的偏好。PieCloudML 集成了 TensorFlow、PyTorch、Keras、Scikit-Learn 等流行的深度/机器学习框架,并提供了基于 Jupyter Notebook 的交互式开发环境,方便用户通过可视化管理界面快速调用各种开发库进行模型开发和训练。

PieCloudML 借助容器编排技术 Kubernetes 实现自动化容器的部署、升级和回滚,利用 Kubernetes 的弹性伸缩功能,PieCloudML 能够根据实时负载动态调整 Pod 的资源请求和限制,应对不同的负载压力。Kubernetes 的自我修复能力确保了 PieCloudML 服务的高可用性。在出现故障时,能够自动重启失败的容器或替换不健康的 Pod。

另外,PieCloudML 还提供了 Spark Connector、JDBC、ODBC 等多种数据访问接口,方便与各种数据源和业务系统的连接,简化数据的接入和使用。

2.6 多模态数据共享

简墨(JANM)作为 PieDataCS 的云存储底座,目标是打造成满足多云场景下高性能计算引擎的数据存储底座,基于云原生的设计和现代化的硬件设施,致力于简化大数据处理过程中的数据加载、读取和计算的整个流程,以完成各种场景下的数据计算和分析任务。

image.png

简墨(JANM)存储引擎

简墨支持多模态数据共享,可打通企业内部各个地方的数据,将结构化数据、半结构化数据以及非结构化数据统一的进行管理,具备高度抽象的数据访问协议,采用全自研的 Table Format 技术,可无缝对接 Apache Iceberg、Apache Hudi、Delta Lake 等多种存储,构建统一数据湖管理,并可通过统一的接口将数据共享给 SQL、流批一体、大模型等多种数据计算引擎,一份数据,多引擎计算,实现数据在不同服务之间的真正互通。

3 基于 PieDataCS 的用户案例实践

拓数派自成立以来专注于数据计算领域,PieDataCS 以云原生技术重构数据存储和计算,让大模型技术全面赋能行业 AI 场景应用,为企业创造更大的商业价值,成为AI的基础科技底座的同时,开启 AI 技术的新范式。

目前 PieDataCS 面向国内市场提供公有云版、社区版、企业版及一体机多个版本,满足企业不同业务场景需求,并已为金融、制造、医疗及教育等行业用户构建了 AI 数据底座。

3.1 某大型央企的数据底座项目

在数字化转型的需求下,某大型央企通过采用 PieDataCS 作为新一代的数字底座,完成原有数据平台的替换,对接企业内部的 OA、CRM、ERP 等应用系统,将企业内部办公数据、业务应用数据以及外部数据统一整合到 PieDataCS 的简墨数据湖中,再根据不同的数据格式去采用 PieDataCS 数据计算系统的不同的计算引擎进行处理。

结构化和半结构化数据采用了虚拟数仓引擎 PieCloudDB 实时数据分析,也可以对接 Flink 进行流式计算,进行数据的加工。通过数据分层,来形成主题数据,从而对外形成标准的 API 接口。

而对于设计辅助增强需求,包括 3D/2D 图纸等数据通过模型做 Embedding,利用向量化引擎进行相似内容的近似检索。而通过机器学习引擎 PieCloudML 可以做到对传统的机器学习算法进行通用管理,来实现研制一体化的增强。

image.png

基于 PieDataCS 的数据底座案例实践

3.2 某金融客户的 AIGC 应用实践

在某金融客户案例中,由于其内部投资经理在日常工作中,有编写大量投资材料的需求,需要对法律法规、政策文件以及投研报告进行快速检索,形成对应的分析报告,为客户提供投资相关的数据支持。

为了提高检索工作的效率和准确性,该金融客户采用 PieDataCS 打造了基于向量计算引擎的 AIGC 应用解决方案,通过自研大模型东吴秀财 GPT,结合 LangChain 开发框架以及 PieCloudVector 构建了 AIGC 应用平台。将把传统文本类数据做成 Embedding,导入 PieCloudVector 中,从而实现根据需求,对内容进行精准搜索或全文检索。满足了该客户基于 GPT 构建投研分析、量化交易、智能顾问、情绪分析等多个场景的 AI 应用的需求。

image.png

基于 PieCloudVector 的 AIGC 应用实践

4 展望与期待

在 AGI 时代,数据的价值越来越凸显。拓数派致力于成为客户在数据计算领域的可靠伙伴,为客户提供更强大、可靠的数据服务和行业领先的数据技术支持。我们将持续进行产品的创新,不断优化产品功能和性能,以满足客户日益增长的数据需求。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/374645.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

HTAP 数据库在国有大行反洗钱场景的应用

导读 在金融领域,随着数字化服务的深入和监管要求的提高,反洗钱工作变得尤为关键。洗钱活动不仅威胁金融安全,也对社会秩序构成挑战。本文深入探讨了国产 HTAP 分布式数据库 TiDB 在某国有大行反洗钱系统中的应用实践。 依托 TiDB 构建的新…

springboot大学校园二手书交易APP-计算机毕业设计源码25753

摘 要 在数字化与移动互联网迅猛发展的今天,人们对于图书的需求与消费方式也在悄然改变。为了满足广大读者对图书的热爱与追求,我们倾力打造了一款基于Android平台的图书交易APP。这款APP不仅汇聚了海量的图书资源,提供了便捷的交易平台&…

usbserver工程师手记(三)手工开通 OTP功能

1、设定密钥,用户自行选择一个密钥,以下以密钥为 EAZAYOKNGETBOPC5 为例说明 2、usb server 配置otp 密钥,目前还没有UI 界面开通,后续版本会支持从管理界面开通 curl -X POST -H Content-Type: application/json -H Accept: app…

【深度学习入门篇 ②】Pytorch完成线性回归!

🍊嗨,大家好,我是小森( ﹡ˆoˆ﹡ )! 易编橙终身成长社群创始团队嘉宾,橙似锦计划领衔成员、阿里云专家博主、腾讯云内容共创官、CSDN人工智能领域优质创作者 。 易编橙:一个帮助编程小…

数据结构复习计划之复杂度分析(时间、空间)

第二节:算法 时间复杂度和空间复杂度 算法(Algorithm):是对特定问题求解方法(步骤)的一种描述,是指令的有限序列,其中每一条指令表示一个或多个操作。 算法可以有三种表示形式: 伪代码 自然语言 流程图 算法的五…

FFmpeg 实现从麦克风获取流并通过RTMP推流

使用FFmpeg库(版本号为:4.4.2-0ubuntu0.22.04.1)实现从麦克风获取流并通过RTMP推流。 RTMP服务器使用的是SRS,我这边是跑在Ubuntu上的,最好是关闭掉系统防火墙,不然连接服务器好像会出问题,拉流…

SpringBoot开发实用篇(三)

一:任务 1:SpringBoot整合Quartz 导入SpringBoot整合quartz的坐标定义具体要执行的任务,继承QuartzJobBean定义工作明细和触发器,并绑定对应关系 2:SpringBoot整合task 开启定时任务功能设置定时执行的任务&#x…

怎么样的主食冻干算好冻干?品质卓越、安全可靠的主食冻干分享

当前主食冻干市场产品质量参差不齐。一些品牌过于追求营养数据的堆砌和利润的增长,却忽视了猫咪健康饮食的基本原则,导致市场上出现了以肉粉冒充鲜肉、修改产品日期等不诚信行为。更令人担忧的是,部分产品未经过严格的第三方质量检测便上市销…

记录文字视差背景学习

效果图 文字背景会随鼠标上下移动变成红色或透明 html <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><titl…

【linux】服务器卸载cuda

【linux】服务器卸载cuda 文章目录 【linux】服务器卸载cuda1、查找已安装的 CUDA 包&#xff1a;2、卸载 CUDA&#xff1a;3、删除残留文件4、更新系统的包索引&#xff1a;5、检查是否卸载干净&#xff1a; 1、查找已安装的 CUDA 包&#xff1a; dpkg -l | grep cuda2、卸载…

CSS3实现彩色变形爱心动画【附源码】

随着前端技术的发展&#xff0c;CSS3 为我们提供了丰富的动画效果&#xff0c;使得网页设计更加生动和有趣。今天&#xff0c;我们将探讨如何使用 CSS3 实现一个彩色变形爱心加载动画特效。这种动画不仅美观&#xff0c;而且可以应用于各种网页元素&#xff0c;比如加载指示器或…

基于深度学习LightWeight的人体姿态之行为识别系统源码

一. LightWeight概述 light weight openpose是openpose的简化版本&#xff0c;使用了openpose的大体流程。 Light weight openpose和openpose的区别是&#xff1a; a 前者使用的是Mobilenet V1&#xff08;到conv5_5&#xff09;&#xff0c;后者使用的是Vgg19&#xff08;前10…

Django QuerySet对象,exclude()方法

模型参考上一章内容&#xff1a; Django QuerySet对象&#xff0c;filter()方法-CSDN博客 exclude()方法&#xff0c;用于排除符合条件的数据。 1&#xff0c;添加视图函数 Test/app11/views.py from django.shortcuts import render from .models import Postdef index(re…

从0开始的STM32HAL库学习4

对射式红外传感器计数复现 配置工程 我们直接复制oled的工程&#xff0c;但是要重命名。 将PB14设置为中断引脚 自定义命名为sensorcount 设置为上升沿触发 打开中断 配置NVCI 都为默认就可以了 修改代码 修改stm32f1xx_it.c 文件 找到中断函数并修改 void EXTI15_10_I…

pytorch实现水果2分类(蓝莓,苹果)

1.数据集的路径&#xff0c;结构 dataset.py 目的&#xff1a; 输入&#xff1a;没有输入&#xff0c;路径是写死了的。 输出&#xff1a;返回的是一个对象&#xff0c;里面有self.data。self.data是一个列表&#xff0c;里面是&#xff08;图片路径.jpg&#xff0c;标签&…

Docker安装遇到问题:curl: (7) Failed to connect to download.docker.com port 443: 拒绝连接

问题描述 首先&#xff0c;完全按照Docker官方文档进行安装&#xff1a; Install Docker Engine on Ubuntu | Docker Docs 在第1步&#xff1a;Set up Dockers apt repository&#xff0c;执行如下指令&#xff1a; sudo curl -fsSL https://download.docker.com/linux/ubu…

MybatisPlus 使用教程

MyBatisPlus使用教程 文章目录 MyBatisPlus使用教程1、使用方式1.1 引入依赖1.2 构建mapper接口 2、常用注解2.1 TableName2.2 TableId2.3 TableField MyBatisPlus顾名思义便是对MyBatis的加强版&#xff0c;但两者本身并不冲突(只做增强不做改变)&#xff1a; 引入它并不会对原…

[数据集][目标检测]护目镜检测数据集VOC+YOLO格式888张1类别

数据集格式&#xff1a;Pascal VOC格式YOLO格式(不包含分割路径的txt文件&#xff0c;仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件) 图片数量(jpg文件个数)&#xff1a;888 标注数量(xml文件个数)&#xff1a;888 标注数量(txt文件个数)&#xff1a;888 标注类别…

C语言基本概念

C语言是什么&#xff1f; 1.人与人之间 自然语言 2.人与计算机之间 计算机语言 例如C、Java、Go、Python 在计算机语言中 1.解释型语言&#xff1a;Python 2.编译型语言&#xff1a;C/C 编译和链接 C语言源代码都是文本文件.c&#xff0c;必须通过编译器的编译和链接器的…

【北京迅为】《i.MX8MM嵌入式Linux开发指南》-第一篇 嵌入式Linux入门篇-第十八章 Linux编写第一个自己的命令

i.MX8MM处理器采用了先进的14LPCFinFET工艺&#xff0c;提供更快的速度和更高的电源效率;四核Cortex-A53&#xff0c;单核Cortex-M4&#xff0c;多达五个内核 &#xff0c;主频高达1.8GHz&#xff0c;2G DDR4内存、8G EMMC存储。千兆工业级以太网、MIPI-DSI、USB HOST、WIFI/BT…