深度解读AIGC存储解决方案

5月26日,2023数据基础设施技术峰会在苏州举办,腾讯云首席存储技术专家温涛受邀出席并分享了腾讯云领先的存储技术在AIGC场景中的应用,通过对AIGC业务流程和场景的提炼,从内容生成、内容审核和内容智理三要素介绍了如何智能的存储和管理数据。下面我们一起回顾下温涛的精彩分享。

从去年年底到今年年初,由新版本的ChatGPT发布开始,全球掀起了一股AIGC的话题狂潮。AIGC触发了内容生成的革命,也引爆了众多行业颠覆式的创新。人工智能突然就从高科技研究课题,演进为渗透到我们每个人生活中的商业产品。

AIGC是使用人工智能技术生成内容的工具,它包含了文本、音频、图像、视频的生成,以及这几者之间的跨模态生成。我认为AIGC的商业化落地节奏,大致可以分为三个阶段:

  1. 通用场景的应用落地

  2. 垂直行业的应用落地

  3. 创新型综合场景的应用落地

通用场景是基于单纯的文本、图片、音视频的AI生产内容技术,提供给设计、媒体、娱乐、客服咨询等没有太强行业属性的企业和个人,解决相对基础的AI市场需求。代表性的应用包括了ChatGPT和Midjourney。这个场景依赖的技术相对比较成熟,已经具有很多实际的商业化落地。

垂直行业是进一步把AIGC的能力和具体行业特点相结合,提供给强行业属性的企业,来提升技术和服务水平,提高行业生产效率。比如自动驾驶和医疗生物基因。这类应用目前还处于商业化前的基于预训练基础之上的Fine Tuning阶段,技术方面的问题基本上能够得到解决,商业模式也比较明确,商业化落地节奏属于正在进行时。

创新型综合场景所对应的行业,是比较新兴的具有前瞻性和实验性的场景,以机器人和元宇宙为代表。在这类场景,AIGC只是核心技术的一部分,还依赖硬件和商业模式等方案的创新。这类场景还处于技术储备和商业落地探索阶段。
目前腾讯云AIGC存储解决方案,聚焦在通用场景和垂直行业这两类AIGC应用的支持。尤其是在图片、音视频和自动驾驶领域有了很多尝试、验证和落地。
我们在实际项目中对AIGC业务处理流程进行了梳理。按照顺序,流程主要分为数据收集、数据预处理、特征工程、模型训练、应用推理这几个环节,也可以聚合为模型训练和应用推理两个阶段。

在实际的项目中,我们了解到客户对训练场景的存储能力有几个要求:

  1. 由于在每一个环节的前后,都涉及对数据的存储、加工、管理和流动,所以需要一种数据湖形态的统一存储来简化对数据的管理,提高数据流动的效率,并减低数据流动所带来的成本
  2. 大模型训练需要极高的算力,算力越大,训练速度越快,综合成本越优。训练过程中需要对数据进行读取和写入,需要存储性能和算力形成匹配,否则容易成为整个处理流程的短木板。
  3. 鉴于对AIGC生成物的侵权和合规性要求,在推理阶段需要对生产的内容进行审核和治理。

通过对业务流程和场景诉求的总结提炼,AIGC的核心要素,可以归结为内容生成、内容审核和内容智理三个要素。其中内容生成包括大模型训练和推理平台构建;内容审核包括对图片、文本和音视频等生成物的内容审核和数据处理;内容智理包括对生成物的内容分类、标注、内容特征的生产和查询...腾讯云在AIGC场景的存储解决方案,就是依据这三个核心要素来进行设计的。
接下来,我会围绕这三个核心要素,从数据存储与管理的角度,分别介绍腾讯云的解决之道。
内容生成之道

我们使用了数据湖存储来满足场景的要求,利用对象存储COS实现了通过一种存储类型,来满足各个环节对存储的需求,无需数据迁移,即可实现数据的统一接入,和数据的自由流动。同时利用数据加速器GooseFS的缓存加速能力,大幅度提升了数据处理和训练性能。使用COS+GooseFS的数据湖存储方案,也大大降低了AIGC系统的存储成本。

什么是GooseFS?

GooseFS是一种利用计算侧资源实现数据缓存加速的存储服务,适用于大数据分析、AI、HPC、基因测序、渲染等多种场景,配合COS对象存储,为客户提供低成本高性能的存储能力。

GooseFS有以下几个特点:

  1. 多协议支持:可以对接HDFS、FUSE和S3等多种协议;
  2. 支持云原生部署:可以通过容器化部署,也可以和Hadoop进行集成;
  3. 可以使用内存和SSD等不同性能的介质作为缓存介质,实现多级缓存,根据不同的缓存介质,GooseFS可以提供2~10倍的性能提升。

如何实现多级缓存加速?

面向不同的业务场景,会有不同的数据量和不同的性能要求。以AIGC场景为例,对于NLP和GPT场景,训练所需的数据量通常在10100TB,所需的存储空间不大,但是IO模型属于每次字节级的读操作,对时延要求很高。使用GPU节点自带内存的剩余空间作为缓存的存储介质比较合适,不需要额外配置SSD。而对于ViT和Diffusion这类图片模型训练场景,数据量通常在100T1PB,就不适合放在内存里,选用本地的SSD介质可以达到更优的性价比。对于需要长期存放的原始数据,就可以放在COS里做持久化,从而降低成本。通过GooseFS多级缓存加速机制,就能够精细化的满足各种不同场景的性能要求。

因为训练场景需要读取海量文件,就需要缓存系统支持对海量文件规模的管理能力。我们来看看GooseFS在水平和垂直两个方向分别是如何实现的。
水平方向上,也就是在跨节点方向上,GooseFS 采用分布式元数据架构,通过分布式KV管理元数据,元数据规模可以按需横向线性扩展。
垂直方向上,也就是在节点内部,GooseFS利用Numa绑核绑内存来部署KV进程,从而使单节点可以部署多个分布式KV进程。

通过上述两个方向上的技术,GooseFS可以支持管理百亿文件规模的元数据,满足单集群管理海量训练数据集的需求。

AIGC训练时到底能够支持多大的体量的文件数?如何保障存储系统性能?关键的点就是元数据管理。

GooseFS支持Master的多机并发读,元数据服务由一个Leader Master和若干Follower Master构成,Follower Master承载跟Leader一样的读流量,元数据QPS性能随着Master节点的数量呈线性增加。从而可以提供百万级QPS的元数据访问能力。

GooseFS也支持私有化部署,来构建混合云缓存方案。基于数据湖搭建混合云大模型训练平台,做到一份Dataset,多地训练。通过这个方案,在数据湖上保存一份数据,可以通过缓存的机制把数据带到任何计算相关的地点去。

除了数据加速以外,腾讯云面向AIGC训练场景提供了端到端的解决方案。基于腾讯云高性能计算集群HCC、TACO训练加速、TCCL网络加速、GooseFS数据加速,构建了AIGC大模型训练和推理应用平台。
存储方面,依靠COS的海量存储能力+GooseFS的数据加速能力,提供高性能低成本的存储,可为AI集群训练快速提供数据。
计算方面,高性能计算集群HCC通过自研服务器提供最新代次A800、H800实例。通过TACO Train加速套件,提供软硬件协同优化,支持训练性能提升30%以上。
网络方面,基于自研星脉网络架构,提供最高3.2Tbps RDMA网络,结合自研拥塞控制算法及TCCL集合通信库加速分布式训练通信效率。
内容审核之道
腾讯云数据万象CI基于深度学习的文本、图片、音视频检测技术,结合腾讯深耕内容领域积累的海量训练数据,可以精准高效识别出生成数据中的敏感信息。提供包括色情、涉政、暴恐、广告等多种合规问题的审核能力。对AIGC的输入和输出环节进行把控,帮助客户规避运营风险。

CI整合了腾讯多个前沿实验室的技术能力,包括了AI实验室的基础算法能量流、优图实验室的图像识别能力、多媒体实验室对编解码的研究,以及天御实验室的安全风控算法。同时具备腾讯多年在泛互行业的实践经验。此外CI还打造了无代码,0基础入门,无需下载,省时好用的智能处理工具-智能工具箱,降低技术接入门槛。

内容智理之道

AIGC存储解决方案复用了腾讯企业网盘的一些能力,可以对AI生成物提供权限划分、在线编辑、协同办公等企业化文件管理能力,助力终端用户和企业客户更好的对AI生成物进行管理,提升工作效率。

总结

腾讯云存储解决方案,围绕AIGC,提供了涵盖内容生成、内容审核和内容智理的全生命周期的数据存储与管理解决方案,很好的做到了高性能和低成本两个目标方向的兼顾,为基于海量数据的AI训练提供了坚实的存储与管理的数据底座。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/30562.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

硬件大熊原创合集(2023/03更新)

3月份更新篇章: 《智能家居行业研究与场景分析》 中国全屋智能行业产业链总览图 为什么有些SRRC型号核准代码要加“M” 和菜头在聊ChatGPT时写过一句话:"大家更愿意通过效果去理解和认识一件事,不大喜欢通过原理和机制去理解一件事"…

DeepSpeed-Chat 打造类ChatGPT全流程 笔记一

这篇文章主要是对DeepSpeed Chat的功能做了一些了解,然后翻译了几个主要的教程了解了一些使用细节。最后在手动复现opt-13b做actor模型,opt-350m做reward模型进行的chatbot全流程训练时,踩了一些坑也分享出来了。最后使用训练后的模型做servi…

从大型语言模型LLM走向人工通用智能AGI的改进方向(public)

从大型语言模型走向人工通用智能AGI 返回论文和资料目录 1.导读 这篇博客主要基于《Sparks of Artificial General Intelligence: Early experiments with GPT-4》文中第9和第10节、以及我自己对当前LLM和AGI的理解。给出大型语言模型走向AGI时 改进的方向。 2.14个问题及改…

2023CPA会计- 开头两章【刷题】

2023,我要一次通过注册会计师考试。 以题代学:因为有很多题目是糅合了前后的知识点,其出题模式并非按照专题划分 会计基本假设和会计基础 1. 会计要素及其计量 把会计四张表给记起来,啥都容易🤷‍♂️ 1.资产负债表 …

计算机会计学试题,会计电算化考试试题 (2010)

一、单项选择题: 1.一般通用会计报表软件,报表中的组合单元是指(D) A、区域 B、同一行内的两个单元 C、单元的合并 D、同一行内的多个相邻的同类型的单元组成的区域 2.会计软件运行所需要的硬件环境是指(A) A、计算机(或计算机网络)硬件环境 B、计算机(或…

计算机会计数据处理流程是怎样的,实现会计电算化后,会计数据的处理流程依旧和手工..._高级会计师_帮考网...

bangkafan 高分答主 06-16 TA获得超过8931个赞 一、手工与电算化会计信息系统的数据处理流程: 1、相同点: ①数据处理步骤相似; ②会计信息相同且最终目标一致; ③遵守的会计法规和会计准则相同。 2、不同点: 在手工会…

中国大学MOOC政府会计实务题库及答案

选择题(答案解析在优题宝) 1.下列选项中,有关收付实现制的表述正确的是(B)。 A.收付实现制以款项收付的责任或义务是否已经发生为标准。 B.收付实现制以款项是否已经收到或付出作为核算标准。 C.收付实现制能正确地反映各期的成本费用情况…

中级财管电脑操作不会用计算机,中级会计财务管理的综合题电脑怎么答题?

考生询问:中级会计财务管理的综合题电脑怎么答题?相关的回答就在下文当中,考生们就和东奥小编一同去查看一下吧! 一、中级会计财务管理的综合题电脑怎么答题? 东奥小编建议大家在考试前就提前熟悉一下机考系统&#xf…

怎么制作一个笔试题库?会计笔试题库中的题型分析?

目前各个考试都会有对应的笔试题库供大家学习,因为现在笔试题库作为了一种产品,目前我国的笔试考试越来越多了,笔试题库也层出不穷。下面我就来介绍一下笔试题库,我们如何选择一个全面好用的笔试题库。福昕知翼有关于笔试题库制作…

关于使用腾讯云腾讯(即时通讯SDK)遇到的问题

公司项目中需要进行服务器控制用户端操作 由于前期规划提出的需求,放弃了推送和WebSocket 然后转换思路使用即时通讯实现C/S,根据通话消息内容进行判断做出相应的操作 好了。不啰嗦开整。 --------------------------------------------------------…

腾讯云图(TCV)使用指南

简介 腾讯云图(Tencent Cloud Visualization,TCV) 是腾讯云旗下的一站式数据可视化展示平台,旨在帮助用户快速通过可视化图表展示海量数据,10 分钟零门槛打造出专业大屏数据展示。精心预设多种行业模板,极…

观《扫黑 决战》有感

点击上方 "大数据肌肉猿"关注, 星标一起成长 后台回复【加群】,进入高质量学习交流群 2021年大数据肌肉猿公众号奖励制度 本来今天想发篇干货的,但昨晚去电影院看完《扫黑 决战》这部电影后,有些话想说说,所以今天就随便…

ChatGPT解决了我的出行规划焦虑

#我的五一出行规划# 五一旅游季又将到来,许多人为了规划理想的行程而苦恼,需要投入相当时间来筛选各种信息。然而,现在有了Chat GPT,安排美好旅途变得异常简单。只要您告诉GPT您的日期和目的地,不到30秒就可以生成个性…

四季度业绩大涨、文心一言上线在即,百度估值逻辑酝酿“蝶变”

本月开始,上市公司迎来了年报披露周期。经历了经济下行压力、疫情防控、全球局势动荡的2022年,这份答卷注定不会容易。 2月22日,百度发布了2022年四季度及全年业绩报告。2022年全年,百度实现营收1236.75亿元,超分析师预…

利用TabNet进行股票长线预测

利用TabNet模型进行股票长线预测 提示:本篇文章只提供一个思路,因本人是金融小白,搭建模型时所参考的股票指标并不完善,所以结果准确性无法保证,各位不要将结果作为投资参考!!! 文章…

ChatGPT文章:C语言开发技巧

------ Oracle中文开发者社区 ------ 如果你想要学习编程,关注本博客,持续获得技术支持,持续获得技术咨询 java开发企业官方账号 Oracle中国官方账号 Java中国管理部 全网粉丝30万 华为云享专家 阿里专家博主 CSDN内容合伙人 CSDN原力计划作者 51CTO专家博主 CSDN博客V账号 …

Azure OpenAI 官方指南 01|GPT-3 的原理揭秘与微调技巧

Azure OpenAI 服务在微软全球 Azure 平台正式发布后,迅速成为众多用户最关心的服务之一。 Azure OpenAI 服务允许用户通过 REST API 访问 OpenAI 的强大语言模型,包括 GPT-3、Codex 和 Embeddings 模型系列。本期,我们将为您揭秘 Azure Open…

集成chatGPT4.0的超强编码软件cursor使用教程

最进在学习上线vue遇到很多问题,发现了这款超级厉害的软件,但没有使用教程,可能是因为刚刚发行的原因吧。今天简单介绍一下。 直接在cursor官网下载压缩包,然后解压,桌面就会有相应的快捷键了,非常方便。 …

观点|安装数据安全“刹车”,释放数据要素产能

一辆没有“刹车”的跑车,你敢开多快? 近年来,人工智能技术的不断迭代与持续演进,离不开算法的突破与算力的提升,更是得益于近几十年来信息化技术应用与发展过程中持续积累的海量数据资产。伴随着数据仓库、数据湖、云服…

下属是个技术大牛,常常加班到晚上10点后,但白天总迟到,HR让他要么降薪,要么离职!...

如果晚上总是加班,白天上班迟到,可以吗? 一位网友求助: 有位同事是技术大牛,常常加班到晚上10后下班,不过非常喜欢迟到,已经连续3个月迟到总数超过公司规定了。人事给出两个条件,要么…