目录
引语:
Serverless 和数据湖
AIGC 业务的场景和需求痛点
腾讯云存储 AIGC 解决方案
加速数据训练过程
全方位审核推理过程
管理推理结果
结语:
引语:
大家好我们是权知星球,开启你独特的知识星际之旅
AIGC在过去一年中取得了长足的进步,要跟上时代的步伐,必须面对模型训练中的两大难题:原始数据量大和训练结果需要高精度。
换言之,针对数据和AI处理任务,如何高效又安全地完成,是每位开发者所面临的挑战。
最近我参加了腾讯技术开放日TechoDay的最新一期线上活动,让我收获了很多新的见解。
Serverless 和数据湖
数据湖就像是一个神奇的池塘,您可以在其中进行大规模的数据采集和存储。它可以容纳各种格式和类型的数据,包括结构化、非结构化和半结构化数据等等。需要时,您可以迅速地对数据进行处理和分析,就像在池塘里钓鱼一样,有鲤鱼、有鲑鱼、有鲨鱼,多姿多彩。
Serverless就像是一位巫师,你不需要去管理服务器,就能够编写和部署应用程序。你只需告诉它你的意图,它便会自动完成所有的魔法操作,让你集中精力于业务逻辑和创新。
当Serverless技术应用于数据湖时,您可以以高度弹性和高效率的方式将数据输入湖中,对数据进行格式转换、压缩和加密,使得数据可以在多个数据源和目的地之间自由地流动。
AIGC 业务的场景和需求痛点
《腾讯云工具指南》最新一期刊登了Serverless数据湖存储在AIGC场景中架构与落地的详细解读,内容全面而实用,充满干货。
让我们接下来详细讨论一下——
随着近年人工智能的热潮,你可能经常听到机器学习、深度学习等新名词,但对于非专业人士来说,这些概念可能显得很遥远,似乎与自己的工作关系不大。
在此之前,创作内容完全依赖用户生成的内容(UGC)。虽然这可以发挥用户的创造力,但效率却很低。事实上,许多工作都有一定的规律性可循。因此,随着计算机生成内容(CGC)的发展,能够提高效率,但缺少创新性。
随着基于机器学习、深度学习和自然语言生成技术的人工智能创新(AIGC)的出现,现在你可以自动使用AI来撰写一封仿柳永风格的情书,创造出文字、图像、音频和视频等各种创意内容,同时也可通过分析用户行为来提高市场营销效果。甚至还能帮你算出中彩票的概率,就像一个智能助手般的存在。这让大家都开始惊呼:原来AI还有这么多好玩的用法!
要让人工智能变得更加聪明,就需要为其提供大量高质量的知识。如何确保这一点?数据湖在机器学习和GPU训练的各个阶段都扮演着重要的角色。它需要收集来自各种数据源的各种格式的未经处理的原始数据并将其存储在一个统一的数据库中,以避免数据分散、重复和难以管理。在清洗、转换、训练和存储过程中,需要GPU和高性能存储设备的支持,因此对存储的吞吐量也有极高的要求。
由于内容是由人工智能生成的,因此可能会产生政治敏感、色情暴力等不当内容的输出。因此,为了避免被有关部门约谈,需要进行严格的内容审核工作以控制风险。此外,如何有效地管理通过高成本训练生成的内容,以便于内容的再利用和在企业之间分发,也需要进行综合考虑。
腾讯云存储 AIGC 解决方案
数据集下载与预处理
当我们讨论机器学习模型的训练时,就好像在谈论一个孩子的成长,需要为其提供充足的营养和教育。在机器学习中,数据集就像孩子的食物,必须具备丰富性、代表性和可靠性,才能使模型变得更聪明,具备更强的预测能力。
常见的数据来源有多种,其中包括国内外公开数据、私有消息队列和已有数据的中间件如关系型数据库。
由于国内的限制,我们常常难以得到足够高质量的数据集。为了获得更全面、高质量的数据集,我们需要前往国外的网站获取。
当然,需要遵守相关的法规和规定,以避免产生其他风险的发生。
然而,下载大量数据集所需的时间和带宽资源相当消耗,常常遇到各种网络问题,导致工作效率低下。
随着去年OpenAI推出ChatGPT,各大独角兽公司和垂直领域的企业纷纷加入,积极准备在人工智能领域分一杯羹。因此,必须提升每个环节的效率,才能脱颖而出。
数据分布在不同的地理位置,为了尽可能地实现就近处理,需要有全球多地区分布的具备TB级公网带宽的计算存储资源。因此,只有大公司才能够承担这种规模的工作,小公司或个人很难胜任。
所有涉及到的数据入湖、数据处理和数据出湖的组件,均可采用云原生和Serverless的方式进行高弹性和灵活的扩展。
加速数据训练过程
在不同的领域中应用人工智能时,需要对其训练性能进行不同的要求。COS即对象存储服务,可作为数据底座,类似大型仓库,可容纳所有数据。而GooseFS分布式文件系统则可充当COS的加速层,提供快速的数据访问服务,促进数据处理效率。GooseFS还能根据不同领域的场景配置不同级别的缓存,以提高训练效率。
自动驾驶技术依赖于大量的数据来进行训练和优化,进而提高其准确性和稳定性。以自动驾驶汽车为例,需要学习多种技能,如道路标志识别、障碍物识别、交通信号灯判断、路径规划等,均需要大量数据的支持。此外,由于各地交通规则和道路情况的差异,还需要收集大量数据进行地域化训练和优化。
如果只有几个数据点用于自动驾驶汽车的训练,那么它可能会表现得像一位经验不足的司机,容易迷路、闯红灯、发生碰撞等,这并非我们所期望的结果。因此,为了提高自动驾驶汽车的可靠性和安全性,就需要大量的数据用于训练和优化,这就要求具备充足的算力和存储空间来支持。
GooseFS利用全闪存缓存系统构建,满足自动驾驶领域海量数据的训练需求。该全闪存缓存系统由独立的存储集群构成,可实现快速数据读取和写入,极大地提升了训练效率。
在图像生成领域中,例如StableDiffusion,它的训练目标是同时进行图像分类和图像生成。虽然图像数据量也很大,但相对于自动驾驶领域,StableDiffusion所用的数据集要小得多。
GooseFS可利用GPU节点上搭载的NVMESSD作为缓存介质,结合超过百台的规模,能够构建PB级别的统一命名缓存空间,以满足处理图片训练数据集的缓存需求。
ChatGPT3.5是一种基于自然语言处理的模型,旨在生成自然语言文本。然而,与自动驾驶领域相比,尽管自然语言的数据量很大,但其数据集要小得多。
针对这个训练数据的规模,我们可以利用GPU节点的内存,构建一个基于内存的全局缓存系统-MEM-BasedGlobalCache。每个GPU节点只需提供一部分内存,整个GPU训练集群就可以拥有达数十TB的缓存空间。而将训练数据集缓存在内存中,能够大幅提高数据访问速度。
因此,不同的模型和领域所需的数据量来进行训练和优化是不同的,这就需要我们根据实际情况进行选择。与从对象存储COS中直接读取相比,这种方法可以提高数十倍的数据访问速度。
全方位审核推理过程
合规内容的范畴主要包括数据来源、用户提问以及由AI生成的回答。
记得前几年,有一个视频平台上出现了一些涉及未成年人的不良内容,引起了很多人的注意。如果当时这些平台有一个完善的内容审核系统,就可以在第一时间发现并删除这些不良内容。
然而,内容种类繁多,包含文字、图片、音视频等,仅靠关键词审核难以识别这些内容。利用OCR技术,可以对图片或视频中的文字进行识别审核。
有时候用户会用模糊或隐喻意味的言语发布违规内容,例如辱骂、种族歧视等行为。若仅依靠关键词审核,其实很难发现这些内容的存在。但是,借助上下文语境审核,我们就可以根据文章或评论的整体内涵来找出这些违规行为,并进行应有的处理。
路漫漫其修远兮,技术对决中,进攻和防守双方竭尽全力,只要能增加对手的攻击成本,就算是赢家。
腾讯云数据万象现已推出多项审核模板,覆盖了诸如色情、政治、广告和暴力等多种场景和类型。这些模板都以强大的人工智能技术和丰富的数据资源为基础,能够快速、准确地检测到违规内容。此外,数据万象还针对AIGC行业需求,专门定制了适用于该领域的模型和策略。
举个例子,当用户上传一张图片时,数据万象将自动进行内容审核。如果图片中存在色情内容,审核结果将会被标记为违规,并同时提供违规描述和违规截图,方便用户进行修正。
当然,如果用户需要自定义审核规则,他们可以根据自己的业务需求和风险等级,制定不同的审核策略。这些自定义审核规则可以设置审核类型、审核场景、审核阈值等内容,从而提高审核效率和准确性。
数据万象的审核机制犹如一名“安检员”,负责保障用户和公司的安全和合规,确保上传的内容更加安全可靠。
管理推理结果
进行内容管理是必要的,因为由人工智能生成的内容往往存在很多问题,例如质量不一、真实性欠缺、版权问题等等,这就需要进行有效地管理和控制,以维护用户和公司的权益。
本文以一家互联网教育公司为例,该公司提供在线教育服务,需要大量的教育内容来支持其业务。为了提升教育内容的质量和效率,该公司应用了人工智能内容生成技术,创作了大量的教育文章、视频和音频。在这种情况下,内容管理十分重要,主要包括以下几个方面:
●内容改善:通过修改由人工智能生成的内容,以提高其质量和可读性。例如,对生成的文章进行削减、改写和排版,从而增强文章的可读性。
●内容保护:为保障由AI生成的内容的版权和知识产权,防止他人侵害和复制,采用数字水印等技术对教育内容进行保护。
●内容发布:利用人工智能生成的内容,在各种平台和渠道上发布,以提高内容的曝光量和传播效果。例如,把教育视频发布到视频网站,将教育文章发布到博客等。
借助内容管理,我们可以有效地控制和管理由人工智能生成的教育内容,从而提高内容的质量和可信度。
通过腾讯云企业网盘与数据万象的结合,可以实现云原生和serverless的数据处理能力,比如图像压缩、版权保护、智能标签和以图搜图等功能。这种一体化办公生态可以轻松与腾讯云已有的办公体系相接合,从而为用户带来智能化的办公体验。
该软件能够提供与Windows本地操作相同的体验,支持协同办公、移动办公,同时也可以在公有云和私有云上进行灵活部署,大大提高协同工作效率。
结语:
腾讯云拥有强大的GPU计算能力,犹如一座超级计算机,可以协助用户快速处理包括数据和AI任务在内的复杂工作。高效的存储解决方案提供快速的数据传输速度,帮助用户迅速获取和传输数据,减少等待时间。此外,腾讯云还提供了全面的内容审查和管理工具,可协助用户确保数据的安全和规范,从而使用户更加信任并放心地使用腾讯云的服务。在云原生和Serverless的背景下,用户无需关注服务器的设置和管理,能够专注于数据和AI处理任务,从而解除很多烦扰。
总的来说,腾讯云在AIGC领域的算力、性能、内容审核和管理方面都是业界的各项标准,可以为企业提供更高效、更安全的数据和AI处理服务。
权知星球,开启你独特的知识星际之旅!点亮你的创造力,闪耀在知识的星光下,成为知识传播的新时代先锋!一起探索AI智能领域的奇妙世界,让创意与智慧在这里绽放!