引言:AI与大模型风起云涌,为什么催生了这匹存储“黑马”?
【阿明观察 | 科技热点关注】
这家总部设在美国的存储初创公司,真的赶上AI与大模型时代的风口了。Vast Data公司最新再次获得E轮融资1.18亿美元,但是这个存储公司融来的资金还没想好怎么用,现在只是和之前ABCD轮融资一道存银行吃利息而已。你是不是被震惊到了?
目前VAST Data该E轮已经筹集了1.18亿美元的新资金,由 Fidelity Ventures 领投,New Enterprise Associates、BOND Capital、Drive Capital、Nvidia、Dell Technologies Capital、高盛、Tiger Global、Commonfund、Norwest、83North、Greenfield和Next47跟投。估值为91亿美元,ABCDE轮筹集的现金总额达到3.81亿美元,约合人民币27.3亿元。
查阅已经被公开的资料发现,VAST Data天使轮融资0.15亿美元,A轮融资0.25亿美元,B轮融资0.4亿美元,C轮融资1亿美元,D轮0.83亿美元。其中Dell Technologies Capital在ABCDE五轮融资中都有参与。
VAST Data公司在全球拥有700多名员工,2016年,Renen Hallak与Jeff Denworth、曾在Kaminario和IBM担任领导职务的Shachar Fienblit和曾在Cisco和IBM担任领导职务的Alon Horev共同在美国纽约创立。
VAST Data通过使用底层QLC闪存,结合由SCM类型的SSD加速,同时关键的是在于分离了控制器和存储节点,并提供对文件和对象数据的并行横向扩展访问。最终实现了利用商用服务器硬件,为人工智能工作负载提供对大规模的数据集的更快访问。
Vast将存储、数据库和计算引擎服务统一在一个平台中,为跨数据中心和云的AI应用,以及GPU工作负载加速提供能力支持。
这样也就为用户省去了找一个集成商去整合NAS解决方案、对象存储、并行文件系统和数据仓库等构件一个复杂方案。麦肯锡(McKinsey)的数据显示,生成式AI预计将为全球经济创造2至4万亿美元市场价值,而其中GPU将为此提供大部分价值。VAST Data统一数据平台,可以为用户在AIGC应用上省钱,这个事情确实很吸引人。
为此,前几天,GPU云服务商CoreWeave的首席执行官兼联合创始人Michael Intrator表示,通过与VAST Data合作,能够使设施比传统云基础设施快35倍,成本低80%。如此看来,VAST Data公司的产业生态也逐渐在打开了。
值得一提的是,VAST Data平台已经通过Nvidia GPU Direct访问认证,并在其上构建了数据目录和数据库,以及即将推出的数据引擎,该引擎承诺使人工智能流程能够发现其所分析数据的新见解。随着人工智能不断被大肆宣传,也就成为了VAST Data筹集风投资金的好时机。
值得注意的是,VAST表示,这笔资金将推进其使命,提供一个新的基础设施类别,将数据放在系统工作的中心。目前还没有关于这些现金将如何实际使用的细节。
事实上,VAST Data联合创始人Jeff Denworth说:"这笔资金只是被用来提高人们对VAST和我们使命的认识。 VAST现在的现金流非常顺畅,业务拓展也很有建树。我们已经成功地建立了一个公司,它可以每年增加三倍的业务量,而不用烧掉堆积如山的风险投资。这笔新的E轮融资将与我们从B轮、C轮和D轮融资中获得的资金一起存在银行并收取利息。"
如此说来,除去天使轮与A轮的0.4亿美元融资,其他融资总共有3.41亿美元,约合人民币24.4亿元。
现在的VAST Data Universal Storage 5.0能力更为强大,针对在云方面的融合能力,VAST DataSpace拥有多集群管理器、快照、复制等技术功能,简化用户的云部署,目前可以看到Vast Data与亚马逊云科技AWS的对接。
针对AI与大模型训练等以性能为中心的应用场景而言,Vast Data强调为用户提供更细粒度的QoS保障,采用全新的用户级控制为每个使用者行为设置了护栏,并利用人工智能特别是深度学习的能力,监控存储系统中使用者的行为,并且可以限定任何一位高级用户可能破坏其他人的数据访问体验。
Vast Data的现任CMO Marianne Budnik表示,在不到一年的时间里,新一代人工智能重塑了数据基础设施的格局,并对高度可扩展、高性能和安全的系统提出了新的要求,这些系统可以应对大型语言模型带来的独特挑战。新的专用云已经形成,以满足人工智能特定的用例。企业越来越专注于构建AIGC相关应用并更好支持客户发展。
在2022年11月ChatGPT推出后,大多数组织今天正在探索生成性人工智能用例,许多组织正在进行重大投资。由于人工智能应用程序旨在从大量数据中提取见解,因此它们需要具有最高规模和性能的基础设施。
人工智能计算下一个时代的基础只能通过解决以前阻碍人工智能应用进行实时数据处理和学习的基本基础设施权衡来建立。对于非结构化数据存储,这意味着以文件和对象存储的VAST DataStore模式已经打破性能和容量之间的权衡。
通过VAST DataStore,可以摆脱存储分层复杂性,成为企业人工智能就绪的非结构化数据存储的基础,甚至VAST也成为了HPE GreenLake文件存储背后的软件。
业界的评价还是很有亮点,VAST Data成为了用于生成AI的最有效的存储平台,可以容纳多个访问协议,并独立扩展性能和容量,允许按需性能灵活性和长期成本效益。VAST自第一天起就一直在为人工智能计算奠定基础,这是一个可以匹配人工智能时代公司雄心壮志的数据平台。而今,VAST Data连续第二年被认定为2023年Gartner分布式文件系统和对象存储魔力象限™的挑战者。
不过,这里再说一下核心能力。Vast Data核心能力源自DASE分布式创新架构。
在20年前,谷歌推出无共享系统(shared-nothing)的想法带来了存储领域的革命,分布式存储从而走向了历史舞台。20年后,VAST构建了DASE系统,旨在打破分布式系统的传统扩展限制。
DASE架构将计算逻辑与系统状态解耦,并引入了新的共享和事务数据结构,这些设计结合在一起为下一代人工智能注入计算奠定了基础。
DASE将容量与性能、数据与丰富的元数据、边缘与云、简单与规模相结合。以前相互排斥的数据和系统概念现在“未来架构”的平台上和谐共存。
然而,深度学习和数据存储平台之间的鸿沟现在清晰而存在。为什么今天的数据存储平台不能满足现代深度学习的需求?
从根本上说,这些系统并非旨在存储和处理AI应用的丰富数据类型。今天流行的数据存储平台是为现代化业务发展而设计,而不是为人工智能而设计。事实上,如果深度学习从未存在,今天数据存储平台的采用将保持不变,因为这些系统主要侧重于块存储数据。虽然这些系统已经过改造,以解决机器学习和深度学习用例的某些需求,但差距仍然存在。
与基于批处理的计算架构不同,VAST架构利用实时写入缓存区,并在流入系统时实时捕获和操作数据。该缓存区可以拦截小型随机写入操作或大规模并行写入操作到持久内存空间,小型随机写入操作如事件流或数据库条目,大规模并行写入操作如应用程序检查点文件创建。
借助该内存空间可以立即与主存储如基于闪存的相对更低成本超大规模存档存储中的其他系统语料库进行检索和相关分析。因此,Vast Data平台专注于深度学习,致力于从非结构化数据中进行存储并支撑大模型数据检索与分析。
因此,说来说去,Vast Data为深度学习以及大模型训练带来了更友好的数据存储平台支撑,自然更容易被新的应用所采纳,被资本所看好。
其实,在针对AI领域蓬勃发展的背后,对AI相关存储支持的专注也有大厂的参与,比如老将IBM也将IBM Storage Scale、IBM Storage Scale System、IBM Cloud Object Storage和IBM Storage Ceph多个软件整合在一起,建构了IBM的全球数据平台Global Data Platform,看着这名字就觉得大气,不愧是久经沙场的老手。
因此,在面向AI发展的存储基础设施创新之路上,Vast Data的对手还有不少的,回头有时间,阿明再和大家梳理梳理。
新老玩家都在努力,Vast Data可不要太傲娇哦。
- END-
你
怎
么
看
?
欢迎文末评论补充!
【科技明说|全球云观察|全球存储观察 |阿明观察】专注科技公司分析,用数据说话,带你看懂科技。本文和作者回复仅代表个人观点,不构成任何投资建议。