随着我们迈入2023年,大数据分析、人工智能和云产业将迎来蓬勃的创新和发展阶段
以下是我们预测的,将对行业格局产生重大影响的五大趋势:
世界在剧变,我们需要尽快寻找行业中的方向,迅速重回轨道
2023年,全球经济层面的不确定性将持续存在。
在云上部署数据密集型负载的企业需重新评估其云战略,更加关注成本优化,根据现有或新项目的ROI(投资回报率)和TCO(总拥有成本)来进一步审视企业的云开销。
在新的一年里,实现成本优化的一个重要途径就是降低企业云成本中占比较大的数据出口成本(egress cost)。
越来越多的企业会优化其架构,以避免遭到超出预期的数据出口成本的冲击。例如,企业可以考虑通过Alluxio缓存来降低经网络传输的数据流量。
此外,越来越多的企业在寻求实现“多云部署自由”, 从而能够不受限制地使用任何云厂商的服务。确保应用的可移植性将是实现这一“自由”的前提条件,这让企业能够根据自己的具体要求和预算选择最佳的方案。
包括OpenAI 的对话模型ChatGPT 、DALL-E 2的图像生成模型以及谷歌LaMDA聊天机器人等大模型在2022年都已展现出巨大的潜力。
预计这类模型将在 2023 年解锁更多用例和应用程序。
同时,这些模型的普及将有望推动人工智能专业化基础设施和解决方案的发展。
训练具有数十亿个参数的大模型需要特殊的基础设施和解决方案来处理计算需求。因此,能够支持这种规模和复杂性模型的人工智能基础设施将会不断发展。
此外,随着大模型不断升级优化,研发人员将需要找到更多新的方法,用来把更多的大模型和实际的应用场景结合起来。因此,我们预计随着人工智能基础设施的发展,新的工具和平台将出现,使研发人员能够更容易地开发和应用大模型。
数据共享既包括企业内部的数据共享,也包括企业间的数据共享。
尽管数据共享目前尚未普及,处于早期阶段,但是,以数据共享为核心的生态体系,包括为数据消费者和数据提供者的基础设施、交易能力和服务,都将在 2023 年得到长足的发展。
跨区域的数据价值实现将驱动企业内部数据的共享,进一步消除数据孤岛。随着越来越多的企业寻求将数据资产货币化,外部数据共享的应用场景和成功案例也在显著增多。例如,面向学术界和研究领域,企业正在探索利用数据共享平台来共享研究数据,从而加速科研进度。
这一趋势将对数据基础设施产生重大影响,企业需要通过调整和升级系统来支持跨地区、企业、云以及平台的数据共享。由于企业需确保以合规和安全的方式管理和访问其数据,因此也将更加关注数据治理和数据安全。
在现代数据技术栈中,数据仓库和数据湖的融合趋势越发明显。
其背后的驱动力在于数据日趋复杂化和多样化,企业需要灵活和可扩展的系统来支持大范围的数据科学和分析用例。因此,数据仓库和数据湖的融合度也越来越高。
Apache Iceberg、Hudi 和 Delta Lake 等开放表格格式的兴起在这一趋势中发挥了重要作用。通过使用表格式定义层,可以在单个系统中有效地存储和管理大量结构化和非结构化数据,使得企业能够以更低的成本更快地提取数据价值。
到 2023 年,随着这些解决方案的迅速采用,更多的企业将使用开放表格格式存储数据。
长期以来,Kubernetes 中的存算分离对数据本地性造成了挑战。尽管在Kubernetes 中进行数据密集型应用的部署和弹性扩展已经十分容易,但在访问云原生数据源中的数据(例如 AWS S3 或远程数据仓库)时却更加困难。
我们预测,在2023 年,数据本地性的难题将得到解决。
对于Kubernetes调度器来说,能够独立于数据位置进行决策的能力变得越来越重要。这种能力对于Kubernetes接口来说将愈发关键,它将帮助应用程序和调度器更加高效,诸如Alluxio等组件目前正在计划提供相关支持。
因此,新的一年将会出现更多弥合计算和存储的解决方案,帮助企业更好地管理和优化其在 Kubernetes 中的数据存储和处理。
2023年对于大数据、人工智能和云产业而言将是激动人心的一年。
大量的突破和创新将主导这些领域的未来走向,许多技术范式将不断融合,形成一个以数据为中心的生态系统。
至于各项技术将如何演进并影响我们的生活,让我们拭目以待。
范斌 Alluxio创始成员兼开源社区副总裁
加入Alluxio前, 在Google从事下一代大规模分布式存储系统的研究与开发. 范斌博士毕业于卡内基梅隆大学计算机系, 博士期间在分布式系统算法和系统实现等方向发表多篇包括SIGCOMM, SOSP, NSDI等顶级国际会议论文以及多篇专利。
想要了解更多关于Alluxio的干货文章、热门活动、专家分享,可点击进入【Alluxio智库】: