韧性,一个物理学概念,表示材料在变形或者破裂过程中吸收能量的能力。韧性越好,则发生脆性断裂的可能性越小。
如今,韧性也延伸到企业特质、产品特征等之中,用于形容企业、产品乃至服务的优劣。同样,随着云计算在全球范围内的普及与应用,云计算的韧性亦十分重要。所谓云韧性,即云应用程序抵御中断或从中恢复的能力,包括与基础设施、依赖服务、错误配置、网络问题和负载激增相关的中断。
毫无疑问,云韧性既是云服务商众多服务中的重要组成部分,也是云服务商自身技术能力的体现,更是用户选择云服务的关键参考标准。近期,全球云服务故障频发,更是引起众多用户对于云韧性的关注。作为全球云计算市场的头牌,亚马逊云科技如何看待云韧性的重要性?如何建设和实践自身的云韧性?云韧性未来有哪些关键趋势?
近日,在亚马逊云科技《2024亚马逊云科技云端韧性之道》沟通会上,亚马逊云科技揭秘了这一切。
云韧性都体现在哪些方面
IDC认为,在数字化的世界中,韧性是指利用数字化迅速适应业务中断的能力,不仅可以快速恢复业务运营,还可以利用变化情况通过创新寻找新的商业机会。
在快速变化的市场环境中,企业通常希望云服务具备出色业务连续性。尤其是随着企业的业务变得愈发复杂之际,当变化、故障或者风险发生时,企业更加希望云韧性来保障自身业务不受影响。
那么,一家云服务商的云韧性主要体现在哪些方面?在亚马逊云科技大中华区解决方案架构总经理代闻看来,云韧性主要包括基础设施、系统架构和运营机制三个方面来实现。例如,像数据中心等基础设施发生的锂电池着火事件,在现实中很难避免,一旦发生可能就会造成云服务商单点故障的影响范围扩大化。因此,通常云服务商将基础设施布局到多个地理区域,并且通过设置可用区来提升基础设施的可用性,一旦某个基础设施发生故障或者风险能够快速切换。
代闻介绍,云服务韧性的建设并非是一次性工作,而是一个持续的过程,并且需要业务需求、可靠性、成本和系统复杂度之间找到平衡点。亚马逊云科技在其云服务的设计与实现中,始终将韧性作为核心考量因素之一。
具体来看,在基础设施方面,亚马逊云科技在全球34个地理区域部署108个可用区,包括在中国大陆的北京和宁夏两大区域,每个区域均包含三个或更多独立电力、制冷及物理安全设施的可用区,且这些可用区之间距离适中,约同一区域内的可用区之间的物理距离也经过精心计算——通常是100公里以内。可用区的这种隔离机制,既能防止如供电、冷却等常见故障点,也能避免同时受到如地震、洪水等大规模灾害的影响。
“亚马逊云科技在基础设施的冗余、稳定性等方面一直都采用业界最高标准,处于绝对领先。”代闻表示道,“亚马逊云科技在基础设施方面非常重视中国用户的需求。除了国内基础设施之外,考虑到中国企业出海的趋势,亚马逊云科技刚刚在马来西亚新的可用区,在基础设施的选址、设计、网络等均采用极高标准。”
在系统架构设计方面,亚马逊云科技通过四大核心要素——区域隔离与多可用区布局、控制面与数据面的独立设计、单元化架构策略以及随机分片技术,确保云服务的高度稳定性和可用性。其中,区域隔离与多可用区策略依据故障隔离边界将服务精细划分为可用区级、区域级和全球级。
例如,通过将服务的控制面和数据面分离设计,即使控制面发生故障,数据面也能继续运行,这类似于出行系统中的指挥中心与车辆运行的关系。
代闻介绍:“控制面和数据面的隔离,类似于叫车软件和打车,两者其实是相对独立的。当你坐上车以后,如果一段时间叫车软件没有信号无法响应了,也不影响司机将你送到预定的目的地。很多故障失效的情况关键在于没有把数据面和控制面做到很好的隔离。”此外,亚马逊云科技还采用了“单元架构”设计模式,将服务分割为多个独立的单元,每个单元间不共享资源,从而进一步降低了故障发生时的影响范围。
在运营机制方面,亚马逊云科技采取服务责任模型、运营就绪审查、持续安全部署及纠错流程四大模块的核心机制。例如,在发布新服务前,严格的运营就绪性审查流程可保障服务复原力及最佳实践达标,随后通过每周运营会议持续监控性能与潜在问题。又如,纠错流程也很关键,一旦错误发现,如何快速纠错就成为恢复业务的关键能力。亚马逊云科技面对问题,纠错流程迅速启动,通过深入分析根本原因并推动全公司范围内的改进,不仅即时解决问题,还将其转化为未来服务优化的宝贵经验,避难重复错误。
“亚马逊云科技推行DevOps文化,强调开发与运维的紧密联系。通过打破传统开发与运维之间的壁垒,亚马逊云科技提升整体运营效率。此外,亚马逊云科技还提供资源部署、配置管理、性能监控、故障排查等丰富的自动化工具来支持运营机制的实施”代闻表示道。
用云韧性真正去赋能用户
作为云计算的领头羊,亚马逊云科技已经积累了丰富的云韧性建设经验,并且基于不断积累的经验开发出韧性系统建设生命周期框架,包括设定目标、设计和实施、验证和测试、持续运营以及响应和改进,通过正向循环,不断强化自身晕韧性,以应对不断变化的环境和需求。
毫无疑问,当前的市场中,结构性不确定性正在陡增,错综复杂的外部环境、极速发展的数字化技术浪潮都可能对产业格局带来根本性影响。如何与不确定性共存,甚至在不确定性的市场中保持高韧性、获得逆势成长,这是所有企业都在积极思考的话题。面对市场种种不确定性,企业需要具备“抗击打能力”,能够抵御各种冲击。
因此,亚马逊云科技在积极赋能客户利用“云韧性”提升“云中韧性”。亚马逊云科技致力于不断为客户提供一套全面而深入的架构策略、高效运营的最佳实践服务、前沿的技术工具以及专业的指导方案,旨在全方位助力客户在云端环境中构建出既稳定灵活,又能够迅速适应各种挑战与变化的韧性应用程序。
例如,客户可以使用 Amazon Resilience Hub 来设置目标,根据这些目标评估韧性状况,并根据Amazon Well-Architected Framework和 Amazon Trusted Advisor 的建议实施改进措施。
奇瑞捷豹路虎是亚马逊云科技赋能客户的典型例子。通过将SAP 系统迁移至亚马逊云科技上,利用亚马逊云科技独有的一个区域三个可用区特性,以及特有的自适应跨可用区高可用集群进行整体切换,实现高可用和同城灾备融合,最大限度地减少了停机时间和保障零数据丢失,故障切换时间从半小时缩短至 3 分钟。
“Everything fails all the time”(故障总在情理之中、意料之外)。亚马逊云科技将持续为客户提供广泛、深入的架构及运营最佳实践服务、工具和指导,帮助客户在云中构建和运行韧性的应用程序。”代闻最后表示道。