对于一家业务遍布全球的企业来说,需要多大规模的IT运维团队,才能保证日常业务的稳定运行?
作为一家源自瑞典的腕表品牌,DANIEL WELLINGTON(以下简称“DW”)以北欧简约设计理念,为消费者提供个性化配饰选择。自从2011年成立以来,DANIEL WELLINGTON品牌在全球范围内掀起腕表时尚的新潮流,业务发展非常迅猛。
截至目前为止,DW已经与100多家市场的分销商建立了合作,共有8000多个销售点,并且在全球设置了十四个办公地点:斯德哥尔摩、乌普萨拉、纽约、洛杉矶、伦敦、科隆、首尔、东京、新加坡、香港、上海、深圳、孟买和迪拜。
然而正如公司产品的简约设计理念一样,DW这样一家业务遍及全球的企业,其IT运维团队却精简到令人惊叹。而在这一切的背后,则是来自AWS的丰富云服务和强大技术支持。
“通过使用AWS,DW实现了全球统一的IT架构部署和资源协作,我们用14人的运维团队就支持了DW集团跨越北京、宁夏、新加坡、东京四个城市的IT应用。”DW中国CTO王耀东如是表示。
以全球统一部署为第一原则
早在2014年,DW就开始使用AWS,全球的业务应用全部运行在AWS上,在海外使用了AWS欧洲(爱尔兰)区域、美国(俄勒冈)区域、亚洲(日本)区域、亚洲(新加坡)区域。
DW于2015年进入中国市场。为了贴近中国消费者,决定选择由北京光环新网科技股份有限公司(“光环新网”)和宁夏西云数据科技有限公司(“西云数据”)运营的AWS中国区域,在中国独立搭建一套IT应用。
DW中国CTO王耀东表示:“之所以在中国选择AWS,是因为DW在海外已经使用AWS,体验很好。我们决定把全球统一部署作为我们的第一原则,这样便于管理和协作。”
从2016年开始,DW将官方中文网站由欧洲区域迁移到光环新网运营的AWS中国(北京)区域。当时,AWS在中国还是以有限预览的方式为精选客户提供服务。后来,DW相继启用由光环新网运营的AWS中国(北京)区域和由西云数据运营的AWS中国(宁夏)区域。
DW在AWS上运行的应用主要分三大类:一是业务系统,包括官方网站商城、零售POS系统、微信H5、公众号程序等;二是后台系统,包括AD域服务、Microsoft Dynamics NAV ERP、 Microsoft Dynamics CRM等;三是系统接口和微服务,主要是各个系统之间、以及系统和外部供应商之间的数据接口。
AWS如何让企业获益
在DW亚太信息技术运营经理管宇辉看来,使用AWS让DW获益良多,主要体现在以下四个方面:
1、按需使用,快速部署
近五年以来,DW的营收规模高速增长,如果继续使用传统租赁IDC或者自有IDC,DW需要花费大量硬件成本以支持公司的快速扩张。使用AWS之后,DW可以随时启动新的服务,只需要完成相应的预算审批流程即可,节省了传统的年度预算、硬件采购、备件采购维护和运维成本。
2、快速弹性扩容,支撑瞬时流量爆发
DW是社交推广的明星企业,经常能够获得和流量大咖的合作推广的机会。其中最大的一次合作曝光为DW官网网站带来了超过日常400倍的访问流量爆增。这在使用传统租用IDC的公司是无法想象也非常难以处理的。而依靠AWS强大的弹性扩容能力,DW得以在1个工作日内完成官网的弹性扩容调整,支撑每一次峰值流量到访。
3、全球化平台,提高运维效率
AWS全球统一的管理架构、统一的API、双语支持,使得中国和瑞典两地的运维团队可以利用7个小时的时差,互相运维对方的云平台,从而大大降低了人力成本,也让运维团队尽量减少夜班和节假日加班。借助AWS云、通过全球协作实现工作与生活的平衡,让DW运维团队颇为自豪。每逢电商大促季,在中国,我们熟悉的场景都是全员通宵奋战。而在DW,就可以晚上只安排少量的运维人员值班,而由另一时区的运维团队代劳。如果有系统异常,直接进入相关区域的账号进行第一轮检查和处理以及紧急修复操作。若需要,才会联系当地人员一起进行第二轮的问题修复。这样的替补机制,能让运维人员以正常的作息时间应对24小时不停的在线业务。此外,在DW中国的服务落地过程中,深圳的运维团队利用AWS东京区域和新加坡区域为DW中国的业务提供支持,将服务落地时间从1-2个月缩短到了1-2天。
4、责任共担,精简团队
管宇辉带领的亚太区运维和支持团队只有14人,却要管理DW北京、宁夏、新加坡、日本四大区域的IT应用,从架构、部署、安全到运维,以一个精简但专业的团队支撑了DW中国和亚太两个大区的业务发展。
DW使用AWS云服务非常全面,据统计超过30多种,所使用的AWS云服务包括Amazon Elastic Compute Cloud (Amazon EC2)、Amazon EC2 Container Registry (Amazon ECR)、Amazon EC2 Container Service (Amazon ECS)、AWS Lambda、Elastic Load Balancing (ELB)、Amazon Simple Storage Service (Amazon S3)、Amazon Elastic Block Store (Amazon EBS)、Amazon Simple Storage Service Glacier (Amazon S3 Glacier)、Amazon Aurora、Amazon Relational Database Service (Amazon RDS)、Amazon DynamoDB、Amazon ElastiCache、Amazon Redshift、Amazon Virtual Private Cloud (Amazon VPC)、AWS Direct Connect、Amazon CloudWatch、Amazon EC2 Systems Manager、AWS CloudFormation、AWS CloudTrail、AWS Config、AWS Identity and Access Management (IAM)、Amazon Athena、Amazon Elasticsearch Service、Amazon Kinesis、Amazon API Gateway、Amazon Cognito等。以下就是DW基于AWS云的系统架构图。
DW基于AWS云的系统架构图
运维自动化:DW使用AWS的心得
DW使用AWS的一个重要心得,就是运维自动化。管宇辉表示,DW尽量不让运维人员陷入到重复的运维工作中。
1、自动化部署
DW有超过90%的基础架构已经实现了使用AWS CloudFormation自动化脚本部署。
使用AWS CloudFormation,DW可以为服务或应用程序架构创建模板。当需要做新的部署或者扩容时,只需复制现有模板,必要时适当修改参数,就可以使用这些模板,快速、可靠地配置服务或应用程序。从瑞典团队开始,DW就非常注重IT架构的安全可靠与运维自动化。因此,亚太团队开始工作时,也从瑞典团队借鉴了主要的模板和方法。
同时,DW会使用AWS Config服务,评估、审计相关的AWS 资源配置。AWS Config会持续监控和记录AWS资源配置,判断相关的配置是否符合内部指南的配置要求。DW也会通过CloudTrail,对AWS 账户进行监管、合规性检查、操作审核和风险审核。
DW还会定期根据AWS架构完善的框架(Well-Architected Framework),对自己的IT架构进行评估,确定下一步优化的方向。例如在一次IT架构评估中,DW意识到日志审计应该建立单独的账户,这样能够更好地控制安全风险。
2、容器化
DW提高运维水平的另一个措施,是使用Amazon ECR、Amazon ECS,将传统的Amazon EC2架构转变成容器化的架构。实现容器化以后,DW使用Amazon EC2 Auto Scaling组,实时地检测每一台主机、每一个容器的健康度。如果其健康度有问题,或者某个组件失效,DW会通过自动化的手段重启相应的业务程序,实现不下线的平稳操作。
通过一系列的措施,DW中国IT团队在2018年7月5日接管中国官网以后,实现了99.98%的可用性,将官网可用性提高了0.05%,并且在全天高峰销售时段实现了100%可用性记录,几乎最大程度地帮助业务部门实现业务目标。
3、无服务器架构
DW在接口层和定时应用中,大量使用Lambda和Amazon API Gateway无服务器服务技术进行部署。通过无服务器架构,大大提高了DW应用系统之间接口的灵活性。例如,DW拥有官方网站、天猫商城、京东、微信小程序等众多订单系统,都需要向ERP系统传输数据。按照以往的做法,每一个订单系统,都要分别写程序与ERP系统对接。使用Lambda无服务器技术,DW在订单系统和ERP系统之间仅做一个接口应用,就可以实现ERP系统跟任意订单系统的对接。
采用无服务器架构实现接口应用主要有两个好处:一是自动实现弹性扩容。即使订单量猛增的情况,DW也不用担心订单系统过度承压,Lambda会自动实现弹性扩容。采用传统的架构,在进行市场促销活动之前一定要对订单系统进行压力测试,如果发现服务器有瓶颈,就要提前扩容,以免在“双十一”大促这样的情况下订单流出现瓶颈。采用无服务器架构,即便每分钟10万订单量,AWS都能轻松处理。
突发流量对DW这样的时尚品牌来说是比较常见的,曾有一位时尚博主发送了一条关于DW产品的微博,当天DW官网的流量就增长了3倍。采用无服务器架构,让DW毫无压力。
二是接口可以复用。同一个接口应用,只要修改一个接口代码,就可以对接不同的ERP和不同的订单系统。例如,可以对接DW在韩国、欧洲和澳洲的ERP。同时用这一个接口应用,可以轻松对接官网、天猫、淘宝和京东。
实际上,DW在中国就有8个电商平台,如果按以前的模式,需要做8次开发,分别实现8个电商平台与ERP的对接。现在,只需要修改接口,跟8个平台的标准开发文档对应上,就可以读取数据。而且这个接口应用是从瑞典团队复制过来的。所以,DW中国团队相当于只用五分之一的精力,就实现了以前8份工作的效力。
多种数据库服务让DW如虎添翼
DW使用了由光环新网和西云数据提供的AWS全系列的数据库服务。其中,官网主数据库使用Amazon RDS (MySQL),积分商城主数据库使用Amazon Aurora,大系统之间的缓存使用ElastiCache,无服务器架构的接口数据库使用DynamoDB,数据仓库使用Amazon Redshift。
DW对这些托管式数据库服务很认可。管宇辉以Amazon RDS举例说,托管式服务让DW的运维非常省事。以前,运维人员需要关心数据库版本是否更新,是否有新的问题以及是否需要修复;在设计数据库架构的时候,要考虑跨可用区或跨区域的灾备需求;数据备份频率以及用什么备份存储等等。不仅要关注设计,还需要手动配置。使用Amazon RDS以后,能够自动实现版本升级,对安全漏洞打补丁,同时会给客户发送即时提醒,DW通过这些邮件和信息就掌握全部情况。
Aurora则在Amazon RDS的基础上更进了一步,自动进行三个可用区的灾备,让DW更加放心。Aurora的高性价比也令管宇辉印象深刻。他做过一个比较,积分商城在西云数据运营的AWS中国(宁夏)区域使用Aurora,与之前相比,成本进一步降低了50%。
DW使用AWS的经验和心得非常多,例如DW在安全与权限管理、尝试IoT新服务推进新零售、团队能力培养等方面,都有很多可以借鉴之处。
作为一个勇于创新、勇于尝试的团队,DW的IT团队遇到AWS如此丰富的云服务功能,可以说是如鱼得水,如虎添翼。
“非常高兴DW中国选择了AWS云。同时,由光环新网和西云数据运营的AWS(中国)区域近两三年的高速发展,上线了新的区域和许多新服务。DW已经启动了新项目的POC,将继续在AWS云上做一些有趣的实验和探索,进一步挖掘IT的潜力,推动业务更上一层楼。”王耀东说道。