12月21日,在弹性计算年度峰会上,数云CRM运维总监陈延宗发表了主题为《计算巢最佳实践--数云CRM一键云上交付》的演讲,介绍了数云CRM在阿里云计算巢平台的最佳实践。
图:数云CRM运维总监陈延宗
01 传统交付的四个痛点
数云目前已发展成为国内领先的全域消费者增长解决方案提供商,客户群体基本都偏向于大中型企业商家。这些商家客户中的一部分会要求做私有化部署,在其阿里云平台上部署业务系统。
在阿里云平台上,数云为企业提供了CRM交付落地时可能需要用到的组件,如上图,组件的种类非常多,包括安全、日志SLS、对象存储OSS 以及AKS等,其中的组件,特别是SLS、WAF、安全组都可能被使用到,它们都有一个特点,配置会很复杂化、业务化。
传统的交付过程中,对于一个比较大的企业级应用交付,基本流程分为四步:
◾ 第一步,商务流程。先跟客户沟通一个具体的采购和合同的商务事宜。
◾ 第二步,采买过程。第一步商定好以后,运维工程师会提交数云的资源清单给客户,资源清单会包含上面提到的组件的组合,这些资源都是要客户手动购买。如果有To B业务经验的可能会比较清楚,不同的B端客户,他们IT团队不一样,每家情况都不一样。有的IT团队就一个人,对于阿里云的熟悉度并不高。
这个过程,数云会提供一些建议,比如提供购买方法、资源型号等;可是仅仅一个ECS型号就有大几百个,客户很难选择,我们又需要点对点地沟通解释,这个过程付出了非常多的人力沟通成本,单纯的采买过程可能只要一天,但是沟通过程就需要5个工作日。
◾ 第三步,安装过程。安装过程是比较快,基本是一键部署,由人手动操作的,资源检查也是人来操作的,只要人操作就可能会出错。系统初始化工作比较艰难,例如,一个比较大型的客户,整个流程可能需要两周。
◾ 第四步,业务使用。我们把系统初始化完成以后交付到客户方,客户来做相关的使用。
在这个四个流程当中,总结起来痛点大概分四个:
◾ 检查。整个资源配置的结果是需要人肉核查,有些客户的账号不会给到,那就需要我们来盲猜,猜一下机器的安全组等等这些信息,然后需要手动去做;另外,资源的配置点比较多,资源清单种类也比较多,检查工作就比较重。
◾ 操作。整个过程都是手动来操作的,包括采买,这样就容易出现相关的错误。当阿里云平台推出一些新的资源型号,做一些改动,那文档的更新就比较麻烦,因为它不是自动化的;另外,文档的更新会出现一些延迟,可能给到客户是一个错误的文档。
◾ 沟通。沟通的成本非常大。
◾ 时间。往往这些时间一直浪费在沟通和出错成本上,理论上这些应该都是要避开的。
02 阿里云计算巢让云上交付自动化
接入到阿里云计算巢之后,这些过程和操作就变得比较简单了。我们需要把整个过程实例化出来,放到资源编排ROS里面来做。现在客户需要来购买软件的时候,我们会给出资源清单,客户只需要关注数量即可,比如说某个组件购买一个还是几个;客户买完以后基本上无需检查,因为他购买的资源一定是按照我们的标准来定义的,包括ECS、数据库型号及版本等。
优化过程后,大家可以看到带来了以下收益:
◾ 检查,这部分不再需要做,因为配置模板化。
◾ 操作,实现了自动化,客户只需选择购买的数量。
◾ 沟通,只需要提供最基础的业务内容介绍文档就可以,不再需要细节沟通。
◾ 时间,整体时间缩短,现在已经通过阿里云计算巢部署了5、6家客户,每家的时间不超过一天,包括沟通、采买到最后初始化完成交付的时间。
03 未来规划与升级
阿里云计算巢发布到现在有大概半年时间,我们真正对接也是近几个月开始的。未来,我们会将一些自动化的程序加到里面去,做到更智能、更自动,具体分为3个方面:
1、租户关系开通。租户开通的时候,都会通过阿里云计算巢的开通关系跟租户系统中的开通租户沟通;也会包括增值账户的开通,企业类的租户可能有一些预充值的费用,这一块主要为数云内部的系统流程。
2、主机应用层初始化的优化。我们需要监控所有客户主机的运行情况,比如日志的SLS、Metrics以及一些基础的运行数据,或者一些特别指标(如tracing数据);同时包括K8s集群的初始化优化;我们将会把这些内容整合到计算巢中,实现可选的自动化插件。
3、完善保障体系。To B业务有一个难点就是多环境、多租户的维护问题,我们的口号概括为三个数字“1、5、10”,就是1分钟发现问题、5分钟定位问题、10分钟解决问题。主要是使用自动化的工具,缩短可以来促进“1、5、10”目标达成的相关过程。
04 计算巢上的交付演示
上图主要展示了我们资源清单的样例。左边就是管理的节点,右边是后端模块使用的具体节点,比如说ECS、PolarDB、DTS、Redis等,这些我们都会用到。这里展示的每一个节点的购买可能都需要非常复杂的文档,客户在采买的时候,可能会问非常多的问题。
点击这里,查看基于计算巢进行采买操作的演示视频,这个视频展示的是我们采买的过程。客户对采买的数量、实例的类型、系统的版本、交换机数量、购买时间等基础信息进行选择,从而完成部署。
根据视频demo演示,可以看到整个过程基本没有手动操作,运维人员可以看到相关的资源信息;如果客户已经通过数云购买了资源,我们可以通过阿里云计算巢看到后台的资源状态,甚至一些系统级别的事件可以直接看到,这点对于我们运维来说也是非常友好的。
点击大会官网,观看陈延宗的精彩演讲视频。