第一章 华为云Stack解决方案
2018年云栖大会马云提出的数据科学时代(Data technology),相较于传统信息时代,技术的变更主要集中在过去我们更加看重的是传输,也就是传统的网络建设,随着目前国家网络建设的完善,数据传输量以及基于数据产生的经济价值越来越高。所有技术的发展都是围绕数据进行服务的。
云的发展主要经历了三个模式变化
(1)传统IT阶段:传统IT阶段实际上是没有云平台的参与的,所有的业务是全部都被部署到物理机上的,使用物理机进行业务的部署,用物理机进行业务部署会遇到很多相关的问题,比如说如果硬件架构出现问题如何解决、以及当业务需要迁移的时候,会需要停机。传统的业务架构就是基于BMC——操作系统——中间件——业务系统——用户流程实现的。
(2)Cloud-Base:基础云阶段,在基础的云应用阶段,用户使用云还是处于一个比较初级的阶段,用户可以选择云的IaaS/PaaS/SaaS服务进行业务系统的构建,大部分用户会选择ECS弹性云服务器进行自定义的系统构建,或者选择相关的SQL服务完成底层到中间件层级的业务构建,但是很少有用户会选择SaaS进行业务建设。这个阶段用户使用的主要是云的资源,用户会将自身的业务从传统架构迁移到云上,通过云服务的提供满足企业的各类需求,尤其是在弹性伸缩以及业务安全性保证平滑过渡这些需求上尤其的多。
在Cloud-Base阶段用户的数据会集中到云平台上,更加有利于用户进行数据的集中处理,另外使用云可以让用户的资源利用率相对提升,传统IT结构分配给用户的资源,是用户独享的,这样做就很容易造成资源的浪费,但是使用云架构之后,用户可以通过超分资源或者是精简分配的方法提升资源利用率,降低企业的整体TCO(总拥有成本)
但是使用基础的云架构还是有一定的问题的,比如和传统的架构一样,用户的业务上线慢、尤其是技术人员的视角在传统和基础云架构下更倾向于架构层面而不是业务层面,所以对于实际的业务运行来说,使用基础云架构相对还不是能满足一些大企业的快速上线的需求。
尤其是对于软件开发的人员来说,使用基础云架构的整体思想和软件开发的设计思想实际上是有一定的差距的,随着软件开发行业从传统的瀑布开发模式转向敏捷开发模式,软件的快速上线和业务的运维模式都相较于传统IT架构有了很大的区别。所以基础云架构模式目前也开始在一定程度上无法满足用户的需求。
(3)Cloud-Native:云原生模式,为了解决和满足用户的需求,云原生模式站在了业务角度上对技术架构进行了重构,以微服务作为底层的开发模式需要一种更加灵活的底层设计,所以云原生可以满足用户的需求,以容器和kubenets为架构的云原生系统就可以实现业务的秒级上线,并且对于运维人员来说数据的采集、处理、存储、归档都变得更加容易。
现在对于一些特定的场景,尤其是不宜进行变更的场景,还是会使用传统IT架构的,比如一些制造行业或者是需要使用到物理机的场景,还是会使用传统架构进行实现,大部分的中小型企业现在已经将整体业务迁移到云上进行实现了。而对于需要快速响应以及快速上线业务的公司来说,云原生架构会是最好的选择。
当前我们处于Cloud-Based阶段,预计未来在5-10年内云原生架构会成为业务架构的主要选择。
华为云Stack和华为云之间的关系
华为云Stack是私有云产品,华为云是公有云产品,两个产品本质上是一套架构,华为云Stack就是华为云的硬件部署产品。用户使用华为云Stack可以做更多的自定义和自管理,使用华为云就是直接使用的资源。私有云产品更加注重的是数据安全性以及资源的可用性,公有云更加注重的是便利性和低成本。两者的选择要根据用户的实际需求进行选择。
华为云Stack整体架构
(1)基础设施层:基础设施层主要提供的是资源,云架构的虚拟化本质上还是要依赖于物理资源的,所以基础设施层是实际的资源的提供者。目前华为云Stack支持的设备主要有飞腾服务器、海光服务器、X86服务器(华为RH系列、浪潮、曙光、H3C、HP、Dell……)、鲲鹏服务器(华为泰山、黄河服务器……)、GPU服务器(主要用于AI计算使用、Atlas服务器),综合总结计算资源类产品目前华为是支持多厂商的多架构的服务器,存储资源层面华为云Stack支持SAN存储、分布式存储、对象存储和文件存储四个类别,其中SAN存储经典的比如Oceanstor系列、EMC、IBM等,分布式存储主要支持FusionStorage,对象存储底层一般是使用OceanStor 9000系列,文件存储根据客户需求可以自行配置硬件。最后的资源是网络资源,网络资源主要实现的是设备的连接和资源的共享,一般来说组成云网络的硬件包含交换机、防火墙、负载均衡,如果客户的规模比较大,还会有SLB和GSLB两个产品。交换机一般来说架构华为云Stack会选择华为的CE系列(园区网交换机)的产品,防火墙一般会选择USG6300系列的产品(比如USG6350E),负载均衡根据用户的需求自行进行选配
综上所述,在基础设施层用户需要提供计算资源、存储资源和网络资源三个主要类型。其中必选的是x86系列服务器、SAN存储和交换机,其他的可以选配。
(2)基础服务层:基础服务资源池,基础服务资源池中的资源都是通过将基础设施层提供的硬件资源虚拟化形成的,用户创建的相关的服务都是由底层基础设施虚拟出来的。其中包含以下几项:虚拟机池主要是创建ECS弹性云服务器(阿里云、亚马逊云一般称ECS为EC2,实际上可以理解为是VM虚拟机)使用的,物理机池一般是面向于两个场景,第一个就是需要的单机资源量非常大的用户,第二个就是对数据安全和业务安全要求非常高的用户,物理机池分配的是完整的物理机,用户等于独享服务机的所有资源,在业务层面的体现就是裸金属服务器BMS。容器池主要是面向于云原生架构的相关业务,通过容器池可以创建对应的云容器引擎,同时拉起相关的容器,满足用户的相关需求。块资源池指的是存储块资源池,对应的是底层的SAN存储,在业务层面显示为云硬盘服务EVS。对象资源池是源自于对象存储设备,提供对象存储服务OBS。文件资源池主要提供的是文件共享服务SFS,一般用于用户自身创建的多个计算资源之间的数据共享。网络资源池的底层是分布式交换机,主要提供的是VPC虚拟私有云服务,用户可以通过该服务创建自身私有的网络,除了VPC之外,网络资源池还提供安全组、ACL、对等连接、VPN、弹性公网IP服务等。灾备服务一般是同时使用存储相关的资源池和网络资源池共同实现,尤其是会使用到块资源池的EVS云硬盘服务和网络资源池的VPC虚拟私有云服务。但是需要注意的是如果用户需要使用灾备服务,至少需要有两个或两个以上的region(区域),安全资源池面向的是对云业务有高安全性需求的用户,主要使用云堡垒机、WAF网页防火墙以及企业主机安全HSS等等。异构资源池主要是用户同时选配多种计算资源时使用的,比如使用非x86和鲲鹏系列的服务器或者是用户的主机包含有GPU、FPGA等相关定制化芯片的场景。大数据资源池是不依赖于底层的基础设施层的,用户需要单独搭建大数据的相关服务,然后对接到华为云Stack上进行统一的资源管理和资源分配,数据服务资源池主要包含MapReduce服务、大数据类的其他服务以及AI服务(主要是ModelArts),底层基础设施层是由FusionInsight Manager。
(3)云服务层:云服务层所提供的服务使用的资源就是来源于资源池层,主要是包含以下服务:
低阶服务:ECS弹性云服务器(必选),可以简单的理解为是VM。BMS裸金属服务器(可选),可以简单的理解为是物理机。CCE云容器引擎(可选),用户对容器进行全生命周期的管理都是通过CCE实现的。EVS云硬盘服务(必选),主要为ECS和BMS提供底层存储资源。SFS文件存储服务(可选),提供了文件共享的相关服务,可以简单理解为是FTP服务器,但是实际上由CIFS和NFS以及FTP构成。网络服务包含多项服务,大部分的网络服务都是集成在VPC虚拟私有云中的,虚拟私有云VPC(必选)提供了用户的网络底层,允许用户在内部进行通信以及公网的访问。
高阶服务(均为可选):OBS对象存储服务主要提供的是海量的数据存储,尤其是在大数据场景下构建数据湖进行使用。灾备服务主要是SDRS存储容灾服务,提供跨region的业务数据的异步远程复制,保证业务的数据安全。异构资源池服务并不是一个服务的名称,而是一类服务的名称,用户购买的ECS或者是BMS不仅仅包含CPU,同时包含有其他计算资源时,比如GPU、FPGA芯片等,在这种场景下,就是调用的异构资源服务。
数据库服务主要包含有DRS数据复制服务,主要是用户业务上云使用。GaussDB华为高斯数据库、Mysql数据库。
应用服务主要包含MCP多云容器平台,主要是跨云容器进行业务互通使用,尤其使用在政府部门。ASM应用服务网格,该服务为容器的相关服务,ROMA资产中心主要是帮助用户进行资源统计和资源管理使用的,DCS分布式缓存服务。安全服务主要包含WAF网页防火墙、CFW云防火墙、SIS安全指数评估服务
数据服务作为高阶服务,是独立部署对接到华为云Stack进行统一纳管的,主要包含ModelArts-AI开发平台(提供线上的代码开发到模型训练与发布的一站式平台)、MRS-MapReduce服务(大数据平台,基于开源Hadoop进行二次开发的产品,物理部署软件叫做FusionInsight)、DGC数据治理中心、DWS数据仓库服务(GaussDB for OLAP)
(4)管理域:主要包含有运营和运维两个层面,其中运营层面是面向于业务系统的,运维层面是面向于运维人员的。
运营层面:主要是面向于业务系统,业务系统的管理人员,比如说开发部门的经理,会根据需求创建相关的账号进行资源的分配。所以运营层面更多涉及的是怎么使用资源。主要的功能包括租户管理,租户管理可以理解为用户在运营账号下创建子账号分配给相关的最终用户使用,对标到华为云可以理解为是IAM账号。组织管理一般是针对于大型公司进行使用的,比如公司的总账号可以创建不同的部门,用于细节化的管理使用。用户可以给组织和租户不同的权限,在华为云Stack中对于权限的管理主要分为了权限、角色、用户、用户组四个部分。
权限——>角色——>用户组<——用户
权限分配给角色,角色绑定给用户组,用户组就可以继承角色的权限,用户加入用户组,就可以获取用户组的权限,从而进行正常的使用。
流程审批:主要是针对于两个场景,分别是最终用户使用的资源超限和最终用户使用的资源数量超限,比如用户默认可以使用100个ECS弹性云服务器,超过100个就需要进行申请。或者是用户最多可以创建的ECS可选vCPU最大为48核,如果单个ECS核心数超过48核,则使用时需要进行申请。
统一认证:一般应用在多region场景下的,用户登录不同的IDC的华为云Stack的分枝,可以使用相同的账号,一个账号创建之后在所有站点都是通用的。在HCIE云计算3.0的实验中,用户就是通过多VDC接入的,考试场景下包含有一个总部站点和3个分枝站点VDC(virtal Data center),考试时用户只需要在运营平台上创建用户之后,就可以在所有的站点中直接进行登录。
云服务管理:主要涉及到云服务的上线、下线、资源管理等相关的业务,比如高阶服务在华为云Stack初始化部署的时候并没有安装,后期需要进行扩展的时候,就可以通过云服务管理进行上线。
经营优化:经营优化主要是面向于资产管理部门,管理员可以通过经营优化的界面查看到相关的资源使用情况和资源利用率等信息,进行业务调整,比如管理员发现当前的资源利用率比较高,可以选择超分资源,先满足参数需求,然后后续再去进行资源扩展。
运维层面主要是保证华为云Stack的正常运行进行管理的服务,主要包含有报表,比如运行情况、故障告警统计以及相关的信息记录和总结。监控主要是针对于当前系统的整体性能进行监控管理。告警主要是针对系统中存在的问题进行提示,主要包含有提示、警告、重要、紧急四个级别。性能主要是针对于当前华为云Stack的基础设施层进行监控,显示当前资源的整体分配、利用率等信息,最终是日志,所有华为云Stack的服务的日志都会通过日志服务进行显示、存储、持久化。
(5)展示层:展示层主要是提供了可视化界面对底层服务进行使用,展示层的核心主要是控制台,用户或者是租户可以通过控制台进行资源的分配和使用以及相关的管理(创建、删除……)主要包含云服务器控制台、网络控制台、存储控制台、高阶服务控制台(OBS、DB、BigData、AI、Security)
除了服务使用的控制台之外,对于系统管理员和业务经理来说,在使用和维护的层面就会接触到OC和SC,即运营平台和运维平台。
华为云Stack逻辑部署架构
- 底座:华为云Stack的底座主要提供的是整体架构,所有的上层服务,不论是业务还是管理都需要依赖于底座才能有正常的服务。
-
- FSM(Fusion Storage Manager):华为分布式存储管理,管理功能主要是针对于分布式存储进行相关的控制与维护,分布式存储的业务主要是提供的存储空间。
- OceanStor Pacific:物理存储的管理进程
- FusionSphere openStack:本质的华为云Stack的技术底座,可以理解为是华为云Stack的框架
- Service OM:提供对于全平台的管理,可以理解为是底层和上层管理区的沟通进程,所有上层的管理命令和业务使用的相关沟通,都需要通过Service OM进行在转发
- 业务区
-
- 管理下沉区:DGC数据网关控制进程,主要是关于AI相关的数据上传和数据转发的进程。比如在AI里面,用户使用DaaS相关的服务,需要涉及到数据从外部转发到华为云Stack的内部,在这个过程中,就需要通过DGC进行从外到内的数据转发。 ModelArts是华为的AI开发一站式平台,用户通过 DGC发送的数据一般就会传递到ModelArts中。需要注意的是管理下沉区是包含了可信和不可信两个区域的,可信指的是用户传递的数据是属于完全可信任的,不会出现不安全的情况。半可信区主要指的是用户上传的数据具有不可信的情况,但是这种情况是极少数的。主要涉及的服务有ISAP和DevCloud服务,主要是满足用户的开发需求的,Devcloud和ISAP是用户开发一站式平台。用户可以使用这两个服务做一站式开发同时将所有代码完全托管给华为云,从代码开发到业务上线下线的全生命周期管理。
管理下沉指的是这两个服务,即AI开发框架和敏捷开发框架并不是安装在华为云Stack上的,他们是独立部署安装的,然后对接到华为云Stack中的,所以华为云Stack对于这两个业务的管理实际上是通过API接口下发到对应服务的管理平台的。也就可以理解为这两个服务做了管理托管。
-
- 计算区:计算区主要是做计算类相关的业务提供的。比如ECS和BMS,计算区最主要的两个服务就是KVM-AZ和BMS-AZ。这两种服务本质上就是云服务多种类型的底层,不论什么计算服务最终都是由这两种模式所提供的。
补充:
region:区域一般指的是具有距离性的两个或多个地域概念,比如北京区和上海区
AZ:可用区一般指的是Region区域下的不同的物理机房
VDC:虚拟数据中心,可以简单的理解为是AZ
-
- 网络区:网络区主要提供的是网络服务,实际上可以理解为是Openstack的网络服务的虚拟化,或者是可以理解为OVS服务(Open Virtal Switch),用户在VPC层面主要是通过逻辑网络进行隔离的,本质上并没有使用到物理交换机网络,当用户需要和底层或外部进行沟通的时候,这个时候就需要通过BR/vRouter进行实现,还需要依赖于物理网络搭建vxlan实现。
- 存储区:存储区的构成主要由两个部分构成,一个是物理存储提供的业务访问接口,用于上层的云服务使用底层的存储空间(oceanStor Pacific),另外一个就是OBSv3,OBS提供的是对象存储服务Object Storage,主要面向的是大规模的大数据存储或数据湖存储或数据治理相关服务使用。我们可以简单的理解为云硬盘服务、文件共享服务使用的是OceanStor Pacific提供的资源,而大数据相关的存储都是用的是OBS的存储。需要注意的一个问题就是OceanStor本质上是物理存储设备,也不是HCS搭建的,HCS做的是对接和托管,OBS同理。目前OBS有两种部署方式,一种是通过分布式存储的部署实现。另外一种就是通过华为OceanStor 9000系列产品安装部署。
- 管理区
- 公共服务:公共服务并不是用户使用的服务,而是针对于进程之间的服务,在计算机的系统中,一般会有人机服务和机机服务两个类型,人机服务主要是面向于用户的,机机服务主要是设备与设备之间或者是进程和进程之间进行通信和管理的服务,公共服务指的就是后者。
公共服务主要由以下几个服务构成
NTP:Network Time Protocol网络时间服务,在HCS中会有一个也仅有一个NTP时钟服务器,HCS的所有底层设备和上层进程都需要和该NTP时钟进行时间同步。
DNS:Domain Name Service域名解析服务,主要是用于内部所有的设备进行沟通使用,需要注意的是现在常用的框架比如Hadoop、OpenStack等等,他们都是使用主机名进行通信的,所以为了能够满足主机名通信的需求,我们就必须要在全局部署一个DNS域名解析服务器,将所有的主机名解析成IP地址进行通信。
HAproxy:高可用性代理服务,主要是满足底层框架的高安全性的,一般是做管理进程保证的。比如说某一个主要的控制进程,如果是单机服务一旦这个控制进程出现问题,那么就会导致全部系统的业务停摆,所以为了保证业务的正常运行,一般情况下都会选择进行主备进程部署,保证在主进程出现问题的情况下,备进程可以实时切换。那么主备之间如何监测对方是否存活?这时候就需要HAProxy进行控制。
APIG:API Gateway,所有的底层应用进行消息互通,都是通过APIG进行实现的。
DMK:运营商云常用的相关云服务,主要是对接第三方接口和平台进行使用。
-
- 跨云管理服务:跨云管理服务主要用于混合云或者是多区域云使用,比如用户有公有云服务和私有云服务,或者是用户有多个私有云站点的时候进行使用的。
CloudConnect:云连接服务,主要提供的是云对等连接,可以在逻辑上将多个站点的云进行连接使用。
CSDR:云容灾服务,主要是做云架构的主备容灾使用,一般是使用在3DC(两地三中心)场景下。
CSHA:云高可用服务,主要是做站点内部的安全性服务的。也是使用在3DC场景下的。
补充:3DC,即两地三中心,作为高安全性保证的解决方案进行使用,两地指的是本地和异地,三中心指的就是本地主站点,本地备站点,异地灾备站点。一般情况下,本地主站点和本地备站点使用的服务就是CSHA,本地站点和异地站点之间使用的就是CSDR服务。根据不同的实现方式就会有3DC串联和3DC并联两个解决方案。
-
- 运维远程接入:主要是用于从公网外部接入到HCS内部使用的,接入的管理员有两种情况,一种是HCS的管理员,另一种就是购买了华为专家服务的相关HCS框架,通过ServiceOM接入到华为的运维中心。远程接入主要有两类功能,一个是满足接入,另一个就是保证安全。
- 服务:分为了基础服务和高阶服务。主要是提供用户使用的相关服务。
- 运营运维服务:运营运维服务主要是用户进行管理HCS使用的框架。主要包含了以下相关服务:
ManageOne:HCS中最重要的管理平台,目前所有关于HCS的管控基本都是通过ManageOne实现的。
AutoOps:自动化运维服务,用户对于系统的升级、补丁、自动化的相关的一些操作,比如业务下发等等都是通过自动化运维实现的。
LogCenter:日志中心,HCS所有的相关日志都会被采集和存储到LogCenter中
VAPP:虚拟应用 (Virtual Application),虚拟应用是指运行在VDC中的一组VM的统称,属于特定vApp的VM之间存在特定的依赖关系,vApp从VDC上可以保证vApp内的VM在启动和停止时满足设定的顺序和时间要求。
统一门户:不论用户有多少个Region或者是AZ,接入HCS的接口都是只有一个的。
esight:主要是做网络设备管理的控制平台,主要管理路由器、交换机、防火墙、AP和AC等设备,也就是说使用华为数通产品的设备基本上都可以通过esight进行管理,或者准确的说是使用华为VRP系统的,都可以通过esight进行管理。
FusionCare:健康巡检工具,IT系统检查和巡检工具,包括但不限于华为服务器产品和华为存储产品。
扩展:一般来说选择购买HCS产品的用户,尤其是政府和事业单位,才选择安装esight和FusionCare之外,还会选择购买一个产品叫做FusionCenter,FusionCenter主要是面向于资产管理,包括底层开局相关进行使用。而且FusionCenter支持对异构和其他产品服务器进行统一纳管,也就是说华为FusionCenter除了支持华为自身的全系列IT产品之外还支持主流的厂家的各种异构产品的托管,包括但不限于浪潮、曙光、Dell、EMC、HP。
混合云市场:一般是面向于混合云场景和运营商云场景,主要提供的是定制化的一些产品规格。
IAAS-V:主要是异构云托管和接入使用,假设用户有多个私有云,那么通过IAAS-V可以将其他云的资源托管到华为云进行使用。
两级云:两级云一般是应用在特殊场景下的,比如化石行业,一般用于多个HCS对接使用,比如说石油行业,在不同的地域有不同的云,尤其是管理云和生产云之间进行对接,一般就会选择有两级云进行配置。
ConsoleFrameWork:提供标准接口,用于三方对接使用
CloudNetDebug:云网络排障工具,一般用于私有云网络出现问题时,进行自动化排障使用的。
CloudScopeLite:该工具有两个功能,一个是文档中心,一个是云健康评分。
-
- DMZ区:服务器区,主要提供的是外部接入的相关的服务,更明确的说,就是保障最终用户使用的时候,更加顺畅。
LVS:当有多用户接入的时候,LVS可以自动的选择当前集群负载压力最小的节点提供服务。
Nginx:主要功能就是做负载均衡
PODLB:POD Load Balance节点负载均衡
华为云Stack云服务架构
- 芯片:X86芯片(Intel)、鲲鹏CPU、Assend(昇腾AI计算卡)、GPU(一般指的是Nvidia显卡)
- 基础设施:
- 计算:海光、飞腾、Atlas(Atlas200计算卡、Atlas800服务器)、Nvidia产品
- 存储:华为分布式存储OceanStor Pacific、OceanStor统一存储(5300v5/5500v5/6800v5)、OceanStor Dorado系列产品(全闪存)
- 网络:CloudEngine云引擎,主要提供网络服务
- 基础服务:
- 计算:ECS弹性云服务器、BMS裸金属服务器、IMS镜像服务、AS弹性伸缩服务
- 存储:EVS云硬盘服务-块存储、SFS文件存储服务-文件存储、OBS对象存储服务
- 网络:VPC虚拟私有云、ACL访问控制列表、EIP弹性公网IP、SG安全组、L2BR二层桥路由服务、L3GW三层网关服务、VPC Endpoint终端节点、VPN、NAT Gateway地址转换网关、Direct Connect直接连接服务、CC云连接服务、ELB弹性负载均衡、DNS地址解析服务
- 容器服务
CCE云容器引擎、SWR容器镜像服务、ASM应用服务网格、MCP多云容器平台
- 灾备服务:CSDR云容灾服务、CSHA云高可靠性服务、VBS云硬盘备份、VHA虚拟高可靠性服务
- 安全服务:HSS主机安全服务、WAF网页安全防火墙、CFW云防火墙、
- IoT服务:设备接入服务、路网服务
- 数据库服务:DRS数据复制服务、DDS文档数据库服务、RDS云数据库服务、GaussDB高斯数据库服务
- 云运维服务:监控、告警、容量管理、应用分析(SaaS)、资源分析、运维自动化、运维可视化、消息通知服务、拓扑管理。
- 云运营:OCC云运营中心、租户管理(IAM)、用户管理、应用管理、服务管理、资源管理、订单管理、多级VDC、计量计费、
- 混合云和多云管理(云连接、云运维、云托管)
华为云stack的优势
- 一云多芯,多元算力:华为云是支持云上运营多种架构的CPU的。华为云stack目前支持x86系列的CPU、鲲鹏系列CPU以及裸金属相关的资源提供。用户可以通过配置一套云系统,搭载多种CPU进行服务提供
- 高适应性网络:华为基于开源Openstack的Nertorn服务进行了二次开发,同时引入了SDN网络进行网络的相关配置,尤其是涉及到自动化配置,在部署和维护上Openstack复杂的底层网络可以通过华为云stack平台的托管,在管理上有更加具有优势的运维能力。
- 全栈国密三级:在国内目前的信息安全领域中,对于国密算法的支持实际上是比较重要的,尤其涉及到政府、网安相关的部门。目前国内的加密算法SM 1——SM9,祖冲之算法等,华为云Stack可以支持到国密3级以上的算法(一般是指软件产品支持SM2和SM3算法)。
- 资源融合、灵活调配:华为云Stack对于底层的资源并没有非常高的设备型号要求,HCS支持华为自身的产品进行搭建,同时也支持使用三方设备进行配置,目前国内支持的比较好的产品包括但不限于服务器:清华紫光、宝德、浪潮;存储:EMC、IBM、Dell;网络设备:华三、锐捷。防火墙产品需要注意,搭建HCS只能使用华为的产品,而且要在USG6350E以上。
- 华为云Stack支持对接其他的异构云,用户可以自行进行相关的配置对接,保证资源使用过程中,不会出现跨平台的无法对接情况出现。
- 在硬件设备层面,HCS可以选择搭载鲲鹏CPU的相关设备(支持全鲲鹏CPU设备进行部署)、计算资源支持飞腾服务器(全国产ARM架构CPU的服务器产品)和海光服务器(全国产X86架构CPU的服务器产品),但是需要注意的是,HCS分为了控制节点、网络节点、计算节点,只有计算节点支持异构,控制和网络只能用华为服务器。
- 华为云Stack网络互通、目前HCS支持云内和云外网路互通的,云内的网络互通是通过VXLAN实现的。云内外互通是通过EIP(弹性公网IP)实现的,私有云互通是通过云连接或者是VPN实现的。
- 在HCS中,由于本身HCS底层的Openstack其网络服务进程是比较复杂的,尤其是涉及到DC中VXLAN和网络架构设计的不同,会导致最终的维护非常复杂,所以HCS设计了CloudNetDebug云网络运维产品。
对于CloudNetDebug来说,核心的控制进程是BackEnd,其负责了对于网络所有的管理以及运维能力。在BackEnd中包含的进程如下:
- Redis:在HCS中实际上是内置了主备Redis进行核心数据的记录,网络排查中的所有的相关操作以及配置等信息全部都被缓存在了Redis中。
- 拨测抓包工具:由于HCS大量的相关流量是很难被抓包出来的,另外进行相关的ping测试是比较困难的,传统情况下,用户需要登录不同的设备进行相关的操作,这就会导致故障排查需要大量的时间,通过拨测工具包可以直接一键进行下发,快速定位问题点。但是需要注意该工具是Server,也就是其下发指令,具体的执行需要对应的设备在进行执行之后进行反馈。
- HawkEye(鹰眼):实际上该工具就是CloudNetDebug的核心,所有的相关信息采集和信息分析都是由鹰眼工具做的
- HkeController:HKE控制进程,所有相关的任务都是由拨测工具下发,指令到达Controller之后,Controller是具体的命令下发和管理者,所以我们可以简单理解拨测工具只是一个简单的可视化界面。
- HkeAnalyzer:HKE分析器,所有拨测返回的信息都是由Agent反馈给分析器进行处理,由分析器最终得到故障定位的。
- Agent:代理端,实际拨测动作的最终执行者,其安装在设备的底层。
- Neutron:OpenStack的网络管理服务,最终HCS所有的相关网络服务还是无法脱离Neutron的,所以拨测抓包工具需要和Neutron进行信息查询,了解当前的网络架构和信息。
- GaussDB:持久化的信息存储和信息查询都是在GaussDB进行存储的,包括配置信息等。
流程:
- 用户通过拨测抓包工具的web配置界面,进行任务提交
- 拨测工具会联系Neutron进行当前网络的信息查询
- 查询到相关的信息之后,对应的网络节点和网络服务的配置会在Redis和GaussDB之间进行存储和查询。
- 拨测工具查询到对应的配置和参数之后,会下发请求到达Controller进程,要求Controller进行动作执行
- Controller收到请求,会发送RPC指令到Agent代理端进行命令执行。执行完成之后,结果会发送到HKEAnalyzer
- Analyzer收到Agent反馈的信息之后,会进行分析,找到相关的问题点,然后反馈给Controller
- Controller收到信息之后,反馈给拨测工具,最终在web界面上进行展示。
全场景全地域灾备:
在HCS的设计中,目前如果用户选择是全私有化部署,那么可以支持3DC,如果用户是混合云场景,还支持多云灾备。
RPO:恢复时间点,从故障发生后,业务恢复的数据时间点
RTO:恢复时间,从业务故障到业务上线的时间消耗
云容灾目前比较常用的有双活和主备两种形式,用户需要根据业务的实际情况进行选择。一般情况下,如果用户的业务是以容器化为主的,那么可以推荐使用双活引擎进行业务的安全保障,如果用户的业务还是以ECS为主,那么一般是建议选择HA。
等保制度
信息安全等级保护制度
用最简单的话,等保就是保护用户系统的数据安全和信息安全的一种方法论,里面包含了相关的方案、制度、策略、执行流程
等保的目标
降低信息安全风险,提高信息系统的安全防护能力;
满足国家相关法律法规和制度的要求;
满足相关主管单位和行业要求;
合理地规避或降低风险。
等保流程:
- 系统定级:需要做等保的单位会联系具有相关资质的单位或公司进行系统定级(1-5级),定级之后相关公司会出具定级报告。
- 系统备案:做等保的单位需要去联系当地公安局的网安部门进行等保申请,填写备案表,并且提交材料审查
- 建议整改:根据材料审核结果,依据国家等保标准进行整改操作,直到满足需求。
- 等级评测:由相关等保资质公司进行评测和定级,出具合格报告,获得等保备案证
- 监督检查:持续优化,二级系统2年检查一次,三级系统1年检查一次,4级系统半年检查一次,5级系统国家未规定(实际等于实时监控)
ManageOne架构
ManageOne是HCS的管理平台,对于云的使用来说,是由统一门户提供的服务。也就是说用户在使用云的时候,是通过前端用户访问接口进入的,管理云的时候,是通过后端管理网进入的。两者的流量转发和流量的控制都不是在一个层面上的。
在HCIE的3.0版本的实验中,考生会有一道题目涉及到业务迁移,业务迁移基本流程就是
- 开启服务中心SC的用户权限(OC)
- 注册镜像(SC)
- 使用rainbow进行业务纳管
- 创建迁移后的目标ECS(统一门户)
- Rainbow进行业务迁移验证
- 开始迁移
- 迁移完成的业务验证(统一门户)
ManageOne由以下几个部分构成:
- OC运维中心:主要负责云的底层框架的维护,保证云底层不会出现故障,当出现故障的时候,OC要进行检查和排障,如果没有出问题,OC要做好监控和巡检。
- 告警管理:负责采集HCS中所有的组件和硬件的报错,根据严重程度,分为警告、一般、重要、紧急四个级别
- 资源管理:主要负责检测资源的使用情况,尤其是底层服务器的资源使用情况,包括做好资源的分配,比如哪些服务器提供ECS服务,哪些服务器提供BMS服务。
- 拓扑管理:根据HCS的组建情况,生成一个基于Flash的逻辑拓扑图,该图可以显示出设备的连接情况。
- 性能监控:监控全局所有设备的资源使用状态,这里的资源指的是CPU、内存、网络和硬盘四种资源。可以实现硬件资源使用率排名。
- 业务拨测:同网络拨测
- 智能运维:AutoOps
- 日志采集:支持采集全局系统和硬件设备的日志信息,并且支持输出(主要面向的是大数据分析系统)
- 自动作业:就是一个工作流管理系统,用户自定义好工作流如何执行,以及触发条件,当条件满足的时候,系统会手动或自动的运行工作流,执行相关工作。比如扩容。
- SC服务中心
- 租户管理:主要是生成用户的,这里的租户面向的是通过统一门户使用云资源的用户。而站在使用云资源的用户的角度下,租户可以理解为是用户名下的子用户。管理主要涉及的就是创建、删除、修改、权限分配……
- 组织管理:主要是面向于公司或部门的,比如某公司的私有云,可以为不同的部门创建组织,组织之间的资源是不会共享的,同样不能跨组织查看。这样做可以保证资源隔离,不会互相干扰和抢占资源
- 项目管理:一般是一个部门中的不同项目使用的资源的管理。比如技术部有A产品和B产品的开发项目,那么部门的leader就可以创建两个项目,将两个项目的负责员工拉入到项目中,员工只能看到自己归属的项目的资源,这样做就可以保证资源的安全性和隐秘性,不会出现员工跨部门泄密的情况出现,另外不同项目之间的资源也是完全隔离的。但是在leader的视角,就可以访问所有的项目
- 资源管理:资源管理主要是HCS的业务层面可以提供的资源配置,管理员可以在SC上设置服务可以提供的资源的清单,比如ECS的类型、规格、配置。同时资源管理还负责资源上架,比如新增服务器之后,需要资源管理将物理资源加入到资源池,资源下线也是同理
-
- 服务管理:HCS的服务内部的管理,主要包括服务上线、服务内容(比如IMS的镜像)、服务下线……全生命周期的管理
- 配额管理:主要管理的是资源的使用量,为了防止用户无限量的使用资源。对于资源的控制主要集中在几个层面,比如用户可以创建的资源数量,比如用户最多创建50台ECS、还可以控制用户创建的资源规格,比如内存最大可以选择128GB。
- 配额管理是需要遵循配额树quota tree的。所谓说配额树,指的就是用户所拥有的配额,是继承给租户或者说是子用户的。比如某用户有权限创建200台ECS服务器,那么该用户的子用户所创建的ECS数量的和就不能超过200,
- 应用管理:主要管理的是DaaS和SaaS以及扩展服务(OBS、BigData)
- 服务目录
-
- 订单管理:针对于用户提交的订单进行处理的系统,一般来说都是由系统自动分配的,比如用户提交创建ECS的请求,订单到达订单管理之后,系统会自动进行资源分配,创建ECS,一般来说只有订单创建失败的时候,才会涉及到订单管理的检测,主要做故障排查和流程监控使用。
- 计量计价:计算费用,用户可以进行针对于不同的服务定价,主要按照时间(计算)、使用量(网络)、申请额度(存储);同时计量计价服务还有竞价管理,折扣管理
- OCC运营指挥中心
- 资源优化:系统可以分析当前资源的使用情况,根据系统使用状态给出优化建议,但是具体要不要执行优化,是由管理人员决定的。比如ECS的物理服务器资源使用率很高,但是BMS的资源池基本没有使用,系统就会建议进行调整优化
- 容量分析:主要针对的是存储资源,对接OceanStor Pacific检测底层存储空间的使用情况。
- 监控大屏:支持自定义显示当前系统的状态