三、华为云Stack产品组件
- FunsionSphere CPS
提供云平台的基础管理和业务资源(包括计算资源和存储资源)。采用物理服务器方式部署在管理节点。可以做集群的配置,扩容和运维管理。
- Service OM
提供云服务的运维能力,采用虚拟化方式部署在管理节点。可以做资源管理。
- FusionCare
作为健康检查和信息收集的运维工具。健康检查提供一键式检查相关节点健康状态的能力,并生成健康检查报告。信息收集 提供快速收集日志的能力,简化运维人员的信息收集工作,方便故障定位。还可以做高阶服务的测试。
- CloudNetDebug
面向运维人员的,针对Neutron+组网的虚拟网络领域的自动化并行抓包工具。可以做断流检测,无法做丢包检测。
- eSight
提供服务器、存储设备和网络设备的统一管理。可以做硬件检测。
- LVS
Linux服务器集群系统,为混合云公共服务提供一级负载均衡。
- Nginx
为云服务Console页面提供反向代理,实现业务和数据在各个Console节点的负载均衡,达到流量分发的目的。云服务的请求会通过LVS下发,转发到 Nginx,Nginx把相应云服务的请求转发到云服务 Console。
- HAProxy
对云服务提供从Console节点到Service节点的负载均衡。云服务请求由Console下发到HAProxy, HAProxy根据相应的请求转发到对应云服务的Service节点。
1.FusionSphere OpenStack方案介绍
FusionSphere是华为面向多行业客户推出的云操作系统解决方案。FusionSphere基于开放的OpenStack架构,并针对企业云计算数据中心场景进行设计和优化,提供了强大的虚拟化功能和资源池管理能力、丰富的云基础服务组件和工具、开放标准化的API接口。可以帮助客户水平者恒数据中心物理和虚拟资源,垂直优化业务平台。
特点:
- **开放性:**FusionSphere基于Mitaka版本的OpenStack构建,消除了厂商锁定,实现了计算、存储、网络等方面的开放性。同时提供标准的OpenStack API接口,方便与第三方厂商产品进行对接和集成。
- **灵活性:**FusionSphere采用SOA(Service Oriented Architecture)服务化架构,以方便根据用户需求进行功能的扩展和裁剪。
- **高可靠:**管理服务均以主备或负荷分担模式部署,以消除单点故障;管理数据采用主备方式存储,并定期备份,以确保数据可靠性;将物理网络划分为多个逻辑平面,并采用VLAN方式进行隔离,以保证数据传输的可靠性和安全性。
**CBS:**云启动服务,在OpenStack部署阶段安装操作系统(UVP = EulerOS + KVM),没有操作界面。
**CPS:**云发放服务,通过PXE服务帮助每一个节点安装OpenStack组件。
2.FusionSphere CPS介绍
Cloud Provisioning Service(CPS)负责IaaS的云平台层的部署和升级,是IaaS层中真正面向硬件设备,并将其池化软件化的部件。从外部看,CPS的作用就是完成IaaS层的各种部署、配置、升级。
- **部署:**软件按照置顶版本安装,装在指定的位置,实例数复合语气,服务的IP符合规划。
- **配置:**软件按指定的配置项,并满足软件对OS及硬件的依赖(rabbitmq/kafka的磁盘分区,小型化场景的资源隔离等)。
- **升级:**灰度升级到指定版本。
同libvirt/nova的关系类似,UVP、LVM等软件提供单机的能力,CPS封装后提供跨主机的软件管理和配置能力。
2.1 CPS的功能
CPS的功能分为两类,一类是同底层的工具强相关的,另一类更多是编排和管理。
2.2 CPS部署模式
CPS产品为C/S架构,CPS Server组件部署在控制节点上,运行模式为一主两备,用于接收来自CPS Web Portal或CLI的消息。
CPS Client组件部署在所有节点,每个节点都为主用,用于接收来自CPS Server的消息,并把消息生效到节点里
2.3 CPS界面
CPS的登录地址可在暗转阶段使用自动化安装工具HCSD到处表里获取,由于CPS权限过高,随意操作参数可能导致上层业务问题,所以CPS系统默认只有一个admin用户,且同时只有一个用户可以登录。华为Stack安装完毕,会自动配置单点登录SSO功能,通过运维中心账号可登录CPS,如果手动取消了SSO,便可使用CPS自身的admin密码进行登录。
3.Service OM介绍
Service OM是资源池(计算、存储、网络)以及基础云服务(ECS、EVS、VPC等)的管理工具,管理员使用Service OM对资源池及基础云服务进行管控和配置。
OM的功能
1.流量监控
主页可以对主机状态、虚拟机状态、磁盘状态进行监控,及资源的使用情况进行监控。
2.系统管理
例如进行对接、查看日志、分配任务等操作。
3.资源管理
管理所有的软硬件资源。
4.资源审计
对资源池内的所有资源进行审计。
4.ManageOne服务中心介绍
服务中心(Service Center)是ManageOne面向租户和运营管理的入口,提供云服务的运营集成能力,支持多种云服务集成到ManageOne。通过Console Home集成各云服务Console,为用户提供统一的云服务使用界面入口。通过服务编排将各个云服务能力编排成适合用户申请的云服务,并在服务目录中进行统一展示。
服务中心是对企业IT架构及IT运营模式的重构,将企业IT服务从被动服务变成主动服务和自动服务。
-
服务供给侧改革,使得IT管理员彻底从繁杂、重复的配置工作中解脱出来,将主要精力聚焦于为业务提供高效率、高质量的服务上来。
-
服务消费侧运营流程建设,业务人员自助在线订阅服务,让业务部门真是体会到云带来的效率提升。
4.1 ManageOne服务中心逻辑架构
4.2 ManageOne服务中心部署组件逻辑图
4.3 ManageOne服务中心界面
服务中心的登录地址可在安装阶段使用自动化安装公开HCSD到处表里获取,默认系统会创建bss_admin运营管理员账号,管理员课通过bss_admin登录界面创建其他运营管理员账号,或创建VDC管理员。
用户通过运营管理员和VDC管理员登录服务中心界面会有差异。
- 运营管理员登录服务中心显示的主页
- VDC管理员登录服务中心显示的主页
运营管理员登录服务中心显示的主页有首页、服务、资源、组织、报表、系统;VDC管理员登录服务中心显示的主页有首页、资源、应用、报表、系统。
5.ManageOne运维中心介绍
运维中心Operation Center是ManageOne运维管理的唯一入口,提供云服务运维管理的能力,实现对云服务端到端的监控能力,包括云服务自身、租户资源和云服务所依赖的基础设施(计算、存储、网络)。运维中心收集并展示上述监控对象的告警信息,同时基于这些监控和告警数据提供报表、大屏以及高级运维数据分析能力。同时运维中心也提供各云服务运维系统的集成能力,将多个云服务的常用配置集成进来,实现运维统一入口。
5.1 ManageOne运维逻辑架构
5.2 ManageOne运维中心部署组件逻辑图
5.3 ManageOne运维中心界面
运维中心的登录地址可在安装阶段使用自动化安装工具HCSD到处表里获取,默认系统会创建admin账号,管理员课通过admin登录界面创建管理员账号。华为Stack安装完毕,会自动配置单点登录SSO功能,通过运维中心账号课登录CPS、Service OM、FusionCare、CloudNetDebug等产品。
6.ManageOne运维指挥中心介绍
运维指挥中心(Operation Command Center)是华为混合云面向政企客户新推出的混合云大脑,宝珠客户构建成本、效率、风险、合规全方位的IT智慧运营分析决策体系,与ManageOne服务中心(SC)和运维中心(OC)三位一体协同联动,为客户提供“实时可视、联动指挥、智慧运营”的全场景平台解决方案。
6.1 ManageOne OOC逻辑架构
6.2 ManageOne OOC部署场景
1.中央集权IT
集团总部部署了SC、OC、OOC、CAC,由集团总部管理了所有的Region。
2.分散型IT
集团总部部署了OCC、CAC,其他分支结构部署了SC、HCS、OC。
3.联邦制IT
两级运维,各个分支机构运维自己的资源池,通过OCC进行整体把控。
6.3 ManageOne OCC部署架构
部署OCC需要十六台虚拟机,使用到微服务架构,有三个应用集群,OCC上的所有逻辑组件代码都部署在上面;两台OCCAR,用于提供Console框架;OCC_DN为数据节点,OCC_CN为协调节点,用于完成大数据的数据加工;SMP负责OCC相应微服务生命管理和服务治理。
6.4 四室联动协同IT数字化运营
指挥室:重大事件实时指挥决策。
值班室:日常值班事件跟踪,问题派发。
分析室:制作报表大屏呈现。
制作室:一站式的数据分析制作。
6.5 OCC开放的生态扩展架构
可以做插件化的数据源集成扩展、在线流程定义、五码化数据开发和可视化操作。
6.6 ManageOne OCC界面
7.CPS、Service OM与ManageOne的关系
Manage One是在Service OM尾项的更大的云管平台。
Manage One提供高级运维能力
- 面向数据中心的监控人员,提供扩产品的集中监控、问题定界和故障处理能力。
- 提供综合分析能力,支撑云系统管理人员的规划和设计工作。
- 作为华为云Stack公共运维能力的统一入口。
Service OM提供IaaS的基础运维能力
- 提供全量的资源/业务的运维能力(配置、操作、监控、故障处理、信息采集)。
- 提供IaaS的公共运维能力的统一入口。
CPS具备OpenStack层的基本运维能力
-
在CPS的基础上基线增强
-
云服务运维能力需要通过Agent机制建设
8.eSight产品介绍
eSight是ManageOne系统的组件,提供对云服务所依赖的基础设施的全方位监控,收集基础设施的告警、性能等监控数据,并汇聚上报至运维中心;同时支持通过北向接口SNMP、FTP、HTTPS协议与客户侧运营支撑系统OSS进行对接,也支持邮件、短信息等进行消息推送。
8.1 eSight产品架构
8.2 eSight产品功能
**资源管理:**分组式资源管理、简化设备管理复杂度。
**拓扑管理:**一体化拓扑管理,多方位信息呈现。
**告警监控:**7*24小时告警监控,做途径实时通知。
**性能监控:**主动性能监控,提前发现可能存在的问题。
**报表:**智能报表平台,辅助决策优化。
**网络诊断:**网络质量感知,面向业务体验的网络诊断。
**流量分析:**精细化网络流量分析,洞察网络流量构成。
**WLAN管理:**WLAN全生命周期管理,高效管理无线网络。
**服务器管理:**全方位服务器管理,保障服务器稳定运行。
**存储管理:**一体化存储网络,存储空间利用最大化。
**视频监控管理:**端到端视频监控管理,故障快速定位定界。
**GPON网络管理:**GPON网络监控和部署,助理全光园区便捷运维。
8.3 eSight产品界面
8.4 eSigth部署模式
eSight在华为云Stack方案中,主备模式部署运行在eSight-group01、eSight-group02管理虚拟机上。
eSight-group01、eSight-group02管理虚拟机运行在控制节点上,可以在Service OM里查看该虚拟机详细信息。
9.FusionSphere OpenStack、eSight与ManageOne的关系
- Service OM负责采集计算、存储、网络等软件资源池信息。比如告警、性能数据等等。
- eSight负责采集硬件(服务器、存储、交换机、路由器等)信息,比如告警、性能数据等等。
- Service OM和eSight同时将采集到的信息上报到ManageOne运维中心OC,并通过统一的界面对用户进行呈现。
10.FunsionCare工具介绍
FunsionCare提供健康检查和信息收集功能。健康检查部分能够一键式检查相关节点的健康状态,并生成健康检查报告;方便技术支持工程师和维护工程师快速了解系统的健康状况。信息收集部分能够使技术支持工程师和维护工程师快速收集日志,简化了技术支持工程师和维护工程师的信息收集工作,也方便华为研发人员定位故障。
10.1 FusionCare工具巡检实现原理
云服务巡检:各云服务向APIGateway注册巡检接口,从而通过FusionCare实现各云服务的统一巡检能力,致辞基础云平台、基础云服务和技术中台与AI数据中台服务。
底座巡检:FusionCare调用各底座产品自有的接口进行巡检。
10.2 FusionCare日志收集实现原理
FusionCare工具通过PAI平面调用OpenStack中Info-collection-server发送巡检请求信息,并通过OM平面接收各个节点Info-collect-client上传来的日志,因此需要同时与API及OM平面通信。
10.3 支持FusionCare工具巡检的服务
10.4 FusionCare工具界面
10.5 FusionCare部署模式
- FusionCare在华为云Stack方案中,单机模式部署,运行在PUB-SRV-03管理虚拟机上。
- PUB-RV-03管理虚拟机运行在控制节点上,可在Service OM里查看该虚拟机详细信息。
11.CloudNetDebug工具介绍
面向运维人员,实现界面自动化抓包和拨测的运维工具。CloudNetDebug集成了拨测和装包两个功能,用于处理数据中心内可能出现的各种网络问题,通过拨测功能可自动化检测业务网络是否出现断流,是否出现丢包,通过抓包功能可实现自动化抓包,支持基于业务流的多点协同抓包,支持灵活的单点虚拟机网卡抓包和主机网卡抓包。
11.1 CloudNetDebug工具架构
CloudNetDebug包括Server和Agent两部分
- Server部署在控制节点的一台虚拟机上,Server里部署了拨测/抓包Server,HawkEye Controller,HawkEye Analyzer和Redis组件。
- Agent部署在计算节点和网络节点。
11.2 拨测基本原理
①根据管理员输入的五元组,判断流量类型,识别流量的注入点,中间监测点和终结点,获取流量的源Mac和目的Mac地址。
②CloudNetDebug识别流量注入点所在的agent,在网关业务口或者计算节点ply网桥注入模拟报文,模拟报文带染色标记。
③报文注入后,虚拟网元(host,网关)在流量路径的中间监测点识别是否带有染色标记的流量进过,识别到流量后会吧流量统一复制之后发送到CloudNetDebug的server端。
④物理交换机收到染色报文后,匹配交换机的ACL规则,把染色报文镜像发送到远端的CloudNetDebug的server端。
⑤终结点的agent识别到染色报文,把报文统一复制一份到CloudNetDebug的server端,并且做流量的终结。
⑥CloudNetDebug的server端根据agent和交换机发过来的报文,做路径分析、丢包检测、时延检测,给出分析结果。
11.3 CloudNetDebug工具特性规格清单
11.4 CloudNetDebug工具适用场景
- 业务不通,网络断流问题
目标:判断流量断流的文职,定界是虚拟网络还是物理网络,断流发生在虚拟网络的那个网元。
**措施:**可以使用拨测工具和抓包工具,首先推荐使用拨测工具,如果拨测工具还未支持此业务场景,可以使用业务流抓包工具;如果业务流抓包工具还未支持此业务场景,可以使用灵活的虚拟机网卡抓包和主机网卡抓包来定界定位。
- 应用交互异常类问题
**目标:**查找应用交互异常的证据,为故障定位提供依据。
**措施:**通过虚拟机网卡抓包,选择一个抓包点记性双向抓包,通过wireshark分析应用交互报文,查找应用交互异常点,工具不支持业务交互类异常问题定位,但是可以为此类问题提供论证支持(排除其他网络类问题来说明是业务交互类问题)和问题依据(提供抓包文件支撑定位)。
- 网络时断时续,网络丢包问题
**目标:**定界发现丢包的位置,是虚拟网络还是物理网络,丢包发生在虚拟网络的哪个网元。
**措施:**可以使用拨测工具和抓包工具,首先推荐使用拨测工具,如果拨测工具还未支持此业务场景,可以使用业务流抓包工具;如果业务流抓包工具还未支持此业务场景,可以使用灵活的虚拟网卡抓包和主机网卡抓包来定界定位。
- 网络时断时续,网络时延大问题
**目标:**定界发现时延大的位置,时延大的问题发生在虚拟网络的哪个网元。
**措施:**未来拨测工具支持。
11.5 CloudNetDebug工具界面
11.6 CloudNetDebug部署模式
- CloudNetDebug在华为云Stack方案中,单机部署,运行在名为CloudNetDebug管理虚拟机上。
- CloudNetDebug管理虚拟机运行在控制节点上,可在Service OM里查看该虚拟机详细信息。