专题演讲人:擎创科技CTO 葛晓波
文末附有本场专题演讲视频
●前言
各行业的云原生发展程度各有不同,并不是所有业务应用都适合云原生的形态,如若过度追求云原生化反而会使得企业运维压力骤增,运维成本激增。
从数字化转型的角度结合自主可控要求,我们认为云原生化的本质应该是能够帮助企业更敏捷地应对业务变化、加速业务应用迭代,从而实现业务运营的更加高效。在云原生时代下,企业运维必须拥有数据思维,这样在面对敏稳两态、云上云下以及容器内外同步运行的局面时,才能更加主动、动态地去罗织、分析和处理数据,向历史数据要到答案,从未来数据中预见端倪。
一、无数据,不智能
从擎创过往7年的经验里总结,我们认为运维工作的核心是数据,而不是一味地、茫然地谋求算法更优化。只有数据规范化、标准化且具备准确性,才能为上层的消费场景提供有效价值,否则算法如何精妙,数据基础不稳,跑出来的结果也无法为企业运维乃至运营提供帮助。
擎创科技CTO 葛晓波
说归实际,本质上来讲运维的对象是软件、应用,对此而言无论是集中式、分布式亦或云原生,其实表象上是架构和技术在变化,但软件、应用的核心是不变的。很多企业发现到了云原生时代,运维变得更加难管,其原因并不是技术不行,而是因为最初的运维体系规划没有做好、规则没有定清等。
根据我们数年的实践总结,发现企业常会出现以下一些难题:
1.告警不精确
由于告警过多缺乏精度,导致很难厘清当下业务系统的工作状态,无法做到早于最终用户发现系统故障。
2.发现问题不及时
现有异常检测手段只能在故障发生前几分钟或十几分钟内发现问题,无法在业务调整完成后就快速发现端倪。
3.根因难找
应急处置后,没有合适的手段通过时间线重现故障、发现问题真正根因,因此同样问题可能反复出现。
4.排障经验难复用
缺乏知识库沉淀能力,无法有效保存和复用专家的排障经验。
上面的难题抛出来汇总后,还是落回数据本身,做好数据治理无可非议。我们希望数据治理的最终结果是能形成以运维对象为核心,能够全面关联日志、指标、告警、事件、调用链等数据的运维能力体系,实现全景可观测(如下图)。
企业一般想看到数据治理得当后,能够全面的被关联在一起,形成具有统一规范、统一标准的数据。也就是它能够与运维管理的对象(软件、应用等)相关联,运维管理的对象与对象之间也能相互关联,这样能够清晰快速的知道问题出现在哪里、为什么会出现以及如何快速处理,并在日后的运维工作中使这类故障都能够被提前预见、提前预防。
二、依托数据治理标准,建立运维体系
作为数智化转型的基础,需要建立一套涵盖数据收归、加工处理、存储分析、数据服务及使用等的全生命周期工具。要依据相应标准、规范和原则,对数据质量进行监测、改进及管理,并实现数据的安全定级、权限控制,同时使数据能够准确符合生命周期阶段,发挥应有的时效价值,以及准确地对外交付和输出数据价值。
说到标准、规范和原则,数据治理标准体系的有效落地就成为了关键。其实数据治理体系并不单单是针对数据本身,在依据国家、行业标准等定义好企业运维数据标准、管理标准、数据质量标准等同时,对于企业的组织架构、平台与工具的采用、流程与机制的设定等也应遵循一定的标准。
这样能够有效解决企业运维及运营的一些实际问题,比如下述两个例子:
01
“以平台工具规范为例,治理体系正式落地后,当下属部门想要采购新的告警工具时,首要考察的会是该工具产生的数据是否符合数据标准、能否被接入数据平台进行使用,如果不能则要求其调整数据格式或不予采购。在管理层面,将保证各部门不能仅仅因为工具好用就进行采购,进而避免因此出现工具数量激增、数据竖井化等问题。
02
“以数据生命周期规范为例,其实很多数据的信息密度很低但存放成本极高,假设某一监控工具A采集到的交易数据出现了十几分钟的延迟,那么这部分数据其实已经没有了时效性,但这部分数据依旧被存放了起来,这对于运维而言已经没有任何价值是极大的成本浪费。如果做好了数据治理体系,通过相关的数据质量及生命周期标准去管控,这部分数据就会被剔除,并会要求A工具进行优化,将数据采集和输出的时效性提高,以提升运维的整体效率。”
三、典型落地场景-全息监控
这里的全息监控,从本质上来讲就是通过对运维数据的综合治理后,构建一体化的监控平台,纳管应用及基础组件,再通过擎创自研的低代码工具组合,在运维中台上为不同的运维角色和团队展示各类运维数据,提供灵活不同的分析视角。比如从总览的视角查询单个应用状态,可以去详查它下面的拓扑、告警、日志等数据;从专业管理的视角想要做应用细分,可以通过查看交易码、返回码、交易码的组合,全面进行管理等等。
▲该场景已在某国有大行进行落地
这种全息监控,可以通过趋势和风险监测先于业务发现问题,能够通过动态阈值、指标偏离度分析、业务健康画像等手段,提供业务系统健康度的趋势分析和预测能力,发现系统运行隐患,在故障发生之前就提供预警通知能力,为事故处置预留时间,全方位提升企业运营的稳定性。
关于现场的更多细节,这里不多赘述,请在下方视频中进行了解~
基于运维数据治理的数智化转型
擎创科技,Gartner连续推荐的AIOps领域标杆供应商。公司致力于协助企业客户提升对运维数据的洞见能力,优化运维效率,充分体现科技运维对业务运营的影响力。
行业龙头客户的共同选择
了解更多运维干货与技术分享
可以右上角一键关注
我们是深耕智能运维领域近十年的
连续多年获Gartner推荐的AIOps标杆供应商
下期我们不见不散