嘉宾 | 文吉 整理人 | 巫柔颖
出品 | CSDN云原生
AIOps由Gartner于2016年提出,基于已有的运维数据(日志、监控信息、应用信息等),整合大数据和机器学习的能力,为IT运维管理产品提供支撑,进一步降低自动化运维中的人为干扰,最终实现运维无人化、自动化。
2022年8月30日,在CSDN云原生系列在线峰会第16期“AIOps峰会”上,用友畅捷通SRE负责人文吉分享了用友畅捷通是如何通过智能运维来提升稳定性保障的。文吉表示,“在线”成为时代的新本能,数智化是小微企业转型的必由之路,并从实际落地案例出发为大家提供建设新思路。
监控2.0到3.0
畅捷通成立于2010年,目前日活用户达45万,累计用户数超过690万,当前正在逐步从软件包模式向SaaS化模式转变。那么该如何保证稳定性快速落地并产生价值呢?
监控中心——认知和升级
从监控维度来看,监控中心的重要程度不言而喻,畅捷通在落地监控中心的过程中,发现了四个痛点问题。
• 业务模式从传统的软件包转变为 SaaS,用户体验要求越来越高。
• 监控指标越来越多,一个故障事件会引发大量告警,干扰元素杂乱。
• 如何把SRE经验沉淀到平台中,实现无脑值班模式。
• 如何落地 2 (及时告警)-5(初步定位)-10(快速止损)。
监控中心(打基础)——监控指标体系的建立和应用的自动化关联
监控中心若想实现“及时告警-初步定位-快速止损”,首先要打好基础。
• “有”,即保证监控的有效性。目前我们通过混沌工程对监控系统进行打磨,使用应用自检机制对其进行校验。
• “全”,即保证在出现问题时监控指标的完整性。以现有业务为例,当新项目出现时,首先需要对其进行等级评定,并计算监控指标的覆盖率,通过分数量化模式,逐步推进生命周期。
• “级”,即对报警进行分级。不同的异常会带来不同的影响,如底层数据库的Redis抖动可能会带来血本效应,因此报警级别需要区分,这也为智能分析打下了坚实基础。
• “联”,即关联。监控指标要在保证监控自身业务的同时,保证监控第三方依赖没有问题产生。
• “闭”,即闭环打造。通过异常识别、生命周期进行管理,使落地实践能够可持续性进行。

监控中心(做平台)——告警平台(事件中心)
搭建监控平台最核心的点在算法模型和机器人。算法模型是通过数据标签对数据进行整合,对算法进行有效提炼。问题出现后,机器人能够实现快速响应、定位及治愈。

根因分析——应用排障树
对应用运维专家的排障经验进行沉淀与智能化后,通过智能机器人进行交互式触发,运维人员无需直接面对原始数据,由机器人代替人工完成根因分析速查,从而加速根因分析的过程。由于大部分告警通知具有极大的相似度,使用应用排障树能够使大部分问题得到妥善解决。

整个监控中心的落地还需要进行平台化的打造及系统化的建设。下图是我们监控中心的总览图,其中右上角的渤海平台是重点打造的数据加工分析整合平台,只有对数据进行有效分析并切割,才能让其产生更大的价值。

云架构下的智能运维场景
用户画像——用户体验打分
在用户体验打分方面,采用基于随机森林和离群点检测算法,对加工后的用户访问日志进行建模分析。算法将综合近一段时间用户的综合表现,给出当天的用户体验打分,并支持自动进行同环比对比,如果同环比分数差距过大则会自动提醒运维人员关注。
下图为用户画像(打分)系统的实际页面概览,分别包含整体的用户画像分析、整个域名的性能打分和单个用户的性能打分。
在对用户体验的分析过程中,我们也打造了很多可观测性平台,将用户体验量化后可以清晰的看出那些用户性能异常,便于进一步挖掘深层原因。
随后可以通过链路追踪对异常用户更详细的信息进行调查,对问题进行精确定位。
故障透析视图——多维快照
报警后触发多维字段分析,根据候选根因集的指标变化率和包含关系进行排序,定位异常根因集,给出引起报警的根源维度。
故障透析视图——调用链快照
由于微服务架构的特性,真实的故障往往伴随大量微服务节点告警。调用链快照会在告警后触发,拉取近一段时间的数据绘制调用链拓扑,确定调用方向,根据故障传播图拓扑结构及权值信息计算节点的根因概率并排序。
日志模式识别及异常检测
传统日志异常检测需要对日志进行人工梳理、模板提取,只能检测历史出现过的异常。
而智能日志异常检测,能够实现自动提取日志的模板和变量,检测模板频率异常,自动分析变量分布。
智能异常检测可以检测不同日志异常类型,如新日志类别、日志数量异常、罕见日志等,无需人工再配置正则表达式,能够有效利用日志资源。

云实例风险巡检——定期反馈云资源健康状况
针对云资源使用不合理可能存在巨大风险的情况,云示例风险巡检通过支持多种云资源、内嵌多种风险检测的机制(如Redis大Key、实例资源闲置、实例性能负载等),从安全、性能、成本和稳定性四个方面,基于专家经验和数据见解给出云资源潜在的风险问题,让运维人员对云基础环境更具掌控力。
云实例风险巡检——案例
以“建议降配的云服务器”的巡检结果为例,巡检后会展示具体的降配原因、降配资源类型(CPU)以及近期CPU使用率的走势图等,方便运维人员确认。

展望
深化数据治理——一个长期的过程
数据治理是智能运维体系建设过程中必不可少的内容。智能运维是数据治理的“试金石”,也对数据治理提出更高要求。针对畅捷通的长久化数据治理方案,我们会按照“摸家底”、“建标准”和“促消费”三步走策略执行。
- “摸家底”——建立统一的数据“采、存、算、用”的基本能力,使具备数据资产管理能力。
- “借标准”——建立一站式的运维数据平台,制定数据标准及配套的流程。
- “促消费”——以数据消费反向提升数据治理能力,将数据沉淀为知识,形成运维知识图谱。
变更风险检测——防患于未然
在运维领域中,绝大多数故障都是由变更引起的,上到应用下到基础资源甚至是人员的变化,稍有不慎都可能会导致不好的结果。在计划的变更风险识别方案中,我们会从两个方面进行持续推动,做到防范于未然。
• 持续推进变更信息留存标准化。
• 结合专家经验,持续优化巡检算法。
本篇文章整理来自@ 巫柔颖,由CSDN修订完成 。