“颠覆传统运维。”是OneAPM CEO 陈旭经常挂在嘴边的一句话。为什么说AIOps 将颠覆传统运维?如何才能把人工智能和运维管理相结合并落地?

20185月,OneAPM 推出了全新的AIOps 平台Intelligence Insight(简称I2)并正式启用aiops.com 域名作为企业级运维产品的官方网站。I2 是一个面向企业级IT 运维管理现状,将多年领先的ITOM 产品研发和实施经验与人工智能技术相结合,服务于IT 和业务部门的全新智能运维管理平台。陈旭相信I2 的发布将开启人工智能技术与传统运维碰撞颠覆的新时代。

以下是陈旭对AIOps 的一些见解和分享。

AIOps 这个话题近两年开始在运维圈子里面火了起来。一夜间传统和新兴的运维管理软件供应商,IT 运维系统开发商,大数据厂商,人工智能算法提供商,还有BAT,大家都在谈论这个话题。大有“谈运维不提AI (人工智能)就有些落伍”之势。有人认为AIOps 是一个运维数据集中存储和展示的平台,有人认为AIOps 是一个大数据分析平台,有人认为AIOps 是传统的一体化运维平台,也有不少运维大咖认为AIOps 不过就是IT运维领域一个新的炒作点。我却认为AIOps 是一场颠覆传统运维的盛筵。它更像是一只运维领域里面的灰犀牛,从远方奔腾而来,开始所有运维厂商都不觉得威胁很大,但是当它冲到近前,才发现势不可挡。读者可能认为这是在耸人听闻,请容我细细道来。

我们先来简单看一下AIOps 的概念。AIOps 是由Gartner 定义的ITOM (IT Operations ManagementIT 运维管理)新的领域。如下图所示,AIOps 利用大数据和机器学习技术,实现海量数据的异常检测和多维度关联分析,它将增强或部分取代ITOM 领域的三个重要能力,即监测,服务管理和自动化,进一步帮助IT 运维人员准确甄别系统异常,快速定位故障根因,并对潜在系统运行风险进行预警,以实现IT 和业务的持续洞察和改进。

其次,AIOps 与传统运维工具相比较,至少具有三大杀手锏。

• 一是,传统运维工具一个最大的问题就是运维指标采集维度过于单一,运维人员在使用传统运维工具进行故障诊断时,要同时从多种监控工具中得到不同维度的运维指标,然后再把这些数据在大脑里面相互关联并根据以往运维经验进行关联分析,以期能找到故障的真正原因。但是,AIOps 产品则完全区别于传统运维工具的数据使用方式,AIOps 产品会在底层通过统一的大数据平台把各类运维指标进行汇聚和加工,将性能指标、组件指标、网络指标、事件、告警、日志、工单等IT 数据在统一的视图上进行关联展现,从而大大减少了运维人员的故障诊断时间,并提升了运维人员的故障诊断准确性。

• 二是,传统运维工具由于体系架构比较陈旧、采集数据总量和维度又都相对有限,无法应用当下最先进的机器学习或者人工智能算法来快速诊断系统故障。而近两年才发展起来的AIOps 平台则明显架构更加先进、一个平台可以很容易得汇聚海量、多维度的IT数据,能够接入多种机器学习和智能分析算法,通过对历史数据的训练,针对实时数据进行实时的异常检测、异常定位、根因分析、容量预测等,从而极大幅的降低现场故障处理时间,提升运维服务质量和最终用户体验。

• 三是,一个最让甲方运维领导头痛的事就是,由于传统运维工具通常由不同厂商提供,这就导致了甲方需要准备很多运维工程师在现场来使用不同厂商的运维产品做IT 支撑保障。一旦IT 系统发生故障,一个典型的场景就是,使用多个运维产品的工程师们聚在一起开会讨论,但是由于代表的各自利益不同,不同厂商运维人员现场开撕的情况比比皆是,实在令人无奈!这直接导致了传统的中大型企业日常需要大量的运维工程师驻场工作,必然会产生繁杂的现场管理矛盾,而且随着IT 技术人员薪酬的持续攀升,运维驻场人员越来越稀缺和昂贵,IT 运维成本随之大幅增加。AIOps 平台则显著区别于传统运维工具,它完全不需要大量的运维人员。平台自身可以采集多维度、海量的IT数据,只要有少量的熟悉AIOps 产品的运维工程师即可实现中大型企业的日常IT 支撑保障,由于AIOps 将海量事件进行了聚合汇总分析,只产生少量的准确告警,有利于现场人员更加快速高效的处理现场故障,并支持将故障处理方法固化在知识库系统,以便于向更加智能的自动化运维演进。

综上所述,AIOps 的确是一场对于传统运维工具的颠覆革命,每个企业都应该从现在开始,关注并尝试使用智能运维平台。

OneAPM 全新推出新一代AIOps 平台I2,欢迎您随时联系我们,即刻开启贵公司的智能运维之旅。