[关闭]
@cnbeining 2017-08-29T04:06:30.000000Z 字数 865 阅读 279

如何理解AIOps

AI DevOps



摘要

作者

正文

人工智能正在颠覆每一个领域:运维也不例外。Gartner的白皮书对AIOps进行了深度研究。

为什么企业需要AIOps

对于企业来说,数字化是不可逆的趋势:对于运维而言,数字化代表运维需要经常对线上系统进行修改,时刻考虑扩展性问题。一般来说,企业会将开发团队分成很多小组,各个团队独立运转,由此诞生了敏捷开发、DevOps、云服务和微服务等新工具。

在运维中,企业一般会采用10-25个工具,每天生成上百万条警报信息。无论团队多大,人脑都不可能处理这么多资料:只有算法才能对这么多数据进行处理。

AIOps用例:故障处理

传统企业会使用工单系统,人工分析、处理问题,结果是人员对警报疲劳,大量的警报变成了背景噪音,企业不能在事故发生前就进行预防。有些企业为了减少头痛程度干脆完全关闭警报系统,听天由命。

AIOps可以自动化分析日志数据,全天候运转,自动将相关事故进行联系。很多事故算法可以自行处理,不需要人工干预:AIOps可以自行创建工单、调整优先级、建立知识库并协助决策。

AIOps可以在事故发生时提取所有相关资料,并在相似事故发生时自动处理。人工还是事故处理的核心:但是AIOps可以提高生产率,自动化重复性认为。

AIOps实战:加拿大皇家银行(RBC)

RBC的IT架构历史悠久、庞大且繁杂。RBC的IT支持人员约250人,每天生成数百万警告信息,整个团队疲惫不堪:有时不同员工会花费数小时,最终发现其实他们处理的是同一个工单。

在采用AIOps后,RBC的故障平均检测时间下降了35%,故障平均恢复时间下降了43%。

AIOps的结构

现有的工具和人力资源不足以处理海量IT运行日志:AIOps势在必行。

img01

img02

AIOps的核心是机器学习和大数据:自然语言处理等工具可以作为分析的核心;AIOps的分析层是深度学习,例如神经网络等:这些工具可以迅速处理大量数据,也可以进行时序分析。数据的存储和管线一般可以使用NoSQL等数据库,也可以使用Hadoop这种高性能文件管理系统搭建。

查看英文原文

添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注