如果你曾经是一个随叫的sre,你熟悉警戒疲劳:烧毁的感觉在响应堆栈的大量服务和工具后响应警报后令人沮丧。这种现象不仅耗尽,但恒定的页面也限制了您关注其他工作的能力,即使您只需单击“确认”(“Acking”)。研究已经表明,人们在简短的上下文交换机上损失了高达40%的生产时间。许多导致永无止境的页面的警报既不迫切也不重要,也不需要任何人类的行动。那么,他们来自哪里?

以下是五种噪声源,可以创建警报疲劳,并分散您的随叫随到的Devops或SRE团队,从您的生产系统中需要注意的实际问题:

不相关的警觉

未使用的服务,退役的项目和其他团队处理的问题是一些噪声来源,这足以令人讨厌,但并不总是值得通过在他们的来源转向警报的腿部。这些通知来自生产系统中的各种工具,往往会迅速加速但在很大程度上被忽略,因为通常不会是潜在的可行问题。

低优先级警报

一些噪音表明当前优先级列表中可能最终需要解决的问题。保持这些警报配置可以是一个有用的提醒来调查或解决问题的根本原因最终,但在短期内,它们可能不会增加值。

拍打警报

安全拍打问题可以觉得自己扮演Whack-a-mole。这些警报是您系统中不断增长的问题的良好指标,但是当您试图解决问题时,可以是分散注意力的源,有时会提示SRES沉默页面或盲目地将传入的问题静音。无关的问题有时会丢失成堆的扑扑通知,这可能是您团队注意到重要问题的能力的风险。

重复警报

类似于拍打警报,但更多的冗余监控配置的症状而不是底层的生产问题,重复的警报可以是寻呼机疲劳的另一个来源。你知道第一个通知后的问题,所以额外的警报让你知道它仍然可以增加挫败感。

相关警报

这些是最艰难但可能是最重要的噪音来源。关于问题的根本原因是关于问题的所有上下文的所有上下文都越快,并且缺少这一环境可以引导您无法对您的调查和故障排除的兔子漏洞。

从过去的一天或一周开始快速滚动您的团队的页面,并考虑每个人。其中一个类别有多少?嘈杂的页面像这些人分心,建立挫败感,隐藏真正的问题,随着现代生产系统的复杂性继续增长,体积只会增加。

用正确的解决方案治疗警报疲劳

实现AIOPS平台,如新的遗物AI,可以帮助您解决堆栈中的警报噪声,并创建一个不断改进的简化系统,用于关联和优先突出的事件。许多机器学习驱动过滤器和逻辑电源新遗物AI。相关引擎寻找所有这些噪声源。它还适应不断提供更相关的警报,减少寻呼机疲劳并赋予您的团队能够侧重于重要问题。了解有关新遗物AI的更多信息(目前在私人测试版中)今天。

Guy Fighel是新遗物应用智慧和产品工程副总裁的总经理。他带领新瑞典遗物的AIOPS产品和工程,并负责公司的整体人工智能和机器学习策略。盖伊是Signifai的联合创始人和首席技术官,这是一个活动智能公司,由2019年的新遗物收购。查看帖子

对新遗物博客的写作有兴趣吗?亚搏体育登入网送我们一个球场!!