Monitorama PDX和对抗警惕疲劳的战斗

我一直致力于消除在New Relic的工程环境中出现的警惕疲劳。我们都知道,凌晨2点睡眼惺忪地醒来,然后被迫解决客户停机问题,这可不是什么好玩的事情。当你在凌晨2点被叫醒,却发现自动提醒不起作用,除了静音警报然后回到床上,别无它法时,那就更没意思了。要真正消除所有虚假的警告可能是不现实的,但意识到这一点很难,不应阻止我们想出新方法来发现那些虚假的否定信息,这样我们所有人都能获得不受干扰的睡眠。

监控器PDX.

带着这种心态,我参加了the awesomeMonitorama PDX在我的家庭镇的波特兰的会议。会议吸引了一个不同的OPS和Dev人们希望能够一起发现我们如何改进我们用于制作伟大团队和优秀产品的监控工具和流程。亚博最新版直播帽子到了杰森·迪克森和他所有的志愿者,谁做了很大的组织它。

监控和DevOps周围有一系列伟大的会谈,从数据收集开始,以进行数学以获得更好的异常分析和检测。但我特别对一个主题感兴趣:别人如何识别和减少警报疲劳。两个会谈深深地谈论了这个话题,我会在他们在下面提出的最富有洞察力的积分上倒闭​​。

修剪脂肪

我特别欣赏这些例子丹Slimmon乳房给了他的“汽车警报和烟雾报警”。他专注于我们的地位检查和探针的准确性,以及它如何影响我们依赖他们的能力,以清楚地表明我们需要采取行动。

我从中拍了两个大焦点:

  1. 您可能认为您的90%可能检测问题是好的。它不是。您想查看检查的正预测值(PPV)。
  2. 您的支票的敏感性和特殊性需要真正高,您的服务越多。

积极的预测价值是某件事出错的概率。这是受灵敏度特异性

  • 灵敏度是确定服务中实际失败的百分比。
  • 特异性是标识您的服务实际工作的百分比。

他提供了一些很酷的计算,表明即使您的服务或实例有99.9%的正常运行时间,您的支票也有一个灵敏度99%和a特异性99%,你的支票实际上是可怕的。为什么这么可怕?他的结果表明,如果你在半夜分页了,你只有一个你需要采取行动的10个机会。回顾自己的经历,这似乎并不迄今为止大多数人在呼叫上花费大量时间。

中断生命周期和监控堆栈

丹的演讲和他的演讲非常一致斯科特•桑德斯GitHub (中断的生命周期) 和Daniel Schauenberg.etsy(一场关于Etsy监控堆栈的旋风之旅)。这些演讲都展示了他们的组织如何装备他们的工程师,以减少处理复杂基础设施时的开销负担。虽然他们使用的整个工具链与许多Ops团队已经使用的工具链非常相似,但我们可以收集到许多方法来改进我们自己对这些工具的使用。他们有一个共同之处,我打算立即实施:自动生成的待命报告。

Github通过一个很棒的Chat-Ops接口生成它们,Etsy每周都有其操作。两者都允许工程师生成一份报告对它们分页并轻松注释它们的所有警报的报告。大多数地方我在对其环境中的关键中断和影响的展开状态信息中致力于传播状态信息。GitHub和Etsy通过注释警报没有动作以及为什么没有采取的行动来建立这个想法。这可以变成一个强大的知识体,这在更好的调整警报和确保它们是可操作的方面至关重要。

参加了许多Depopsdays会议,倾向于讨论许多广泛的Devops主题包括工具和文化,它令人耳目一新,看看应用数据监测和分析的主题如何影响我们如何影响我们作为文化的人。

对于另一个视角,请查看这些想法关于Monitorama的文化来源Jen安德烈威胁者,他自己就讨论了众多谈判。

Aaron Bento是New Relic可靠性健身团队的首席软件工程师,在此之前,他是Burnside Digital和Yesmail的DevOps文化和方法的忠实粉丝。在这两个地方,我一直在物理和虚拟环境中使用Amazon AWS和Opscode Chef构建基础设施自动化。艾伦在休息时间和家人一起享受俄勒冈州的户外活动,徒步旅行、露营,摆弄他们的后院花园。查看贴子

有兴趣为New Relic博客写作吗?亚搏体育登入网送我们一个球场!!