我们正在升级FutureStack的注册,仅到4月30日。条款和条件适用。 现在注册

SRE和DevOps团队的世界都是关于快速响应的。快速诊断和解决问题的能力可能意味着数千美元或点击。有效的SRE团队推动在测量和管理其随叫随到周期的所有方面(包括检测、理解和解决)方面的持续改进,以保持他们的事件响应时间尽可能短。然而,很少有团队利用了这些阶段之间的内在关系——这是更聪明、更高效的事件响应的关键。

用于度量SRE团队有效性的常用kpi是平均检测时间(MTTD)、平均理解时间(MTTU)和平均解决时间(MTTR)。把这个代表SRE周期的圆的面积想象成你的总成本。每个阶段花费的时间越长,区域就越大:

提高运营效率的传统方法包括雇佣更多的工程师,配置更多的工具,培训现有的工程师更好地理解系统。

然而,每一个选项都只能解决一个关键kpi。在某些情况下,它会使其他情况变得更糟:

事件智能和自动关联

随着更多工具和新技术的引入,生产系统的复杂性不断增加,DevOps和SRE团队需要一个更可持续的事件管理解决方案。这就是事件智能和自动关联的由来。

SRE流程的每个步骤以及每个相应的KPI都与其他步骤紧密相连。那么,为什么不使用一个工具来利用这种关系来同时改善这三个方面呢?与New Relic的AI -一个智能平台,可以自动发现整个堆栈中事件数据的相关性——周期中每一步的小改进都会对其他步骤产生积极影响。让我们来看一个例子。

有了New Relic AI的决策功能,你可以根据自己的生产系统知识创建定制逻辑。在本例中,应用程序的低优先级事件量的峰值表明存在更大的潜在问题。自动相关问题的优先级将增加,您的MTTD将变得更快。

当SRE收到关于这个问题的通知并在他们的事件管理工具中检出它时,他们将立即注意到事件之间的一些关系。相关的警报显示在一起,“问题日志”包含关于问题如何随时间发展的详细信息。

New Relic AI使用自动自然语言处理(NLP)算法为事件选择一个智能标题和分析摘要,这样你就可以快速理解发生了什么。所有你需要的信息就在你面前,减少了调查问题所需的挖掘量,加速了MTTU。

最后,使用一个强大的机器学习模型,从历史事件数据中学习,New Relic AI为每个事件提供了建议的应答者。如果随叫随到的SRE被困在这个问题上,或者需要更多的上下文来做出明智的故障排除决定,他们可以检查建议的响应器。然后SRE可以选择联系该团队成员或搜索该团队成员可能编写的文档。

这些易于访问的、不断改进的建议将帮助您快速地将知识提供给正确的人员,减少MTTR,并将对客户的生产影响降至最低。

减少客户的影响

综上所述,定制决策将导致更快更智能的检测。相关问题的丰富背景将导致更快的理解。通过建议的回应者来增加注意力,将会带来正确的信息,并最终更快地解决问题。

新Relic AI是一个AIOps解决方案繁忙的SRE和DevOps团队。该解决方案使用SRE循环每个阶段之间的关系来利用您的团队的知识来进行更有效的事件响应。

想知道事件智能和自动相关性对团队kpi的影响吗?了解更多关于新遗迹AI。