凌晨2点,你被一连串的警报吵醒。MySQL数据库中的磁盘空间不足,现在您的web服务不能处理任何请求。形势像滚雪球一样越滚越大,警报不断响起。

警觉疲劳是真实存在的。

当您对级联故障进行故障排除时,上下行的每个问题都会触发警报。即使所有警报都是相关的,您可能也不会意识到它们是相关的,直到您筛选了所有干扰并正确地诊断了问题。

通过在噪音到达你之前消除它,AIOps帮助您更快地诊断问题。新文物应用智能(AI)使用机器学习和手动创建的决策,将相关警报关联到一个可行动的问题,这样你就可以优先考虑和关注最重要的问题。现在,您将只收到一个包含所有相关事件的可见性和上下文的警报,而不是5个、10个或20个单独的警报。

新Relic AI使用基于机器的决策来减少警报噪音。用户生成和建议的决策允许您调整决策,以进一步减少收到的警报总数。通过创建自己的决策逻辑,你可以应用你的系统知识,同时获得透明度和控制New Relic AI如何和为什么关联警报。

在这篇文章中,我们将解释建议的决策,并向您展示如何创建和预览用户生成的决策,以更好地理解和优化相关性逻辑,并进一步减少不必要的警报。

如何使用建议决策

为您的数据量身定制的决策将更准确地关联问题,因此您收到的警报更少。一旦摄入了足够的数据,New Relic AI可以检测模式,并根据你的数据的最后30天预测相关相关性。这些量身定制的决策显示在建议的决定部分的决定新遗迹AI事件情报页面。

新遗迹AI事件情报中的建议决定页面

对于每一个建议的决定,你可以:

  • 回顾一下New Relic AI创建它的逻辑
  • 检查导致该建议的事件设置
  • 查看过去7天发生的相关事件的例子,以及相关的相关率

一旦您审查了建议的决定,您就可以取消或启用它。启用一个建议的决定将把它添加到现有决定的列表中,它将立即开始关联事件和减少警报噪音。

如果您驳回建议的决定,您可以选择永远不再看到该决定,或者您可以将其添加到具有禁用状态的现有决定列表中,并决定以后是否启用它。

随着New Relic AI吸收更多数据,它将提供更多决策,从而提高相关性,减少警报噪音。

如何构建和预览用户定义的决策

新Relic AI将了解你的系统随着时间的推移,但当你开始,你会想要帮助我们了解什么,你可能已经知道你的系统。考虑到这一点,新Relic AI给你能力建立你自己的决定.虽然您可能知道需要关联哪些警报,但您可能不知道这些关联将如何影响已配置的警报。对于你创建的任何决策,New Relic AI将利用你最后七天的数据来预览你的决策将对你的警报产生的影响。

对于这个示例,让我们假设您从Sensu和New Relic收到同一个应用程序的重复警报,并且希望它们相互关联。以下是你如何在New Relic AI中做到这一点:

  1. 告诉我们要比较哪些数据。使用下拉列表定义要比较的数据的哪两个部分,或者将字段留空以计算所有数据。对于我们的例子,我们想要比较来自Sensu REST API和New Relic违规的数据。
  2. 告诉我们有什么关联。选择要关联哪些属性,以及要使用哪些操作符来比较它们。例如,如果警报中有轻微的变化,您可以使用类似于.在我们的例子中,我们想要Sensu和New Relic主机名之间的精确匹配,所以我们将选择=作为操作员和主机/名对于第一部分和第二部分的特征。(如果我们想要更具体,我们可以添加额外的条件,例如根据警告消息中的特定关键字进行过滤。)
  3. 给决策一个名称和描述。决策的名字会出现在多个地方,所以选择一个别人都知道的名字——简短而清晰的名字效果最好。在我们的例子中,我们选择了一个既描述性又简洁的名字:宿主是一样的
  4. 要预览您的逻辑的影响,请单击模拟。在预览中,请注意以下事项:
    • 预览的上方框向您显示了正在比较的数据的潜在关联率、总事件和相关事件的估计总数。
    • 预览框的下方显示了数据前7天出现的问题示例,这些问题将与该决定相关联。
    • 从这里,您可以决定是否要创建决策,或者您可以返回并微调相关性并调整逻辑,以查看它如何影响潜在的相关性率。
  5. 一旦你对你的决策逻辑有了信心,点击创建决策.它将被添加到您的决策列表中,并将开始关联警报。

当你做决定时,请记住以下三个建议:

  1. 相关性越高并不一定越好。你可以在20分钟内将所有New Relic违规行为关联起来,相关率将是100%,但这并不是很有用。
  2. 从小事做起。从有针对性的决定开始。制定多个有针对性的决策比只制定一个宽泛的决策要好。
  3. 检查你的工作。你有多少警报?有多少是相关的?看一看这些例子——它们有意义吗?

通过实时反馈,您可以对您的决定的影响有信心。您可以对逻辑进行微调,以获得最准确的事件关联和最可操作的警报噪声减少。您了解您的数据,最好将这些知识应用于消除警报并实现更快平均分辨率(MTTR)

要了解有关构建决策的更多信息,请参见新Relic AI文档

如何知道你的决定是否有效

为了帮助你更好地理解为什么事件是相关的,以及它如何影响你收到的警报总数,New Relic AI表面的关键统计数据决定页面。除了可以看到事件关联的原因外,您还可以很容易地找到关联率、总关联、降噪和振荡效率。

在Decisions页面上查看关于事件相关性的统计信息

例如:测量拍击效果

扑动检测和抑制是减少警报噪声的另一种方法。当问题“波动”时,它会在打开状态和解决状态之间循环,每次循环时都会创建一个新的警报。有效地处理这些可以减少发送给您和您的团队的警报的总数。

新Relic AI自动识别拍打问题注意到任何问题打开和解决多次在短时间窗口。当识别出一个摇摆不定的问题时,它就会被标记出来isFlapping一旦,这类问题的宽限期就会延长。如果它在宽限期内关闭,您将不会收到警报,但如果在宽限期过后它仍然打开,您将收到警报。

在统计小部件中,使用以下New Relic Query Language (NRQL)查询计算振荡的有效处理:

SELECT percentage(count(*), where 1=1) * (1-(FILTER(count(*), where EventType()= ' issuecclosed ' AND isFlapping = 'true') /FILTER(sum(numeric(eventCount)), where EventType()= ' issuecclosed ' AND isFlapping = 'true'))) as 'Flapping effectiveness' FROM issuecclosed since 1 week ago

该查询收集包含振荡警报的关闭问题的总数,并将其除以正在振荡的问题总数。例如,97.2%的振动有效性相当于每1000个振动事件中只出现28个问题,使您免于收到其他972个振动警报的警报。

如果你想要更多的可见性跟踪拍打警报,你可以深入挖掘使用isFlapping属性来构建仪表板、图表等。

假设你想知道上周有多少悬而未决的问题被解决了。你可以通过下面的查询找到这些信息:

SELECT count(*) FROM issuecclosed WHERE isFlapping = 'true' TIMESERIES 1 day since 1 week ago

很难知道您是否选择了正确的警报阈值。你可以使用isFlapping属性随时间跟踪抖动,以便准确判断何时调整阈值才是明智的,以获得更有效的警报和额外的降噪。

减少警觉疲劳从正确的决定开始

当寻呼机在凌晨2点响起时,你必须从正确的警报集合中工作。无论你是使用基于机器学习的决策还是将你的知识转化为决策逻辑,理解New Relic AI为什么以及如何关联事件将帮助你在事件响应过程中建立信任。更重要的是,当需要挖掘问题根源时,您将减少收到的警报总数。

看看通过AIOps加速事件响应了解更多关于新遗迹应用智能如何帮助你减少噪音和降低MTTR

Annette Sheppard是New Relic的高级产品营销经理。她专注于AIOps,总是在学习新东西。查看贴子

有兴趣为New Relic博客写作吗?亚搏体育登入网给我们一个推介