作为现代软件和IT基础设施环境随着开发和运营团队变得越来越复杂和短暂,他们发现加快开发速度、优化性能和排除问题变得越来越困难。这就像大海捞针一样几个干草堆!

由新技术和越来越复杂的工具驱动集装箱和管弦乐集microservices云计算, IT团队需要知道警报发生在什么地方,以及如何为这些警报设置正确的阈值。为了帮助您解决这些问题,并以更大的信心更快地行动,我们在我们的数据平台上实现了一些令人惊叹的新智能功能。

旧金山的FutureStack18, New Relic很高兴能够提供三个新功能和举措,利用我们的智能能力,在分布式和复杂的定制应用环境中解决有意义的客户问题:

NRQL条件的异常检测在新的遗物警报中。当一个组的成员偏离正常值时,异常值检测自动检测。

新的遗物警报中的事件上下文。通过在响应应用警报时通过检测和浮出性能异常来快速潜入问题。事件上下文显示您在开始事件调查的智能建议,加快解决方案。

改进预览图表,新的NRQL条件UI,并在NRQL条件查询中支持Facet关键字。这三种改进使得更容易设置警报阈值。

离群值检测:如果一个组的成员偏离了某个关键指标,就会得到通知

离群值检测帮助IT团队自动检测配置错误或行为不当的主机和应用实例。它还可以帮助工程师确定什么时候基础设施运营和业务流程崩溃,以及什么时候集群、主机、应用程序实例或资源池由于一个或多个“坏角色”而不能正确平衡。

当您开发运行在越来越短暂的体系结构上的较小的独立服务时,您的环境将变得更加复杂、变更更加频繁,并且需要更多的编排才能正常运行。

New Relic创建了异常值检测New Relic查询语言(NRQL)帮助客户通知自己现代系统的问题的条件。简单地说,离群值检测将监视您为集群设置的kpi,它将系统中的问题暴露出来,以便您能够快速有效地解决这些问题。

客户使用负载均衡器,例如AWS弹性负载均衡或工作负载编排解决方案,如亚博直播平台KubernetesApache便通常具有它们想要统一性能的资源组。但如果负载平衡器的工作量更改,何时恕不另行通知?异常值检测将在指定的时间段内从一个指定的金额偏离键度量,如果组的成员偏离键度量,则会通知您。

更具体地说,想象一个Devops团队运行的应用程序的15个实例,在营业时间内为客户提供高吞吐量服务,但在小时后需要更少的实例。该团队需要知道一个或多个实例的错误率或事务响应是否有显着不同地差异。这种差异可能是由于应用程序工作负载的变化,一个错误的应用程序实例,主机错误配置或硬件问题 - 任何一个都可能需要立即关注。

异常值检测在一个条件下支持多个组,因此如果您的数据自然地落入多个群集(可能使用比较新服务器的更多CPU功率的旧服务器),您可以单独地跟踪这些组。这使您可以定义更敏感的阈值并管理更少的条件。此外,如果您正在跟踪多个组,则可以将可选的触发标准进行启动,如果其中任何组碰撞,或者如果其中一个预期组丢失。使用此选项对于要将组分开的边缘壳体,并希望确保一定数量的组始终存在。

要使用离群值检测,只需输入数据中看到的组的数量,New Relic就会使用聚类算法自动检测这些组。然后设置散度阈值和持续时间,New Relic将以分钟为单位观察这些群组。当一个群体的成员走得太远太久,条件就会触发,New Relic就会发送一个警报,说它检测到了一个离群值。

离群点检测是自动启用的客户与专业订阅或更高。它需要通过NRQL (from . sql)查询数据新遗物APM新的遗物浏览器New Relic的基础设施, 等等。)。有关更多信息,请查看新的遗物文件

事件背景:当东西坏了的时候,寻求帮助来修复它

在当今复杂的分布式系统中,一定程度的失败往往是标准 - 不是孤立的,罕见的发生。现代目标是,而不是完全冲压失败建立弹性减少故障总数并加快分辨率(MTTR)的平均时间,以最大限度地减少不可避免的问题的影响。

That’s important, because when an on-call engineer gets paged at 3 a.m., it can take a while to identify where to look for the problem, determine the blast radius, and figure out if an affected service is part of the causal chain of the incident or just a victim. Deciding where to start looking often involves a whole lot of guesswork—not the least of which is determining which team is responsible for solving the problem.

事件上下文通过在事件开始时向客户提供主动、智能和无缝的协助,加快了事件期间的故障排除。有了事件上下文,工程师可以更快地知道从哪里开始对导致警报的事件链进行调查。具体来说,它揭示了与触发警报的应用程序相关的信号的异常行为。

新遗物运行更改检测算法,并在事件概述页面内显示任何异常。我们在前六个小时内比较警报违规时间内的行为(减去事件的持续时间)以突出显示不寻常的尖峰。例如,如果您在5分以上5%以上的应用程序上设置了错误百分比的警报策略,则新的遗物将在违反前5小时和55分钟行为之前立即在5分钟之间进行比较:

事件上下文自动为专业订阅或更高版本的所有客户启用。

预览图表、新的NRQL表单和FACET支持

除了异常检测和事件上下文外,我们最近发布了几种新的智能功能,旨在帮助我们的客户管理他们的复杂系统并帮助您更好,更快的决策。

2018年4月,我们发布了预览图表。当你在New Relic Alerts中创建条件时,这个工具可以让你看到你正在创建条件的信号的时间序列图表。这样就更容易选择一个合适的警报阈值。

5月,我们改进了NRQL警报创建。我们将NRQL静态阈值和NRQL基线条件组合成单一形式。现在,您可以将NRQL警报条件从静态更改为基线,而不必重写NRQL查询。又少了一件让你担心的事!

同样在5月份,我们增加了对FACET关键字的支持。多面NRQL警报使得监视动态和短暂的kpi比以往任何时候都更容易。具体来说,当FACET的数量少于150个时,使用静态阈值的NRQL条件现在支持使用FACET关键字。你可以在新的遗物文件

由于New Relic帮助您收集的数据的广度和深度,我们处于独特的位置,可以提供一流的情报能力。在这篇文章中描述的新功能和工具应该会让你了解new Relic是如何帮助你利用智能来更好地管理今天日益复杂的系统并节省精力的。

内特·海因里希(Nate Heinrich)是New Relic的产品经理。他有IT管理、Web开发和运营方面的背景。他的爱好包括球类和网球类的运动,各种视频游戏,以及尝试机器学习api,以便有朝一日预测一些有用的东西。查看贴子

有兴趣为New Relic博客写作吗?亚搏体育登入网送我们一个球场!!