随着软件系统变得越来越复杂,对质量和可靠性的需求也在增加,DevOps、SRE和网络操作中心(NOC)团队会发现自己被源源不断的信息淹没了。在嘈杂的警报、分布在多个工具中的信号和数以千计的“未知的未知因素”之间,很难快速确定和解决事故的根本原因,更不用说主动检测和响应问题了。由于来自多个工具的警报的涌入,故障排除和事件响应变得更加复杂,这些警报可能会使您的团队分心和响应疲劳。

我们已经看到了这些问题,也知道维护复杂的大型系统的困难。这就是为什么我们很兴奋地宣布这款应用的普遍可用性新遗迹应用智能(AI),这是一个AIOps解决方案,可以帮助随叫随到团队更快地检测、诊断和响应事件。《New Relic AI》是为了让你的团队走出被动的“救火”模式,回到创造、挑战和令人兴奋的构建伟大软件的工作中去。

快速的联系,更快的价值:在你已经使用的工具中遇见你

如果您的DevOps、SRE或on-call团队的任务是维护复杂的基础设施,那么您可以依赖多种工具来检测和响应事件。有一些很好的工具可以在你的整个技术堆栈中观察系统;当事故发生时通知你的工具;追踪进度及跟进行动的工具;以及与其他团队成员沟通的工具。对于在压力下待命的团队来说减少平均分辨率时间(MTTR),这个不断增长的工具列表可能会带来问题:事件、事件和操作数据是碎片化、竖井化或冗余的,这使得查找诊断和解决事件所需的信息变得更加困难。

AIOps平台承诺通过一个集中的、智能的事件信息提要来解决这些问题,该提要将在单个窗格中显示故障排除和响应问题所需的一切。然而,解锁这个值可能需要大量的时间承诺和工作流转换,潜在地花费您的团队数百小时在集成、配置、培训和入职任务上。

新的Relic AI方法是完全不同的:它结合了智能系统的价值和最小的配置要求。New Relic AI是源和数据不可知的,集成PagerDuty,New Relic的警报,Splunk,普罗米修斯,Grafana,亚马逊监测,以及其他通过我们的REST API。New Relic AI无需数周的时间就能完成数据采集和研究,它会随着时间的推移进行学习,自动聚合、关联和排序事件数据,帮助团队减少警报疲劳。这种精简的、增强的信息可以在您的团队现有的事件管理工具(如PagerDuty)中获得,ServiceNow,OpsGenieVictorOps所以你不需要重新设计你应对突发事件的方式。

更进一步,我们与您已经使用的通知和协作工具集成,并提供关键的见解,如自动异常检测到您的松弛频道或您选择的其他通知频道。关于生产系统的关键信息现在触手可及,不需要更改随叫随到的工作流程。

在整个DevOps周期中提供更多的情报

我们不是将我们的方法缩小到事件响应流程的一个特定方面,而是加强流程每个阶段之间的关系,以创建更强大的解决方案。仅仅关注于更快的发现、更快的理解、更快的反应或更快的跟进是不够的;从系统的角度来看,您需要一个像您最好的sre一样思考的工具。

主动检测异常

事件响应过程的第一步是检测潜在的问题。New Relic AI提供了自动异常检测功能,用户只需点击几下鼠标,即可在几分钟内完成配置。

在New Relic AI中查看有关你的异常的关键信息。

很容易告诉系统您想要监控哪些应用程序和服务的异常,并向您想要接收通知的工具(如Slack)发送实时故障警告。对于许多通过Slack协作解决问题的随叫随到的团队来说,这揭示了工具中潜在问题的关键上下文,而您的团队已经在这些工具中完成了工作。您还可以设置webhooks,将New Relic AI的主动检测的失败警告发送到您选择的自定义通知通道。

New Relic人工智能支持与现有协作工具的无缝集成。

“New Relic AI的主动探测能力非常容易设置和使用。没有任何代理配置更改或部署需要,”说高级网站可靠性工程师杰弗里·海恩斯表示健康。“具体来说,它帮助我的团队实现了速度、灵活性,并提供了运营可视性,最终帮助我们减少事故,将机器学习和分析整合到运营中,并改善了整体客户体验。”

减少警报噪音和疲劳

待命团队熟悉由低优先级、不相关或摇摆不定的问题触发的嘈杂警报。这些可能会导致警惕性疲劳,引起分心,并增加了关键信号被忽视的可能性。New Relic AI的事件智能使用行业标准知识的基线,然后从您的数据和团队的反馈中学习,智能地抑制您不关心的警报,并将相关事件关联起来,无需过多的配置、培训或入职。已经使用New Relic人工智能系统的用户报告称,他们发现该系统的噪音自动降低了80%以上,同时还提供了更精简、更实用的警报。

New Relic AI使用基线行业知识来减少无关警报的噪音。

“今天,IT运营团队面临的最大问题是让大量的事件警报噪音变得有意义,影响团队专注于构建完美软件的能力。有了New Relic AI,我们的团队就能清楚地了解特定问题是如何影响业务服务的,从而能够快速识别最关键的业务问题并对其进行优先排序。通过这次发射,我们期待着利用目标情报的力量,并最终优化成本。”彼得·哈蒙德,晨星公司技术运营全球主管。

透明、信任和控制

你和你的团队需要相信,相关性不会丢失关键信号,这种信任来自透明度。我们认为AIOps工具不应该是一个黑匣子,这就是为什么New Relic AI清楚地告诉你问题是如何关联的,这样你就可以相信不会错过任何信号。使用人工智能和机器学习(ML), New Relic人工智能可以根据你的历史数据提出相关关联。

New Relic AI展示了问题是如何和为什么相关的,并寻求反馈以持续改进。

您还可以构建自己的决定,并通过告诉New Relic AI哪些数据需要比较、哪些数据需要关联来通知相关引擎。设置频率和持续时间阈值,并根据需要选择开箱即用的相似度算法,以微调相关引擎。

《New Relic AI》让你能够轻松地告知事件与你自己的决策逻辑之间的关系。

更快地诊断和响应

一旦确定了问题,并且您的团队被分页,调查和故障排除过程就开始了。接近根本原因和确定解决步骤通常会占用问题发生和修复之间的大部分时间。New Relic AI通过提供你现有问题的有用背景来加速这一过程,包括基于“四金信号”(延迟、流量、错误和饱和)以及任何相关组件的信息,这样您就可以更快地找到可能的根本原因,并隔离问题的根源。New Relic AI甚至根据你的数据建议回应者,并提供了灵活性,可以轻松地确定在哪里和如何向你的团队发送问题;例如,很容易设置所有事件与特定的应用程序名称,仅通知团队专用的PagerDuty服务使用新Relic的路径功能。

就像一个新的团队成员一样,new Relic AI变得更加智能,并在研究数据时构建有关团队基础设施的特定系统知识。您的团队可以提供关于问题相关性的质量、自动浮现的信息和建议的响应者的反馈,帮助系统随着时间的推移进行调整并交付更有针对性的相关见解。

New Relic AI提供了相关事件的背景和丰富内容,以帮助您更快地诊断和响应。

对现有的事件管理工作流程没有更改

New Relic AI满足您的位置,与相关的,丰富的事件和上下文交付在您现有的事件管理工作流程和工具,所以您不需要改变您响应事件的方式。只需连接您的现有工具作为数据源和目的地通过New Relic的引导配置界面或REST API和人,和其余的解决方案负责,摄取事件数据从您的工具链,丰富上下文,提供明智的建议和指导,并提供相关的见解关于事件的工具选择。

新的Relic AI表面相关事件和浓缩回到事件管理工具,如PagerDuty。

为更完美的软件提供更智能的工具

New Relic的使命是仪器、测量和改善互联网,以帮助我们的客户创建更完美的软件、体验和业务。为了做到这一点,我们认为关键是要采用易于连接和配置的解决方案,使用团队已经使用的工具,在整个可观察性过程中创造价值亚博直播平台,并从数据模式和用户反馈中学习,随着时间的推移变得更智能。新Relic AI是这个旅程的又一步。它已经为忙碌的DevOps、SRE和NOC团队带来了不同,我们也很高兴看到它能为您的团队带来的价值。

起步资源

为了了解New Relic AI如何帮助你和你的团队,请求一个演示

Guy figel是New Relic应用智能总经理和产品工程副总裁。他领导New Relic的AIOps产品和工程,并负责公司的整体人工智能和机器学习战略。盖伊是事件情报公司SignifAI的联合创始人和首席技术官,该公司于2019年被New Relic收购。查看贴子

有兴趣为New Relic博客写作吗?亚搏体育登入网给我们发一份建议书!