我们只需4/30即可调整Futureestack注册。条款和条件适用。 现在注册

什么是aiops?

6分钟阅读

DevOps是关于改进团队的工作方式,以便更快、更频繁地发布软件,并具有更高的可靠性。这意味着,当可能影响客户体验或服务水平目标(SLOs)的问题发生时,能够快速响应。

随着软件团队现代化和采用云原生技术,现在有很多东西要监控和反应 - 更广泛的表面积,发生更多的软件更改,发生在碎片化工具中发出的更多操作数据,更多的仪表板,更多的警报 - 加上增加快速查找和修复事件的压力,并防止它们在第一位置发生。

随着数据量的增加,所需的时间可以了解问题并解决它们。许多ops团队我们与反应模式仍然花费太多时间,不断消防事件,而永远不会发现时间实施允许他们在造成停电或性能问题之前识别问题的流程。

和反应疲劳是真实的。之间嘈杂的警报还有数千个“未知未知”,从噪音中分离信号并迅速确定事件的根本原因仍然很难,更不用说积极回应问题。每分钟Devops,Sre和Noc团队必须花费解释他们的数据来检测异常,或手动诊断和响应事件,对SLO,公司声誉和底线具有真正的影响。

AIOps的出现

在过去的几年里,出现了一种新的技术,将人工智能和机器学习(ML)交给待命团队,这样他们就可以防止更多的事故发生,并更快地做出响应。Gartner创造了术语“AIOps”(IT操作的人工智能)来描述这个空间。正如Gartner所述,AIOps使用人工智能和机器学习来分析软件系统生成的数据,以预测可能出现的问题,确定根本原因,并推动自动化来解决这些问题。

AIOPS通过“组合大数据和机器学习功能来分析由其产生的数据的不断增加的数量,品种,品种和速度,以响应于数字转换。AIOPS平台增强了广泛的IT运营过程,包括但不限于异常检测,事件相关和根本原因分析(RCA),以改善监控,服务管理和自动化任务。分析努力的目标是发现模式 - 在数据中自然发生的模式,用于预测可能的事件和新兴行为的数据。这些模式用于确定当前系统问题的根本原因,并智能驱动自动化以解决它们。“

Gartner的研究,AIOps平台的市场指南

那么Aiops如何适应监测?在新的遗物,我们相信AIOps能力是可观察性的关键要求。通过在一个地方提供所有遥测数据的连接的、实时的视图,团队可以更快地查明问题,不仅了解问题的原因,而且为什么,并获取上下文以快速分析和主动采取对该数据的行动。

通过在遥测技术的基础上提供事件信息的智能提要,并应用AI和ML对这些数据进行分析和采取行动,AIOps增加了您从监视中获得的价值,这样您就可以更快地对问题进行故障排除和响应。

AIOPS用例

DevOps、SRE和待命团队使用AIOps的主要方式有四种:

1.主动异常检测

在问题击中生产或影响客户体验之前,事件响应过程的第一步是检测软件中的潜在问题。AIOPS工具会自动检测环境中的异常,并触发到您的监控解决方案的通知以及您的团队合作和完成工作的其他工具,如松弛。

2.事件关联和降噪

事件响应过程的下一步是诊断。AIOPS工具帮助团队优先考虑,并通过关联相关的警报,事件和事件,以及从历史数据或堆栈中的其他工具中丰富的上下文来丰富它们的问题。The most advanced tools utilize both machine-generated (i.e., time-based clustering, similarity algorithms, and other ML models) as well as human-generated decisions to power the correlation logic, and give you the ability to enable automatic flapping detection and suppress noisy or low-priority alerts.

AIOPS工具还通过基于的事件进行分类来提供有价值的背景四个SRE金色信号-Latency,流量,错误和饱和 - 因此您可以更轻松地诊断问题的根本原因并确定如何解决它。

3.智能报警和升级

除了检测异常和提供情报以诊断事故外,AIOps工具还可以自动将事故数据发送给装备最好的个人或团队,以进行响应。特别是对于采用自助服务的去中心化、分布式团队,这减少了发送给错误人员的嘈杂警报的数量,减少了将关键事件数据发送给正确人员所需的时间,从而减少了工作负担。

AIOps工具运行ML模型来评估来自事件管理和监视工具的数据,并建议个人或团队能够更快地解决特定问题,因为他们要么已经看到过类似的情况,要么是特定组件失败方面的专家。

4.自动事件修复

事件响应流程的最后一步(也是最关键的一步)实际上是修复问题。这包括在事件发生时解决问题的工作流和自动化,并减少解决问题的平均时间。

随叫随到的团队试图缩小发现问题、诊断问题和修复问题之间的差距,AIOps的范围正在扩大通过自动补救能力来解决这些最后一英里的挑战。

新遗物是如何实现的

[嵌入]http://youtube.com/watch?v=iaOr55JZ5Rk&feature=emb_logo[/嵌入]

随着操作生产系统的复杂性增加,软件团队需要更快、更简单的方法来解决事件。他们需要辅助和自动化来增强他们现有的事件管理团队和工作流程,这样他们就可以更快地发现和修复问题。我们的客户还表示,他们正在寻找更易于装载、学习和使用的AIOps解决方案。亚博直播平台

New Relic的人工智能是一个AIOPS解决方案,它可以帮助繁忙的DevOps和SRE团队找到,排除故障,并更快地解决问题。新的遗物AI赋予你的团队削减辛劳,摆脱反应性的“消防”模式,回归建设和运行精彩软件的创意,挑战和令人兴奋的工作。

与单独的事件管理工具或其他AIOps方法不同,New Relic AI利用其对原始监控数据的访问来为ML模型提供燃料,并支持一个智能的、上下文丰富的事件响应工作流。

通过与您已经使用的事件管理工具深入集成,我们为您现有的事件响应流程和工作流带来智能,从而提供最快的检测时间和降噪,而无需重新设计您的DevOps流程。

如果您的团队希望在易于学习和使用的AIOps解决方案的帮助下更快地检测、诊断和解决事件,了解更多关于New Relic AI