DevOps、站点可靠性工程师(SREs)和网络运营中心(NOC)团队有责任确保基础设施的可靠性。最好使用适当的事件响应工具来管理这一点。这个领域注入了人工智能和机器学习等先进技术来创建新的分类,比如AIOPS(人工智能为IT运营)。Aiops帮助团队识别错误并更快修复它们。SRES(网站可靠性工程师)利用这些资产在各种AIOPS用例中,包括事件检测,降噪,发出解决方案,持续改进举措和集成。

为了理解什么时候使用AIOps,我们将分解它是什么以及它为什么重要,并探讨一些实际的用例。

为什么AIOPS需求?

当前的软件开发侧重于快速部署。这种恒定的迭代对基础设施可靠性进行了应变,SRE专注于特定和努力的可靠性加速事件反应确保正常运行时间,满足服务级别目标(SLO)。他们需要更好的方法来监测和对问题作出反应。通过不断扩大的庄园,他们没有时间手动分析所有遥测数据以找到异常。

扮演调查员会减慢他们的反应时间并影响可靠性。如果他们不能满足SLOs,他们的整个企业都会受到影响。AIOps为他们提供了所需的支持,在他们有时间滚雪球般滑向更大的问题之前,主动探测环境中的异常。

AIOps还完全支持DevOps的哲学,因为它打破了数据竖井。当存在大量数据时,AIOps平台的工作效果最好,这些数据可能包括观察和参与数据,以及来自第三方工具的数据。然后,各种算法和机器学习应用于数据,以找到定制的见解,帮助团队更快地识别、诊断和解决问题。最终目标是帮助您的团队使用最有效的方法更快、更有效地工作。剧透:有时候它并不是最复杂的机器学习算法。

AIOP使用案例

你如何使用这些新工具?它们将对你的事件管理工作流程产生什么影响?可以应用AIOps的具体用例有5个。

1.事件检测

添加AIOPS解决方案扩展了您的工具包,以便您能够更快地检测到问题。例如,异常的检测可以帮助您在开始之前保持问题发生。在对您的客户有任何影响之前,确保您了解此问题是最积极主动的方法。

2.降噪

警觉疲劳是事件反应中的一个大问题。一连串的警告意味着你可能对所有的警告都麻木了,即使它们是关键的。理想情况下,您希望抑制相关的低优先级警报和组警报。使用AIOps解决方案,您可以关联、抑制警报并确定警报的优先级。因此,您的团队可以关注对可靠性最关键的问题。

3.背景

事件可能会很复杂,有一个向导给你指出正确的方向会有帮助。AIOps解决方案自动分析数据,以全面理解事件。然后,它提供了您需要解决它的洞察力和上下文。

4.持续改进

过去的经验、当前使用和用户反馈提供了优秀的数据,帮助防止类似于历史问题的问题,这对持续改进是至关重要的。AIOps利用这些知识进行培训,以不断变得更聪明,并交付定制的相关性、洞察力和建议。

5.数据集成

来自任何来源的事件数据与您当前的事件管理工具和工作流集成。你获得的数据越多,你的机器学习就会得到更好的训练,你的结果也会更适合你,更有用。AIOps解决方案摄取数据,使用上下文丰富数据,并向相关团队或响应人员发送通知,这些团队已经在使用事件管理工具。这样,团队就不会浪费在工具之间切换的关键时间。

为什么新遗物应用智能是独一无二的

新的遗物应用智能使用原始监控数据到电机学习,可以摄取,相关,并在新遗物之外的来源上提醒,例如PagerDuty, 和更多。通过这种方式,用户删除Silos并获得更好的图像,这些问题是在它周围的重要背景下发生的问题。与现有事件管理工具集成意味着新的遗物应用智能符合他们已经工作的团队。

这为用户提供了:

  • 最快减少噪声减少:New Relic为客户提供了最快的降噪时间,使用自动,开箱即用的相关性,不断自我改进。New Relic通过实时丰富事件内容来自动减少噪音,包括人工智能/ ml驱动的建议相关性,并将您从陡峭的学习曲线、漫长的执行和训练时间,或与其他AIOps工具常见的复杂集成中解放出来。
  • 适合现有事件管理工作流程:新遗物是唯一符合您的唯一AIOPS解决方案,在您现有的事件管理工作流程和工具中提供。Simply connect your existing tools as data sources and destinations via New Relic’s guided configuration UI, and the solution takes care of the rest, ingesting incident data from your toolchain, enriching it with context, providing smart suggestions and guidance, and delivering relevant insights about incidents to PagerDuty,松弛,Jira,ServiceNow,维多利乌开以及你所选择的工具。
  • 更快的时间值:对更多的数据类型进行分析并采取行动。PagerDuty等工具提供基于警报的警报和升级,而New Relic则允许您对多种数据类型进行接收、分析和操作,包括警报、日志、度量、部署事件等。这为您提供了更好的背景,了解发生的事件以及它们如何影响更广泛的环境,因此您可以更快地诊断问题并确定问题的优先级。
  • 透明度:了解为什么事故是相关的构建信任。Aiops工具不应该是一个黑匣子。新的遗物应用智能提供了完全透明度,为什么执行相关性以及如何使用自己的相关逻辑调整系统(通过简单地讲述新的遗物进行比较和如何关联数据的数据),因此您有信心in the ML models that reduce noise while ensuring that critical signals don’t go unnoticed.

探索新的遗物应用智能

这些AIOPS用例展示了您的组织如何从采用AIOPS解决方案中受益。通过主动异常检测,警报降噪,发行丰富和更智能的通知,新的遗物应用智能使您更接近root原因,并使您可以比以往更快地检测,响应和解决问题。

如果你准备好学习更多关于准备AIOps的知识,不要错过我们的电子书,如何为AIOps做准备:成功部署的四个步骤

Annette Sheppard是New Relic的高级产品营销经理。她专注于AIOps,总是希望学习新东西。查看贴子

对新遗物博客的写作有兴趣吗?亚搏体育登入网给我们发一份建议书!