对于成功的Devops团队,警报是一个不可或缺的做法。您不能每天每隔一秒钟都在申请中观看每个服务,但您必须准备立即采取行动,如果任何服务都会击中障碍。和新的遗物警报,您可以确保您的团队合适的成员获得他们尽快所需的警报。如果被监视的应用程序,主机或其他实体触发预定义的警报条件,则新的遗物警报会自动通知您。
但是,同时,您的团队需要尽量减少警觉疲劳,这通常会导致您的事件响应过程中的错误和误解。通过新的遗物警报,您可以轻松管理专注于关键指标的警报策略和条件,同时过滤掉预期的行为。
为了帮助您开始,我们根据现场的最佳实践创建了一个建议列表,以便为使用的应用程序设置警报条件新的遗物浏览器和新遗物APM,以及监控的主机新的遗物基础设施。这些建议是希望使用新的遗物警报和寻求改善工作流程的团队来启动和运行的团队的一个伟大起点。
笔记:这篇文章涵盖了警报情况只要。您应该创建警报政策根据您的组织如何构建和事件响应工作流程。在某些情况下,您可能有一个警报策略,其中包含跨越整个新的遗物帐户的条件。在其他情况下,您必须将条件范围扩展到一个或多个应用程序或主机。同样,如果您是一个成熟的Devops团队,您可能会将浏览器,APM和基础结构分组到相同的策略,由应用程序或产品分段。更传统的结构队伍可能希望将基础架构,APM和浏览器条件分开到不同的策略中。
如果您尚未熟悉新的遗物警报,请务必在入门前查看以下内容:
- 这警报文档(包括NRQL警报条件那基线警报, 和异常检测)
- 新的遗物警报入门:让您成功的最佳实践
您也应该熟悉这两个术语:
- 门槛:这些是警报条件设置,可定义被视为违规的内容。阈值包括数据源必须通过的值来触发违规以及定义违规的时间相关的设置;例如:
- 应用程序的平均Web响应时间超过5秒,持续15分钟。
- 应用程序的错误率每分钟每小时至少达到10%或更高一次。
- 应用程序的Ajax响应时间偏离其预期的基线行为。
有关更多信息,请参阅新的遗物文档设置警报条件的阈值。
- 基线:您可以使用基线警报条件来定义适应数据行为的阈值。基线可用于创建警报条件:
-
- 只有数据表现异常时才通知您。
- 动态调整到更改数据和趋势,包括每日或每周趋势。
- 为具有尚未尚不清单的行为的新应用程序工作良好的盒子。
有关更多信息,请参阅新的遗物文档创建基线警报条件。
-
为浏览器应用程序配置警报条件
使用以下示例作为最佳实践,用于使用新的遗物浏览器监视前端应用程序的警报条件。
健康)状况 | 用法 |
---|---|
PageView加载时间的阈值条件 | 触发警报如果页面加载时间在接受的阈值上飙升。 |
PageView吞吐量的基线条件 | 触发仅用于突然的交通丢失或尖峰的警报。(基线条件通过考虑预期的交通波动来减少噪音。) |
JavaScript错误的阈值条件 | 当浏览器应用程序中出现JavaScript错误时,触发警报。 |
Ajax请求响应时间的基线吞吐量条件 | 触发联系您的后端服务的Ajax请求会影响网络延迟时提醒。 |
关键页面操作的基线吞吐量条件(例如,按钮点击) | 触发警报,用于用户行为更改,不会导致其他警报;例如,如果CSS更改从可视屏幕上关闭“结帐”按钮,则不会导致错误或响应时间的峰值,但会影响客户体验。 |
为APM应用程序配置警报条件
使用以下示例作为最佳实践,以便在您用新的遗物APM录制的应用程序中获取警报条件。
健康)状况 | 用法 |
---|---|
Web交易时间和APDEX的阈值条件 | 当应用程序不符合Web事务时间或APDEX阈值时,触发警报。 |
交易吞吐量的基线条件 | 触发仅用于突然的交通丢失或尖峰的警报。(基线条件通过考虑预期的交通波动来减少噪音。) |
误差百分比的阈值条件 | 触发提高申请错误百分比的警报;对于APM应用程序,此阈值应为0。 |
基线响应时间和吞吐量警报关键外部请求 | 触发上游服务提供商(例如,付款网关)引起延迟的提醒。 |
对于负载平衡应用,异常条件关于吞吐量,响应时间和错误率,由主机刻划 | 触发为单个主机本地化的应用程序问题警报。特定于主机的条件有助于解决根本原因分析;例如,如果群集中的节点停止接收到流量,则不会影响所有其他节点,但您仍然需要对其进行故障排除。 |
基线吞吐量和个人高价值交易的响应时间条件 | 触发关于高价值交易的波动的警报,如结账或登录,通常只代表整体交易的一小部分。 |
为基础架构主机配置警报条件
使用以下示例作为使用新的遗物架构进行监视的主机的警报条件的最佳实践。
健康)状况 | 用法 |
---|---|
CPU,内存,I / O和每个主机存储的阈值条件。 | 触发主机整体健康的任何基本度量升高到接受的阈值时提醒。 |
“主持人未报告”每个主机的条件 | 如果主机突然崩溃或无意中关闭,则会触发警报。 |
关键过程中的阈值条件,以确保它们以所需的容量运行(例如,Java虚拟机,日志观察者等) | 触发诸如JVMS的进程在上述接受阈值时提醒。这些可能与其他警报结合触发,如吞吐量异常值,并帮助根本原因分析。 |
下一步:有效实施的警报策略是任何成功的Devops团队中最重要的部分之一。退房在实践中有效警觉学习:
- 现代技术堆栈中的转变是如何改变警报策略
- 一些警告动态和缩放环境的最佳实践
- 如何设计和维护对您的组织和团队有用的警报系统