最近,我遇到了一个朋友,他正在一家新创业公司领导一个产品小组。当他告诉我他建立一个年轻组织的日常工作时,我的可靠性第六感开始激动起来。我问:“你知道你的正常工作时间是多少吗?”“99.998%,”他回答道,这基本上意味着该公司从未经历过任何类型的事件。“你们当然会发生事故,”我说,“每个人都有。我们都做。”

“我不知道,”他说。“我们并没有真正跟踪。”

作为New Relic网站可靠性部门的副总裁,我从不止一个组织那里听说,他们没有一个好的方法来跟踪事件及其解决方案。亚博直播平台我朋友冒了很大的风险,他甚至都没有意识到。我认为这有两大后果:1)这样的组织最终对其产品或平台的表现没有一致的看法;2)他们最终没有统一的方法来集中可靠性工作。他们发现自己的决策是基于近因偏见、观点和内部政治。

在New Relic,我们通常将事件定义为当我们的系统以一种可能对客户产生负面影响的意想不到的方式运行时发生的事情。我们的信念是,我们应该一直收集事件的数据,包括他们的决心和计划的细节,以确保它们不会再次发生。亚博直播平台在New Relic,我们使用了一个叫做Upboard的工具,这是一个用于跟踪事件完整历史的自定义应用程序。

用上板跟踪事件数据

一旦事件指挥官(IC)声明一个事件在我们指定的Slack通道中,有一个名为Nrrdbot的机器人GitHub的Hubot),自动创建入口在Upboard。

从这一点开始,任何时候IC改变状态或在松弛通道中添加事件,Nrrdbot将状态或事件记录到Upboard。Nrrdbot还向当前IC发送提醒警报,以确保他们至少每10分钟更新一次状态。

Nrrdbot请求状态更新

当响应人员努力解决该事件时,ICs需要完成有关该事件的多个字段,包括指定:

  • 负责这次事故的团队
  • 事件发生的时间
  • 事故的技术细节和根本原因
  • 事件的触发事件(例如,达到容量限制、配置更改/错误、代码缺陷/错误、第三方依赖关系故障或更改,或硬件故障)

我们还使用Upboard来跟踪后续行动(直接链接到Jira(如适用),并连接到任何有关该事件的回顾。如果适用,您还可以记录任何与事件有关的消息给客户。

最后,Upboard最重要的功能之一是,在完整的报告填写完之前,应答者不能“关闭”事件。

收集每一次事故的大量数据似乎有些小题大做,但我们不只是为了收集数据而收集数据。我们收集的是关于我们平台的“元事实”——什么才是真正导致事件发生的原因?我们系统中的热点在哪里?是否存在导致事故的通用主题(比如配置更改vs.手动操作错误vs.意外工作负载vs.代码缺陷或回归)?是否有些团队的传呼机负载难以维持?我们可以在哪里最有效地指导我们的“可靠性工作”预算来提高稳定性和质量?什么样的新流程或培训可能会有帮助?

我无法想象在没有数据支持的情况下回答这样的问题。

Upboard如何帮助

我们用Upboard收集的数据在很多方面都对我们有帮助。首先,它帮助我们确保从事件发生的那一刻起,直到事件解决之后很久,我们都在问正确的问题。我们的目标是发现问题的真正根源,并为未来的预防制定计划,而不是找一个人或团队来承担责任。

第二,我们用Upboard收集的数据可以帮助我们了解一个团队发生了多少事故。至关重要的是,我们要识别出高风险的团队,并找到帮助他们防止未来事件发生的方法,无论是通过支持他们减少工作,还是通过在需要的地方偿还技术债务。

最后,我们的上行数据为我们提供了对更广泛的组织模式和可靠性度量的宝贵见解,例如平均故障间隔时间(MTBF)平均修复时间(MTTR)。MTBF度量修复软件故障所需的时间,MTTR则跟踪从事件开始到响应程序启动响应过程的时间。这些都是无价的度量标准,特别是当您的工程团队需要坚持特定的时候服务水平目标(slo)我们也用Upboard追踪。

为了你的生意

无论是新的还是旧的,任何托管复杂软件系统的人最终都必须回答这个问题,为什么会发生这种情况?我们的成熟是基于我们是否能够用干净的历史数据和事实来回答这个问题。

您可能还没有准备好构建(甚至购买)一个完全集成的自定义工具来跟踪事件。当你建立一个年轻的组织时,一个简单的电子表格可能就是你目前所需要的——一个低成本高回报的投资。丰富的数据集以及对系统、团队和组织如何响应和从事件中恢复的可靠理解是提高业务运营意识和实现卓越的最佳方式。

贝丝长他是New Relic公司可靠性工程团队的一名软件工程师

Matthew Flaming在DevOps还没有名字的时候就开始做了,他写分布式Java系统,并在90年代末的创业公司中寻找托管这些系统的服务器。他一直参与架构和实现从物联网云运行时到大规模数据平台的SaaS软件。目前,他是New Relic网站可靠性的副总裁,专注于SRE实践,以及规模化和可靠性的技术、操作和文化方面。查看贴子

有兴趣为New Relic博客写作吗?亚搏体育登入网给我们发一份建议书!