现代化的技术堆栈是一种奇妙,想象力和工程优势的奇迹。然而,这些环境中的大多数分享了另一个关键特征:脆弱性。事实证明,保持复杂的系统运行可能更具挑战性(和压力!),而不是首先建立它。

这就是为什么New Relic和大多数科技公司一样,非常重视事件响应过程。但是总是有改进的空间——在团队如何准备和应对事件,以及他们如何利用回顾从这些事件中学习和改进。

这是最近一次Futuretalk.-New Relic的月度技术讲座系列事件教训和SNAFUs的教训。“这也是新遗物与之合作的基础Snafucatchers项目,汇集了许多学科的专家,帮助科技公司应对复杂性,特别是围绕与事件和事件响应有关的主题。

观看视频,并继续阅读演讲中的四个关键观点:

1.事件响应包括在“尖端”工作

Futuretalk特色贝丝龙,以前是一个具有新的遗物可靠性意识团队的工程师,现在是Devops解决方案战略家和亚博直播平台蒂姆•迪,一个新的遗物网站可靠性冠军。Long和Tischler讨论了事件响应在维护高度复杂且关键任务系统中扮演的特殊作用。这些环境可能是固有的不稳定,但未计划的停机时间不是选项。

这是开发和运营团队称之为他们的田地的“尖锐结束”。这也是在长期指出的地方,从其他专业人士学习,包括第一个受访者和医疗专业人士的重要教训。“消防员是尖锐的终结;他们并不坐在办公室“跑步风险模型中。“他们在地上,他们实时地处理了火焰。”

“医疗专业人员,尤其是急诊医生、外科医生和麻醉师,是医学的尖端工作者。麻醉师理查德博士-a snafucatchers联合创始人和事件管理领域的关键人物 - 作为一个特别重要的影响。

2.事件响应是一项团队运动

“事件几乎都是集体活动,”Long说。“你会有一个团队来处理这些问题,尤其是那些跨越团队边界、需要大量合作的更有趣的事件。”

事故响应过程的协作性质提出了另一个问题,“合作昂贵,”她解释说,“所以主题我们和SNAFUcatchers正在做的研究是协调的成本:你如何支付把你需要的资源放在第一位的成本?”

3.认识并避免死后的“死亡循环”是很重要的

具有讽刺意味的是,真正的站点可靠性工作往往开始了团队解决了事件。验尸或新的遗物呼叫回顾性阶段是什么,是团队收集事件响应数据,访谈参与者,编译其知识和经验教训,并适用这些见解来持久改进。

这就是回顾性的应该至少要做到。然而,事实是,随着时间的推移,回顾过程往往退化为空洞的形式——库克博士所称的“死后循环”的受害者。

“我们都在生产压力下,”长时间告诉Futuretalk与会者。“我们不断制作这个权衡:我们花了多少时间和精力比较观点和说话,以及我们花多少时间做真正的工作?在回顾性上略微削弱了很多倾向,所以我们没有那么多。“

随着时间的推移,这种趋势创造了反馈循环。“最终,你得到了忙碌的回顾,”长说。“这是死亡螺旋的不幸结束。”

要扭转这一进程并不容易,但New Relic的解决方案是对情绪激动、影响巨大的案件轻举前行;并且深入研究涉及许多参与者、跨团队依赖关系和有趣场景的事件的回顾。

这种深入的过程涉及称为过程描绘的东西,这是新的遗物一直从团队中学习,长期解释。除了一个规范后验尸文件和与参与者的广泛访谈之外,流程跟踪还包括来自新遗物团队外部的观点。

“这是与SNAFUcatchers的合作,”Long说,“让专家来研究我们产生的人工制品,帮助我们了解如何研究正在发生的事情。”

4.学习如何最大化事件回顾的价值和影响

漫长而Tischler还分享了其他几个关键,以提高团队事件回顾的质量和持久影响:

一个常见的事件响应错误,Tischler表示,涉及搜索事件的单个“根本原因”。“根本原因谬误基本上是说x导致y,即使在现实中......所以A和B和C和D和D和E,”他解释说。“如果任何人都没有真实,那么就没有事件 - 但这是改变的事件去年这让我们走了,'AHA!'。“

上面的视觉摘要称为潜在失败或“瑞士奶酪”模型- 展示许多不同团队和功能的多重失败必须对齐,以便进行重大故障。“沿途中的每一步都有一些东西,”Tischler说:“因为这些能力中的任何一个都可能在发生之前做出了不同的东西,这可能已经阻止了这一事件。”

许多事件中的另一个经常引用的因素,长期指出,是人为错误。然而,虽然很容易归咎于个人,但这样做很少讲述整个故事。

例如,之后2017年9月Equifax数据泄露公开了近1.5亿人的个人数据,该公司的首席执行官将事件归因于人为错误。在单个员工上钉住责任,长期以来,既太简单,极其不公平。“有一个人制造改变导致开放的数据丢失,但不能在此之前检查?”她问。“有没有替代方式[数据]可以存储吗?”

相比之下,长期以来,亚马逊明确拒绝责备它2017年2月S3中断在输入触发中断的命令的工程师上。相反,她指出,“[AWS]说:'你不应该在命令行中击中输入并取下S3 USE-EAST-1'。如果你能做到这一点,有一个更大的系统问题。这是我们需要解决的问题。“”结果,长期以来,亚马逊能够专注于改善其流程。

最后,Tischler谈到了后见偏见,即人类倾向于将事件中的混乱和不确定性转化为事后看起来非常不同的东西(如下所示)。

蒂施勒说:“进行更复杂的事件分析的挑战之一是,确保我们从头开始,一步一步地让人们浏览[事件]记录,这样他们就可以在进行过程中重建事件的背景。”另一方面,问开放式的问题会让人对事件产生理想化的回忆。

快速问道也很重要。新的遗物试图在一个商业日内在高度严重性事件中进行回顾,以便在他们对参与者新鲜时捕获细节。她承认,“有竞争期和优先事项的持续推移”。“但是,即时性非常重要。”

改善“不可知”

令人困惑的是,现代复杂的系统在某种程度上是“根本不可知的”,Long警告说,“我们没有办法完全理解这些系统。”

但事件和回顾,她说,可以揭示这些系统内最紧迫的风险来源,并激励组织投资有用的变化。“事件有助于我们查看系统的领域,我们可以最妥善调查和挖掘这种复杂性,”长表示。“他们可以帮助我们获得我们需要进行通常避免的工作所需的资源,因为风险通常是不可见的。”

不要错过我们下一个未来的事件

有关我们的更多信息Futuretalks系列,确保加入我们的聚会组,新的遗物Futuretalks PDX,在推特上关注我们@newrelic.有关即将到来的事件的最新发展和更新。

马修·麦肯齐(Matthew McKenzie)是New Relic的高级内容编辑。他是一位经验丰富的作家、编辑、内容策略师和IT行业分析师,在跟踪云计算和相关技术的发展方面有超过20年的经验。查看贴子

对新遗物博客的写作有兴趣吗?亚搏体育登入网送我们一个球场!!