这是对2019年6月发布的一篇文章的更新。

2017年2月27日,在New Relic是值得纪念的一天。就在那天Amazon S3 US-East-1区域离线- 14小时。

这次中断迫使New Relic组织了我们历史上最广泛的事件响应之一。我们倾尽全力去理解对我们面向客户的系统的全面影响,然后制定一个计划来恢复我们的系统和我们的部署能力。

无论如何,这都是一次痛苦的经历。但我们对亚马逊宕机的反应也是我们的巨大胜利新的遗物应急响应力(nerf):一支有能力及经验丰富的义工队伍,负责协调处理最困难的事故。

提升IC游戏的5个键

NERFS接管事件反应最具挑战性的一个方面:事件指挥官(IC)的作用。在新遗物,每个事故反应小组都有一个IC而且我们的一些最佳事件指挥官正在志愿者网上旋转。

对于重大事件,拥有高技能和充分准备的集成电路是很棒的。(在New Relic的历史上,亚马逊事件是我们指派多个ic来协调响应的少数事件之一。)但新遗迹的每一个事件——不仅仅是大事件——都得益于良好的事件指挥能力。这些价值很大程度上是我们在培训集成电路以应对该角色独特的挑战和责任方面所学到的经验教训的结果。

以下是制作伟大事件指挥官的五个惯例。

在开始之前:上下文中的事件命令

New Relic的事件响应过程,就像我们的许多过程一样出生于Devops环境。这意味着,例如,我们所有的工程师都随时待命;没有行动墙来解决问题。我们足够大,足够复杂,我们需要一些过程,但我们真的很努力它只是足够的过程而不是为了过程而过程。

这种哲学还通知新的遗物每个响应事件的开发人员都应该能够担任事件指挥官。如果一个事件被证明是特别严重或具有挑战性的,我们可能会引入一个更有经验的IC到过程中,并且对于我们的最糟糕的事件,我们会自动呼叫NERF。但对于大多数事件响应,我们的当务之急是为每一个新遗迹工程师配备工具、技能和信心,以执行集成电路的职责。

审核新的遗物的事件响应流程也很有用,以获得背景以了解我们对事件命令的方法。这是我们在以前的帖子中广泛涵盖的主题,最重要的是深入了解我们的待命和事故响应程序

我们也建议检查New Relic的使用方法无可指摘的回顾,学习我们应用于回顾和相关活动的最佳实践。回顾是我们事件响应过程的关键部分;当ic做出艰难的决定时,即使这些决定最终被证明是错误的,我们也会支持他们(我们将在下面讨论)。

快速提醒:为什么这一切都不容易……

当我们深入研究这些最佳实践时,回顾一下也很有用事件响应方案的三个定义特征。这就是为什么IC这个角色总是充满压力,以及为什么事件本身会如此不稳定的原因。他们是一个重要的提醒,为什么有效的事件指挥官是如此宝贵的资源。

  • 事件响应是一个高风险的事件。结果很重要,最糟糕的情况可能会对企业构成生死存亡的威胁。无法访问您的软件的客户可能会直接离开,或者您可能发现自己违反了合同sla。
  • 事件响应是一个高音竞争事件。换句话说,他们是在和时间赛跑。在事故中,您可能会有担心的客户提交支持票或积极关注状态更新和解决方案。亚博直播平台输掉这场比赛意味着失去一切。
  • 事件响应涉及到一群人。当您将人们纳入高赌注时,高点状况,压力耗高。

无论如何,我们在这里所讨论的一切都是为了解决这三个特征及其造成的问题。

事件指挥官培训和赋权:5个新的遗物最佳实践

1.良好的事件指挥官视图协调作为他们最重要和最紧迫的任务。

事件就像高压锅:它们混乱不堪,极其动态,而且常常不可预测。它们是复杂的;许多项目涉及到的活动部件比一个人可能掌握的还要多。在某些情况下,信息稀少而且非常不可靠;在其他情况下,一个团队被多个实时信息流淹没。

在这样的环境下,那些认为自己是“决策者”或认为自己知道所有答案的ic注定要失败——而且他们更有可能放大恐慌,而不是遏制恐慌。

成功的集成电路关注的是协调。他们的工作是识别和招聘合适的人,有正确的知识和技能,以形成一个有效的团队反应。它们确保所有玩家都拥有自己的工作所需内容;他们减少摩擦,促进清晰的沟通。

作为协调员,IC是风暴中心的平静 - 恐慌和反应思维的解毒剂。在实践中,这意味着:

  • 专注于询问正确的问题 - 不了解答案。
  • 确保建设性的想法不会被淹没或忽视。
  • 对想法提出质疑和挑战,以评估其价值。
  • 抵制集体思维和反应性思维。
  • 将故障排除留给其他团队成员—但是支持故障排除过程。

如果你还记得这篇文章的一件事,那就是:成功的ICS专注于协调。

2. IC控制情绪,信息和分析流程

新的Relic ic使用我们所说的“三流”来保持团队冷静、专注和准备工作:

情感的流动。事件是恐慌和反应行为的育种场所。识别出恐慌的回应和引导人们在其中的是IC的首要任务

注意事件参与者的情绪,包括那些你正在远程沟通的人。你越早意识到转变为反应模式,你就能越早采取行动把他们拉回平静、专注的精神状态。

信息流程。这主要是关于了解你的参与者:谁在房间里?他们已经知道什么,他们又知道什么知道他们关心吗?

IC在这里的角色包括倾听、过滤和对有意义的事情采取行动。你需要呼叫另一队吗?是否有领域专家能够解决棘手的问题?刚刚加入事件响应的工程师是否了解当前状态以及他们能如何提供帮助?你是否发现了一些关于该事件的新信息,可能对与客户沟通很重要?是不是有一段时间没有一位工程师,在同意执行一项关键任务时,给出状态报告了?当集成电路将自己视为致力于将正确的信息提供给正确的人的渠道时,解决方案往往会出现得更快。亚博直播平台

分析流程。有时你会得到一个你知道究竟是什么错的事件,你可以专注于实施修复。

但大多数情况下,你会得到其他类似于这样的事件:一个工程师决定看看当您运行一个包含65个连续通配符的查询时会发生什么。(现在我们知道:坏事总会发生。真实的故事!)

这类事件可能很可怕,但也很有价值。它们是集成电路实时发现他们的系统心智模型与现实不符的地方——或者与他们的同事不相符的地方——的机会。

3.成功的事件指挥官是事件上下文的主人

当您的主要工作涉及协调时,上下文非常重要。这是为您的连接,识别有用资源以及在团队知识和能力中的空白中提供符号的燃料。

有三个领域,它对IC特别有用,从而提高了他们对上下文的把握:

熟练掌握组织的技术和人力系统。这包括理解一般的系统架构,事物如何组合在一起,以及在给定的时间系统的哪些部分承受最大的压力。

例如,运行限于其团队服务的事件的IC需要知道服务的一般体系结构、功能和即时依赖关系。

一个运行大型,多团队事件的NERF需要对边界产品体系结构有一个总体的理解。另一方面,IC不需要有一个对系统有深刻的技术理解涉及到一个事件,甚至意识到服务可能如何组合在一起。

IC还应该了解组织:角色和团队是如何定义的,如何接触到人员,以及根据发生的情况需要涉及哪些人员和团队。

熟悉组织的事件响应流程。我们不期望我们的ic记住每一个细节或每一行文档;一个经验丰富的IC可以通过发展基本事件生命周期的“肌肉记忆”来达到同样的目标。然而,如果IC能将相关的流程文件放在他们的指尖上,这当然是有帮助的。

理解组织的优先事项、文化和工作方式。一个成功的事件反应重点介绍,在组织通常的实践和能力范围内留下实际解决方案。亚博直播平台来自这些核心功能的IC杂散,难以组织和维持响应。

4.要明白,训练是最重要的,但甄别人才的眼光也很有用

你最不想做的就是因为IC“缺乏天赋”而打击他们。通过正确的培训,几乎任何人都可以成为一名优秀的IC,甚至可能成为一名伟大的IC。

仍然,鼓励拥有某些特征的IC很棒。这些人可能会更快地吸收训练,保留更多他们所学的培训,并且他们可能拥有对抗恐慌并在压力或混乱环境中运作的正确情感特征。

当谈到训练事件指挥官时,一些“自然”的迹象包括:

达到技术流利的才能。特别是,IC需要广泛的技术词汇所以他们了解房间发生的谈话。他们也需要良好的校准技术知识-IE。准确的他们所知道的和他们不知道的感觉。

自我监管的天赋。如果你不能控制自己的情绪和智力反应,你就无法控制房间里情绪的流动。这就是医学专业人士所说的“临床脱离”,事件反应越强烈,这种能力就越有价值。

对工作天生的热情。优秀的集成电路喜欢在事件响应过程中遇到的挑战。他们更关注成功回应所带来的兴奋感,而不是失败的可能性。但他们也接受了一个现实,那就是他们不可能赢得每一场事故反应战——而且他们也接受了这一点。

永远记住一件事:成功的组织也会非常努力地使IC角色尽可能地具有吸引力。庆祝事件的成功解决——以及协调这些事件的ic。亚博直播平台与此同时,建立和培养一个无可指摘的文化在您的开发团队中,并确保ic不会因为做出艰难的决定或进入具有挑战性的事件命令机会而受到惩罚。

5.练习,练习,练习!

迄今为止,练习是新手IC的最佳方式,以建立他们的技能以及他们的信心。练习会议越逼真,新手IC的影响就越多。

新的遗物练习方法的方法依赖于两个相关种类的模拟:比赛日和对抗赛日。这些事件中的第一个测试IC对预定义的事件响应方案的响应;第二次发展混乱的工程方法,使用选定的“恶意演员”来加强意外恶作剧的强度和可能性。适应这些练习对测试中的练习相当容易,而且还可以在事件中做什么,而且还要评估它们在压力下的响应和表现如何。

New Relic也鼓励新的IC“影子”IC角色。这涉及在事故发生时传呼两名队员:一名有经验的IC及训练中的IC。两个人都将参与这一事件。在任何可能的情况下,“影子”都被赋予执行集成电路职责的空间,由经验丰富的集成电路倾听,根据需要提供指导、提示和提醒。这种做法在个人团队层面上都可以很好地工作对于NERF角色也一样。

强大的事件指挥官启用有效事件管理

正如我们在先前的帖子中描述的那样,良好事件管理的配方包括大量成分。可能没有人在工作中具有自信,平静,训练有素的事件指挥官。没有任何内容对于创建有效的事件指挥官作为一个认可IC的关键角色的组织,并投入培训资源,授权和承认伟大IC的组织。

Annette Sheppard是New Relic的高级产品营销经理。她专注于AIOps,总是在学习新东西。查看贴子

有兴趣为New Relic博客写作吗?亚搏体育登入网给我们一个推介!!