这是对2019年6月最初运行的帖子的更新。

2017年2月27日是新遗物的令人难忘的一天。这是那一天Amazon S3 US-East-1区域离线- 14小时。

中断强迫新的遗物组织历史上最广泛的事件反应之一。我们抛出了我们对客户面向客户系统的全部影响的一切,然后制定计划恢复我们的系统以及我们部署能力的计划。

无论如何,这都是一次痛苦的经历。然而,我们对亚马逊宕机的反应也是我们的巨大胜利新的遗物应急响应力(nerf):一个由能力和经验丰富的志愿者组成的团队,他们协调应对我们最困难的事件。

提升IC游戏的5个键

NERFS接管事件反应最具挑战性的一个方面:事件指挥官(IC)的作用。在新遗物,每个事故反应小组都有一个IC而且我们的一些最佳事件指挥官正在志愿者网上旋转。

对于大事具有高技能和精心准备的IC非常棒。(亚马逊事件是我们指定多个IC的新遗物历史中的少数人,以协调响应。)但是,新的遗物的每一个事件 - 不仅仅是来自良好事件命令的大福利。这一价值的大部分是我们了解到关于培训IC的课程的结果,以处理角色的独特挑战和责任。

以下是制作伟大事件指挥官的五个惯例。

在开始之前:上下文中的事件命令

新的遗物的事件响应过程,如我们的许多进程,是出生于Devops环境。这意味着,例如,我们所有的工程师都随时待命提供服务;没有行动墙可以解决问题。我们足够大,足够复杂,我们需要一些过程,但我们真的很努力地制作它足够了s而不是处理过程的缘故。

这种哲学还通知新的遗物每个对事件做出响应的开发人员都应该能够充当事件指挥官。如果事故变得特别严重或具有挑战性,我们可能会将更有经验的集成电路带入处理过程,对于最严重的事故,我们会自动呼叫待命削弱。但对于大多数突发事件响应,我们的当务之急是为每一位New Relic工程师配备工具、技能和信心,以履行IC的职责。

审核新的遗物的事件响应流程也很有用,以获得背景以了解我们对事件命令的方法。这是我们在以前的帖子中广泛涵盖的主题,最重要的是深入潜入我们的随叫随到和事件响应程序

我们也建议重新审视New Relic的使用方法无可指责的回顾,并学习有关我们应用于回顾和相关活动的最佳实践。回顾是我们事件反应过程的一个关键部分;他们也(我们将在下面讨论)必不可少地提醒ICs,当他们做出艰难的决定时,我们会支持他们——即使这些决定被证明是错误的。

一个快速提醒:为什么不容易......

当我们深入研究这些最佳实践时,回顾一下也是很有用的事件响应方案的三个定义特征。它们是IC角色往往是如此压力的原因,为什么事故自己可能是如此波动。他们是一个重要的提醒,为什么有效的事件指挥官是如此宝贵的资源。

  • 事件响应是一个高赌注事件。结果,最糟糕的事件可能对业务构成存在的威胁。无法访问软件的客户可能只是离开,或者您可能会发现自己违反合同SLA。
  • 事件响应是一个高音竞争事件。换句话说,他们在和时间赛跑。在一个事件中,你可能会担心客户归档支持票或积极关注状态更新和解决方案。亚博直播平台输掉这场比赛可能意味着失去一切。
  • 事件反应涉及人群。当您将人们纳入高赌注时,高点状况,压力耗高。

无论如何,我们在这里讨论的所有内容都是为了解决这三个特性及其产生的问题。

事件指挥官培训和赋权:5个新的遗物最佳实践

1.良好的事件指挥官观点协调作为他们最重要和最紧迫的任务。

突发事件就像高压锅:它们混乱不堪,极其活跃,而且往往不可预测。它们是复杂的;其中很多涉及到的活动部件比一个人可能掌握的还要多。在某些情况下,信息稀缺且高度不可靠;在另一些情况下,一个团队被多种实时信息流淹没。

在这样的环境下,那些视自己为“决策者”或认为自己拥有所有答案的经济人注定要失败——他们更有可能放大恐慌,而不是遏制恐慌。

成功的ICS专注于协调。他们的工作是识别和招募合适的人,拥有合适的知识和技能,以制定有效的团队应对措施。他们能够确保所有玩家都拥有他们所需要的内容;他们减少摩擦,促进清晰的沟通。

作为协调员,IC是风暴中心的平静 - 恐慌和反应思维的解毒剂。在实践中,这意味着:

  • 专注于询问正确的问题 - 不了解答案。
  • 确保建设性的想法不会被淹没或被忽视。
  • 质疑和挑战思想评估他们的优点。
  • 推回群体和反应思维。
  • 将故障排除留给其他团队成员—但是支持故障排除过程。

如果你还记得这篇文章的一件事,那就是:成功的ICS专注于协调。

2. IC控制情绪,信息和分析流程

新的遗物IC使用我们所指的是“三流动”,以保持团队平静,专注,并准备工作:

情绪流动。事件是恐慌和反应行为的育种场所。识别出恐慌的回应和引导人们在其中的是IC的首要任务

注意事件参与者的情绪,包括你远程通信的人。你越早认识到反应模式的转变,你越早行动将他们拉回一个平静,专注的心态。

信息流程。这主要是关于了解你的参与者:谁在房间里?他们已经知道什么,他们又知道什么知道他们关心吗?

IC在这里的作用包括倾听、过滤和对有意义的东西采取行动。你需要呼叫另一队吗?是否有可以解决棘手问题的领域专家?刚刚加入事件响应的工程师是否了解当前状态以及他们如何提供帮助?你是否发现了一些关于事件的新情况,可能对与客户沟通很重要?有一段时间没有一位工程师同意执行一项关键任务,并提交状态报告了吗?当ICs将自己视为管道时——致力于将正确的信息传递给正确的人——解决方案往往会出现得更快。亚博直播平台

分析流程。有时你会得到一个你知道究竟是什么错的事件,你可以专注于实施修复。

但最重要的是,你会得到其他类似事件——就像工程师决定看看当运行一个带有65个连续通配符的查询时会发生什么。(现在我们知道了:不好的事情总会发生。真实的故事!)

这种事件可能是可怕的,但它们也非常有价值。他们是IC的机会,实时发现,他们的系统的心理模型与现实 - 或与他们的同事们对齐的地方。

3.成功的事件指挥官是事件上下文的主人

当您的主要工作涉及协调时,上下文非常重要。这是为您的连接,识别有用资源以及在团队知识和能力中的空白中提供符号的燃料。

有三个领域,它对IC特别有用,从而提高了他们对上下文的把握:

熟练掌握组织的技术和人员系统。这包括了解常规系统架构,如何合适地组合在一起,以及系统的哪些部分在给定时间的最大压力下。

例如,如果IC运行的事件仅限于其团队的服务,则需要了解服务的一般架构、功能和直接依赖关系。

运行大型、多团队事件的削弱需要对边界产品架构有一个总体的了解。另一方面,集成电路不需要有a对系统有深刻的技术理解涉及到一个事件,就像意识到服务可能如何组合在一起一样。

IC还应该了解组织:角色和团队是如何定义的,如何接触人,以及根据发生的事情需要哪些人和团队参与进来。

熟悉组织的事件响应流程。我们不希望我们的IC记住每个细节或每一行文件;经验丰富的IC可以通过开发基本事件生命周期的“肌肉记忆”来实现相同的目标。但是,如果IC将相关过程保留在其指尖中,它当然有助于帮助。

了解组织的优先事项,文化和工作方式。一个成功的事件反应重点介绍,在组织通常的实践和能力范围内留下实际解决方案。亚博直播平台来自这些核心功能的IC杂散,难以组织和维持响应。

4.要明白培训是至关重要的,但鉴赏人才的眼光也很有用

你最不应该做的就是因为IC“缺乏人才”而阻止他们。通过正确的培训,几乎任何人都可以成为一名优秀的IC,甚至可能成为一名优秀的IC。

仍然,鼓励拥有某些特征的IC很棒。这些人可能会更快地吸收训练,保留更多他们所学的培训,并且他们可能拥有对抗恐慌并在压力或混乱环境中运作的正确情感特征。

当谈到训练事件指挥官时,一些“自然”的迹象包括:

实现技术流畅性的人才。特别是,IC需要广泛的技术词汇所以他们了解房间发生的谈话。他们也需要良好的校准技术知识-i.e.准确的他们所知道的和他们不知道的感觉。

自我监管的天赋。如果你不能控制自己的情绪和智力反应,你就无法控制房间里的情绪流动。这就是医学专业人士所说的“临床超然”,事件反应越强烈,这种能力就越有价值。

天生对工作的热情优秀的ICs喜欢在事故响应过程中遇到的挑战。他们更关注成功反应带来的兴奋感,而不是失败的可能性。但他们也接受了这样的现实:他们不可能赢得每一场事件应对战——而且他们也接受了这一点。

总是请记住一件事:成功的组织也非常努力地使IC角色尽可能有吸引力。庆祝成功的事件决议 - 协调他们的IC。亚博直播平台同时,建立和培养一个无可指责的文化在您的开发团队中,并确保ICs不会因为做出艰难的决定或进入挑战事件指挥机会而受到惩罚。

5.练习,练习,练习!

迄今为止,练习是新手IC的最佳方式,以建立他们的技能以及他们的信心。练习会议越逼真,新手IC的影响就越多。

新的遗物练习方法的方法依赖于两个相关种类的模拟:比赛日和对抗赛日。这些事件中的第一个测试IC对预定义的事件响应方案的响应;第二次发展混沌工程方法,使用选定的“恶意演员”来加强意外恶作剧的强度和可能性。适应这些练习对测试中的练习相当容易,而且还可以在事件中做什么,而且还要评估它们在压力下的响应和表现如何。

New Relic还鼓励新的IC“模仿”IC的角色。这涉及到在事故中呼叫两名团队成员:一名有经验的IC和一名正在接受培训的IC。两个人都将参与这次事件。在可能的情况下,“影子”会有空间来执行集成电路的职责,有经验的集成电路会在需要时提供指导、提示和提醒。这种实践在个人团队层面上都可以很好地工作对于nerf角色也是如此。

强大的事件指挥官启用有效事件管理

正如我们在先前的帖子中描述的那样,良好事件管理的配方包括大量成分。可能没有人在工作中具有自信,平静,训练有素的事件指挥官。没有任何内容对于创建有效的事件指挥官作为一个认可IC的关键角色的组织,并投入培训资源,授权和承认伟大IC的组织。

Annette Sheppard是新遗物的高级产品营销经理。她专注于AIOP,一直在寻求学习新的东西。查看帖子

对新遗物博客的写作有兴趣吗?亚搏体育登入网送我们一个球场!!