获取即时Kubernetes可观察性 - 无需代理。 Pixie Auto-telemetry见面

在最近的一篇文章中,我们检查了站点可靠性工程师的兴起在现代软件组织中。但这是一回事被称为一个行为;我们也想知道怎样才能成为一个优秀的团队。

因此,我们决定研究一些非常成功的SREs的共同特征和习惯。和大多数开发和运营角色一样,一流的技术能力显然是至关重要的。对于SREs,这些特定技能可能取决于特定组织如何定义或处理这个角色:地址可靠性工程的谷歌方法可能需要更多的软件工程和编码经验,而另一个组织可能更重视运维或QA技能。但当我们观察是什么让开发ops.成功的实践者,将“伟大”与“足够好”区分开来的往往是一些习惯和特质的结合,这些习惯和特质是对专业技术的补充。

下面概述的七种习惯来自广泛的采访,与新的遗物软件工程师Beth Leng和网站可靠性工程师Jason Qualman。让我们潜入:

放大镜习惯一:你在更大的背景下分析每一个变化

成功的软件开发人员理解他们的代码是如何帮助驱动整个业务的。SREs有自己的这种特质。杰森说:“你要找的是一个真正能在日常生活之外考虑大局的人。”“一个成功的SRE是能够在更高层次上理解和诠释事物的人。”在New Relic,我们内部将其描述为“一个不断分析每一个变化的风险及其未来可能产生的影响的人,而不仅仅是今天。”这对更大的基础设施意味着什么?”

习惯2:你是务实和前瞻性的关于这种分析

最好的SRE采取务实的方法,并考虑他们的工作如何影响特定系统或团队的其余部分。坐在围墙上的淤泥方法上几乎没有担心墙上的变化,这对于坐在另一边的人的影响无担心。

“我们的决策非常低,”贾森谈到SRE的角色时说。“有时,这可能会影响到所有的人。你需要这样的人,他们能够理解自己对某个特定问题的解决方案将如何影响其他人。”

习惯3:当某些事情实际上有帮助时,你愿意继续前进

对于SRE,部分是务实的意味着愿意倾倒可能是良好意图的流程和程序,但并没有结果实际上是富有成效的。当新的遗物正在进行其可靠性实践时,Beth回忆起一个内部例子。

“几年前,我们正在经历一个快速增长的阶段,并处理我们实施的任何相关不稳定,我们实施了”改变验收板“(CAB)过程。在他们进入生产之前,它旨在帮助我们评估释放,以防止破坏发生进一步的事件。讽刺是,通过减缓我们的发布周期,我们开始积累更大,更大的变化,这与预期效果完全相同。实际上这些更大的变化增加与每个释放相关的风险。“

最终,CAB过程被抛弃,取而代之的是更频繁但更小的版本,这产生了更好的结果。

笔记本电脑齿轮习惯四:你拥抱每一个自动化的机会

一流的SREs成功地应对了一个关键挑战:如何在不降低公司快速发布软件的能力的情况下,提高所有产品的可靠性。解决方案几乎总是自动化。伟大的sre总是积极主动地寻找解决痛苦的手工任务、bug等问题的方法,并采用新的方法自动化该过程或进行修复。

贾森解释说:“这个职位在很大程度上考虑人们正在做的低效和耗时的事情,并尽快阻止他们。”“与其对手工工作置之不理,不如说,‘我现在要花时间把它自动化,让其他人不再做这种痛苦的事情。’”

这种痴迷于自动化的关注并不是新的遗物 -Devops手册例如,有一章讨论了手动验收过程的反思效果。和“自动化”及其变体似乎比SRE工作描述中的任何其他词更常见。一种最近开在洛杉矶的Procore Technologies,它制作施工管理软件,作为其SRE工作描述中的第二个子弹点:“自动化,自动化,自动化,然后...自动化!”

习惯五:你可以说服公司去做需要做的事情

提倡特定自动化任务或SRE计划的信心是区分a团队SRE的另一个属性。你需要愿意去解释为什么自动化一个特定的过程或其他工作是至关重要的。这可能会有问题,因为它可能会与许多传统软件组织的文化和节奏发生冲突。

伟大的SRES在自己的自助经典的自助经典中以自己为中心的形式如何赢得朋友并影响他人。一部分工作,简单地说,涉及让别人做他们最初可能不想做的事情;例如,与软件工程师一起使用的软件工程师比在未来几年内的产品尺度可能会出现的问题。

优秀的sre必须是高效的销售人员,能够向他们的同事推销自动化特定过程或项目的长期好处,即使这可能会带来一些短期的痛苦。底线?贝丝解释说:“你需要深入了解情况,说‘停止’和‘不,我们真的需要现在就做这件事,’这在一些工程组织中可能很难做到。”

扳手和螺丝刀习惯六:扩展现有技能,加入新的工具和方法

由于SRE概念仍然是新的,因此许多SRE在承担角色之前在其他工作中工作。一些SRE可能有一个开发人员背景,而其他人可能来自传统的运营背景。杰森和毕奇注意到,一般而言,招聘经理最好不要将圣人角色归存为一个特定的背景。例如,传统的QA工程师可能有良好的妆容。

无论你的背景如何,SRE的职位都有机会挑战你,让你走出舒适区,发展新的技能。例如,一个运维实践者可能会从学习一种或三种编程语言中受益;拥有开发背景的人需要愿意并能够比过去更深入地思考运营过程和挑战。最好的SREs支持这种学习和技能发展。

习惯7:你相信这个过程

如果有一个非常成功的SRE引导理念,可能会以这种方式表达:你实际上并不追逐一个防止任何东西的圣杯打破。这很少工作。相反,你孜孜不倦地工作,以看到大局,融入自动化,鼓励健康的模式,学习新的技能和工具,并提高你所做的每件事的可靠性。完美永远不可能达到,但不断努力把事情做得更好是尽可能接近完美的方法。

不要错过:网站可靠性工程师的兴起