一些软件工作似乎和软件本身一样古老。像“程序员”这样的术语——或者更现代的版本,“开发人员”——现在已经不需要太多解释了。当然,日常工作职责和其他细节随着时间的推移而变化,可能因组织和其他变量而不同。最终,软件开发人员(或者类似的头衔,如软件工程师)仍然是用代码构建东西的人,即使他们使用的工具和语言已经有了长足的进步。

但是这种基本定义并不适合DevOps工程师,特别是站点可靠性工程师(Site Reliability engineer, SRE)这样的新角色。甚至在New relic也是如此——仅仅因为SRE的角色已经成为一个超级重要的内部功能,并不意味着每个人都同意SRE到底做什么。

New Relic的贝丝·朗

新遗迹的贝丝·朗

“几周前,我们有一个内部可靠性事件,并且一贯的反馈是每个人都有不同的接受”网站可靠性工程“的方式,”贝丝长在New Relic,软件工程师,网站工程师。“这绝对是一个带有许多灰色地带的概念!”

这实际上是一件好事,因为它说明了SRE角色的适应性和敏捷性,以及如何在组织的各个部分有效地实现它。也不是因为缺乏一个大多数人都认同的精确定义,所以我们不能试着给出一个——但先把这个想法放在一边。

在贝丝和她的组员的帮助下杰森Qualman我们在这里探索SRE角色的历史,它的加速增长和在许多组织中的重要性,以及它在New Relic是如何工作的。

SRE的历史:“希望不是策略”

“现场可靠性工程”一词被归功于本杰明特雷诺斯洛斯已经分居,谷歌副总裁副总裁。沉闷在2003年加入谷歌,并负责建立一支团队,帮助谷歌生产系统的健康在规模 - 没有小任务。沉闷自己定义行为如“当您要求软件工程师设计操作功能时会发生什么?”

沉闷的团队的成员字面写道《现场可靠性工程》一书;“上面的“希望不是战略”引用来自沉闷的“自己的书籍,并且被认为是舌头推定的脸颊,作为”传统圣徒“。

Sloss以SRE要面对的特殊挑战开始了他的介绍:“系统不能自己运行,这是一个公认的事实。那么,一个系统——尤其是一个复杂的大规模计算系统——应该如何运行呢?”

这是谷歌对该问题的答案,至少是简短的版本:聘请软件工程师通常在传统组织中处理的工作它操作.Sloss写道:“我们的网站可靠性工程团队专注于雇佣软件工程师来运行我们的产品,并创建系统来完成那些通常由系统管理员手工完成的工作。”亚博最新版直播

你可以把SRE看作谷歌自己开发的方法DevOps.显然,需要有效地管理大型的复杂系统,谷歌不是独一无二的 - 即使网络巨头缩影需要。您不必在操作软件服务谷歌不仅在科技公司,而且在许多软件越来越重要的其他行业,SRE的作用也在不断扩大。

SRE的增殖

无论你如何定义它,SRE这个角色在许多公司中都在迅速扩大。最近在网上搜索“网站可靠性工程师”玻璃门生产超过210,000个开放位置!

科技公司当然是很好的代表,它就像一个谁是谁的名单,实际上,从苹果到Twitter到Dropbox和更多的招聘SRE职位。但你也会看到很多其他的领头羊公司(如通用电气和大通)和行业(包括娱乐和教育)也在那里。这是现代软件对房地产(Zillow正在招聘SRE职位)和电视(Hulu也是)等长期存在的行业影响的另一个迹象。

Jason Qualman, New Relic

来自New Relic的Jason Qualman

尽管SRE的工作描述和日常任务可能因公司而不同——甚至在公司内部也是如此,我们将在稍后讨论——jason指出,几乎所有大型软件组织现在都有SRE功能的某些版本。具有DevOps或DevOps文化的具有前瞻性的公司可能已经拥有SREs很长一段时间了。

它开始向各种类型和规模的公司扩张。贝丝说:“我的印象是,这一趋势会慢慢渗透到小公司。”“谷歌、Netflix、亚马逊和heroko——这些公司拥有SREs已经很长时间了,因为它们拥有需求SREs的资源和规模。你开始看到这种角色出现在较小的公司,他们意识到——‘哦,我们需要有人来扮演这个角色’——他们开始听到更多这方面的消息。”

虽然对于网站可靠性工程师的职责并没有一个统一的定义,但Jason指出,有一种心态可以将它们统一起来:自动化的一切。Jason说,这可能是SRE最著名、最明显的特征。“想想任何一个行业,它们是如何变得更好、更快、更有效率的?”可能是‘自动化’。”

因此,越来越多的人需要具备适合SRE职位的人才和经验。去年TechCrunch问:“网站可靠性工程师是下一个数据科学家吗?“比较SRE角色也许是科技界最性感的职位说卷。今年早些时候,领英将SRE评为科技界最有前途的工作2017年!

SRE在New Relic的角色

New Relic的现场工程部成立于2014年,Beth回忆道,当时New Relic正开始快速发展,并应对随之而来的稳定性和可靠性挑战。但SRE的作用真正开始是在2015年。

Jason说,在New Relic,这个角色一开始是由重型运维人员慢慢开始将更多基于软件的方法应用到他们的工作中,而不是让软件工程师从头开始构建运维功能的谷歌方法。

“那种我们今天所在的地方。“我们有很多在SRE标题下工作的经营人,他真正努力为世界的网站工程方向带来更多的自动化和自我修复,”杰森说。如果Google方法本质上是以可靠和自动化的基础设施采用基于软件的方法,则新的遗物致力于为其现有的运营实践和人员添加更多基于软件工程的方法和技能。

今天,New Relic SREs不仅在站点工程组内工作,也在站点工程组外工作,嵌入在产品和平台团队中。因此,正如Beth之前提到的,你不会发现New Relic SRE的单一、统一的日常工作职责清单。但他们都在朝着一个共同的目标努力,并在软件和基础设施方面拥有共同的心态。

“他们怎么能给他们正在做的每件事带来可靠性呢?”杰森问。“他们在想,我怎样才能让它经受住失败?”我怎样才能减少维护这个系统的工作量?我怎样才能把一个痛苦的手动过程自动化,这样我们就不会在它上面浪费人力时间?我的首要目标是,我所做的任何事情,我的任何目标,我都要给他们带来可靠性,而且我也在带领团队的其他成员做到这一点。”

后一部分是将New Relic SREs嵌入产品团队的关键。他们可能承担软件工程任务,但他们也负责帮助发展自动化优先实践,减少辛劳和提高可靠性。这是最基本的目标:在系统扩展时,以更少的人工干预提高可靠性。

不要错过:非常成功的站点可靠性工程师的7个习惯

凯文·凯西为各种出版物和公司撰写技术和商业方面的文章。他曾因《信息周刊》的故事《你是不是老得不适合IT了?》而获得美国商业出版编辑协会颁发的阿兹比奖。他也曾是小企业影响者奖的社区选择奖得主。查看贴子.

有兴趣为New Relic博客写作吗?亚搏体育登入网给我们一个推介!