在FutureStack错过了我们的大消息?在我们的圆润博客中阅读有关它的一切。 现在读它

关于站点可靠性工程(SRE)大家需要知道的10件事

读取9分钟

经过凯文凯西

如果您想成为网站可靠性工程师 - 或SRE,对于短暂而言,它肯定有助于确切地了解该角色实际上的人。

然而了解简单的问题即使对于退伍军人SRE也可能有点模糊,因为这个术语的定义仍然如此可延展。这实际上是一件好事,因为我们会在一瞬间。但它表明,SRE本身的世界可能对未经训练的眼睛有点神秘。

所以,就像我们最近出土的那样Devops的“秘密”,我们在这里做同样的工作,在相关领域的现场可靠性工程。

Whether you’re looking for your first role in SRE or are a grizzled veteran of the reliability trenches in search of a fresh perspective, you’ll find not only the history of the term, but also commonly accepted best practices and some fundamentals of SRE success gleaned from New Relic’s own SRE journey. These 10 “secrets” should be common knowledge—but too often aren’t.

1.术语“SRE”的信用进入谷歌的Ben Treynor Sloss

谷歌公司的工程副总裁本杰明·特雷诺·斯洛斯(Benjamin Treynor Sloss)将Site Reliability Engineering(简称SRE)引入了技术词典。这是一项艰巨的工作。作为沉闷的LinkedIn个人资料说:“如果谷歌永远停止工作,这是我的错。”

根据New Relic Site可靠性工程师Jason Qualman的说法,这不仅仅是一个有趣的技术琐事。这个术语的创建在很大程度上是为了描述谷歌操作其生产系统的方法,它仍然是当今SRE实践的基础。

“重要的是要认识到他在他提出的时候思考SRE的角色。杰森说,它是一种软件工程师的执行方法,“杰森说。“使用代码来增强和自动化您的运营辛劳是SRE工作的关键原则之一,不能重复。”

2.谷歌的一个工程师团队写了一本关于sre的书

鉴于谷歌的SaaS产品和云平台的全球范围,他们的SRES在规模上了解了一个关于可亚博最新版直播靠性的东西。后者的词是SRE的关键 - 它不仅仅是提高了今天系统的可靠性,而是更好地随着时间的推移而变得更好。

因此,如果一组谷歌工程师写了一本关于SRE的书,你应该读它。(你可以在线免费这样做.)S.尽管可靠性工程提供深入的角色及其实践。是的,它从Google的角度来看,谷歌如何做SRE是如何不一定的您的公司应该这样做,但这本书仍然是从新手到经验丰富的SRES的每个人的基础十。

3.SRE很大程度上取决于你对它的理解

理解是很重要的 -特别是作为SRE角色增殖-职位头衔和所涉及的实践都可以(也应该)非常特定于特定的组织。

“就像它的兄弟姐妹术语”devops一样,“网站可靠性工程”的定义可以得到娇嫩,“新的瑞典软件工程师说贝丝龙.贝丝补充说,在可预见的未来,这种情况可能仍然存在。

事实上,这是该领域的积极特征。SRE角色不是一定尺寸的态度。“我认为这是SRE的本质所固有的,”Beth解释道。“这是一种跨学科的作用,它对我们如何考虑人类连接到他们构建的系统的方式来改变。”

贝丝·朗和新relic SRE团队

所以,虽然谷歌的书是推荐阅读的,杰森指出,它不是一个所有人都可以模仿的方法。他警告说:“如果你的公司不像谷歌那样处理特定的硬件和软件组合,那么尝试采用谷歌的模式很容易陷入陷阱。”

新遗物的SRE的生长是一个很好的例子。杰森和贝丝注意到该团队已经尝试了SRE函数的各种地层 - 例如嵌入式SRE,一个集中的SRE团队,呼叫SRES等迭代 - 找出最适合新的遗物。

他们建议在您的组织中提出类似的方法。“实验,敏捷,并在最适合您团队的方式中使用这一角色,”Jason建议。

也可以看看:在新遗物定义现代软件角色 - SRES,由站点可靠性Matthew Flaming的VP

4.站点可靠性冠军可以帮助SRE为您工作

新的遗物自己的网站可靠性冠军(SRC)作用提供了如何改进工作以满足特定挑战的示例。

“SRC是拥有自己服务的自主团队的挑战的一种解决方案,”Beth解释道。“这种方法很棒,但它让这个组织易受伤害森林的树木。SRCS是山上的侦察员,俯瞰着更大的画面并帮助指导那些自治队在同一方向上移动。“

5.自动化是SRE的基础

尽管SRE的定义和实现各不相同,但它们都有一个本质上的词:自动化。

因为杰森在我们的帖子中解释了7个高效现场可靠性工程师的习惯,顶级SRES抓住了自动化的每一个机会:“很多这一角色正在考虑人们正在做的低效和耗时的事情,并尽快向他们停下来。你说,而不是在手工工作的道路上踢了一条可以踢的道路,而是现在要花时间自动化这一点,并阻止其他人不得不做这个痛苦的事情。“

6.没有标准的SRE工具 - 但是你应该标准化无论如何

没有一个,统一的sre工具集。但大多数专家都认为,任何寻求构建SRE函数的组织都应该自行定义它将使用哪些工具。除了自动化,标准化 - 两种工具和流程 - 对于可扩展性,重复性和其他重要目标至关重要。谷歌员工SRE利兹福琼说在新的遗物Futurestack 2017年纽约活动期间,标准化是谷歌的案例中支持更大的SRE团队的关键策略之一,以支持更大的产品团队。

正如Liz所解释的那样,“如果一个SRE团队要支持50个不同的软件工程团队,他们每个人都在做他们自己独立的事情,并且每个人都使用不同的工具,那么他们将会非常困难。”

也可以看看:站点可靠性工程师使用哪些工具?

7.SRE不仅仅适用于科技公司

不要被愚弄思考SRE只是针对云母和萨斯公司。正如Devops文化渗透着广泛的行业,网站可靠性工程角色正在扩大超越科技产业。

也可以看看:现代软件播客:晨星在金融服务业SRE的崛起

这只是一个时代的标志。正如New Relic喜欢说的那样,如今每家公司都是软件公司。这反映在SRE的蔓延和SRE就业市场上。最近的站点可靠性工程师在Glassdoor上找工作包括公司等开放职位,如三角洲航空公司和欧文斯康宁,以及喜欢eBay和Adobe。

8.SRE的卓越需要经验

Beth提供了一个可能变得更加普遍的透视,随着更多公司在SRE功能上增加和迭代:在里程表上有几英里的软件专业人士最好的作用。这并不意味着不经验丰富的人不能立即将SRE心态带到他们构建和维护的服务;相反,如果您在街区几次围绕块,就像现代系统的复杂性和大小更容易驯服的反映。

“SRE类似于建筑师角色,因为你无法在软件工程职业生涯的开始时真正承担真正的SRE,”Beth说。“你肯定可以迈进路径,但有效的SRE需要深度和广度的组合,一定的流畅性,你没有在地面上的严重时间,特别是具有重大规模和复杂性的系统。”

9. SRE与技能集一样哲学

对于网站可靠性工程,“Mindset”一词是键。作为一个有效的SRE是关于你如何认为你的技术技能。

根据它定义的方式,SRE角色需要混合开发和运营技能。但创建功能站点可靠性工程师不仅仅是讲述软件开发人员或系统工程师阅读谷歌的书。

贝丝说:“更大的挑战是帮助人们培养一种新的方法来处理构建系统的过程。”她指向这个等式Krishelle Hardson-Hurley的黑客中午文章关于SRE:“网站可靠性工程师=软件工程师+系统爱好者”。

“That equation captures the direction we’re trying to head here at New Relic, which is to say SREs should be well grounded in traditional software engineering practices and tools, but also have a knack for looking at the system holistically and understanding how to move the system towards reliability—or even better, towards resilience and graceful extensibility,” Beth says.

10. SRE应该是变革的催化剂

无论您如何在贵公司定义和实施SRE,它所体现的角色和实践应该具有级联效应。

Jason建议:“让你的SREs充当那些希望给团队带来可靠性的人的催化剂。”“在New Relic,我们的设置允许一些团队嵌入SREs,而其他团队可以根据需要提供SREs或src。但这并不能阻止任何想要以可靠性为理念进行开发的团队自行进行开发。”

事实上,虽然sre的头衔和职责都写有可靠性,但它可以也应该成为每个人的使命。Jason指出,New Relic的可靠性团队每月都会举行一次社区会议。任何人,无论是否SRE,都可以参加,并提出问题,或就任何可靠性主题发表演讲。

“这种方式,我们可以在不需要管理哪个团队最需要的物流的情况下传播可靠性的想法和文化。我们甚至可以在不需要与职称的帮助下实施和管理SRE原则,“他说。事实上,他笑话,“SRE的主要使命是自动化自己的工作。”