该网站可靠性工程(SRE)功能在各种公司中越来越普遍。这就是为什么新遗物在主题上放在一起新的电子书。叫站点可靠性工程:女士成功的哲学,习惯和工具那这本电子书结合了思想领导力、最佳实践和真实世界的学习,为那些对利用SRE的力量感兴趣的公司和专业人士服务。
想要了解更多,请查看以下八个重点,然后阅读免费电子书了解更多细节和见解:
1.SRE是谷歌发明的
“网站可靠性工程”短语归功于Google工程副总裁Benjamin Treynor Sloss。任务与建立团队有助于帮助确保谷歌的生产系统的健康在规模中,沉闷提出了跨功能现场可靠性工程角色 - 它是“当您要求软件工程师设计操作功能时会发生什么。”
2. SRES需求!
对于具有正确组合人才和经验的现场可靠性工程师,有足够的机会。去年,LinkedIn命名为SOT在技术中最有前途的工作之一,最近TechCrunch.“站点可靠性工程师是下一个数据科学家吗?”求职网站上有成千上万的SRE职位,既有科技公司,也有传统企业。
3. Sre是最纯粹的Devops形式
现场可靠性新的遗物副总裁Matthew Flaming表示,网站可靠性工程也许是“Devops原则的最纯粹蒸馏成一个角色。”就像在Devops一样,SRE的基本目标具有更高的可靠性,作为系统尺度的手工干预较少。
4.有两个缩放轴
火焰表示,软件组织必须计划两种类型或“轴”,令人震惊。第一轴是工作量- 为在它们上运行的服务供电所需的物理主机或虚拟机和其他资源。第二轴是复杂-这些服务之间依赖的数量和组织本身的增长。站点可靠性工程必须支持可扩展性的两个轴。
5. SRE是关于自动化的
为了实现这一目标,SRES依靠自动化,以提高他们触及的一切的可靠性,而不会减缓迅速运输软件的能力。根据新的遗物Sre Jason Qualman,这一切都是为了服用“人们手动做出效率和耗时的事情,并尽快将停止挡住。”也许这就是为什么“自动化”这个词经常出现在Sre工作描述中。不要惊讶地看到“自动化,自动化,自动化,然后...自动化!”作为一个关键责任。
6.SREs必须有远大的目标
Jason Qualman说,成功的SREs必须超越日常工作,看到更大的前景。变更经常会带来风险,SREs需要对这些影响进行彻底的分析。他们需要考虑他们的工作将如何影响特定系统、团队或更大的基础设施的其余部分。“我们的决策级别很低,”考尔曼指出,“而这些决策将影响到级别更高的人。”
7.SLOs是跟踪可靠性的关键
服务级别目标(SLO)通常用于跟踪服务提供商的性能,但它们也可以在现场可靠性工程中使用,以帮助组织:
- 调整高可靠性目标以适应公司战略
- 优先考虑满足可靠性目标
- 维护和建立内部和外部客户的信心
- 帮助团队重点努力实现可靠性
- 提高工程师对风险公差和开发速度的假设
- 减少不必要的体力劳动
例如,当团队始终如一地超过他们的股票时,他们可能会被推动以更快地移动并更具风险。但如果一个团队缺少它的股票,也许是时候关注可靠性。
8. SRE在不同的组织中是不同的
随着SRE角色扩展到越来越多的公司,这个术语的含义范围也在不断扩大。在谷歌、Netflix、亚马逊和Heroku这样的科技巨头,SRE主要是雇佣软件工程师来做传统上由IT运营人员处理的工作。在像New Relic这样的小公司,SREs是专注于提高系统可靠性的软件工程师。这意味着他们要做一切事情,从拥护可靠性最佳实践,到指导设计和流程走向弹性和低成本,再到减少技术复杂性和扩张。
想要了解有关网站可靠性工程的运营益处和职业机会的更多信息吗?查看新电子书站点可靠性工程:女士成功的哲学,习惯和工具。