我们听到了很多关于承诺的DevOps这些天,关于文化、工具、过程和监视的转变如何改变团队交付软件的方式。我在一个New Relic DevOps团队工作,我相信这个承诺。

但我说我工作在Devops团队上?最近,我的经理在博客文章中解释(如何管理Devops团队:与新遗物移动团队经理的问答是什么感觉管理一个devops团队。但是是在这样的团队中成为个人贡献者是什么样的?什么是典型的日子,如Devops Pro,或者在我的情况下,一个网站可靠性工程师(SRE)?

这篇文章——几天内发生的真实事件的混搭——旨在回答这个问题,但我可以告诉你一件永远是正确的事情:日子过得非常快。

一个快速的早晨

8:00-8:30:这是我处理家务的时间。办公室仍然很安静——通常是在这个时候——所以我冲些咖啡,查一下邮件,进入一天的最佳状态。

我是新的遗物移动团队上的sre。我们建造和发货新瑞典手机APM产品,手机应用开发者用来监控他们的Android和iOS应用。具体来说,作为一名SRE,我负责我们产品的可靠性。和我的团队一起,我要确保我们发布的代码是可靠的,我们部署的“金丝雀”会按照我们的预期运行,我们的部署管道是清晰易用的,我们的管道的关键部分(例如,Kafka.亚马逊简单队列服务(SQS),亚马逊S3)正按预期工作。

在我前往第一次会议之前,我检查我们的操作仪表板,以确保没有系统报告过内存(OOM)误差过夜,也不会令资源匮乏。我还检查我们的Kafka主题按预期流动。我们建立了一系列New Relic的见解仪表板涵盖我们所有服务以及我们在美国和欧洲的地点。今天,我还审查了新遗物的可靠性报告,该报告显示了所有团队和所有产品的上次运行时间的最后三个月。亚博最新版直播

9:00-9:45首先是集装箱Linux(Coreos)实务界会议。在New Relic,我们使用实践社区来联系公司周围想了解我们如何设计产品的人。亚博最新版直播最近,CoreOS CoP一直在讨论我们正在做的工作,将我们的容器基础设施从Docker转移到CoreOS。

今天,讨论的话题是深入潜入的核心CPU分配如何在集装箱内部工作。

9:45-12:00:好了,是时候进入高潮了。我们正处于升级的最后阶段Apache Kafka.簇;具体来说,我们从版本0.8到0.10,这是痛苦的一点。依赖关系在版本之间更改,代码已更改,配置对象不再兼容。在KAFKA 0.10中公开的新配置选项已更改版本0.8版本的所有默认值。它已经采取了重新配置生产者的一笔工作。并重新配置消费者在公园里没有散步。我们必须将每一个人升级,升级它,重新配置它,让它备份,并希望它在群集中缺席时创建的任何滞后。

这足以让一个工程师准备吃午饭了。

12:00-13:00:我在我们波特兰办公室(New Relic工程公司的总部)外的食品推车里买了些外卖。

回到办公室,我遇到了另一个SRE,我们一边吃东西一边做一个副项目。她希望改进一些工具,以便对相当混乱的单块服务进行故障排除。该服务是Java、Python和Go代码相互依赖的混合体,要使用它,你必须检查各种回购,并将它们链接在一起。该工具使处理服务中的大多数问题变得非常容易,但要让工具在开发人员的机器上可靠地运行却很棘手。我们最终决定将整个工具生态系统打包起来,这样任何需要排除问题的人都可以访问工具的可信版本。

我们DevOps英雄。

当我回到办公桌时,我从我的经理获得了一个松弛的消息:“紧急MMF会议。

甚至更快的下午

13:00-13:30:在我的经理的博客文章中他谈到了我们的团队T形,所以我们都分享一定的技能和专业知识。我可能是一个行为主要集中在我们产品的后端,但我发现MMF规划会议,我们有一个星期的船一个新的UI组件,我们下一个前端开发人员是在度假,所以我应该期待一些前端用户界面的工作方式。虽然我认为这是件让我头疼的事,但我知道这将帮助我更好地理解我们如何设计和构建应用的前端。

这是一个加快的MMF,这意味着我们都会尽可能地放弃我们正在做的事情并尽可能地挖掘。

13:30-14:30:我无法开始在那个新功能上工作。由于我是团队的SRE,我必须参加我们的网站可靠性冠军的季度容量规划会面。在此次会议期间,我们审查了我们所有环境中所有微服务的当前资源利用率。我们计划下一季度的项目,并确保负责购买服务器的团队能够让我们获得这些资源。

14:30-16:00:在接下来的90分钟里,我和我们的前端工程师一起对新的MMF。我们必须修复一个错误的时间选择器,这需要深入到应用程序的反应代码。

16:00-16:30:我必须绕过MMF工作,并在季度风险矩阵会议上代表我的团队。在这些会议中,我们与一个新的遗物建筑师会面,我们确定了我们拥有的新遗物生态系统部分内的任何即将发生的风险及其预期的影响。然后我们会集思广益,以删除或减轻这些风险。今天,我报告说,我的团队推出了一对我们必须融入风险矩阵的新服务。其中一个服务有助于我们在几个核心数据库上抽出直接依赖性。我们通过观察者将记录和流更新缓存到我们的缓存,这应该帮助我们减少与数据库中断相关的任何风险。

16:30-17:00:回到那个mmf ...

——下午17:00时:在我离开办公室之前,我最后看了一下我们升级Kafka的情况。我们已经部署了新的消费者车队,但运行版本0.8和0.10的消费者不能共存。因此,为了部署新车队,我们必须完全关闭所有现有的客户,并部署新的客户。我们部署了车队,但消耗水平太低跟不上交通。我们很快地恢复更改,避免了事故的发生,但明天我必须找出消耗量低于预期水平的原因。

所以,那是斋戒的一天!但这就是问题的关键。

有时候,我承认,一整天都在一个问题 - 偶尔工作会很高兴,我就是这样。但如果我们都有这样的近视观点,Devops无法成功。新的遗物迅速移动,因为我们的客户快速移动。超越速度,我们需要多功能性和仔细规划和对我们系统的全面意识。我可能已经花了我的一天,但它在帮助我的团队发货我们可以的最佳产品。

Yonatan Schultz是一个新的遗物SRE和后端Java开发人员。查看帖子

有兴趣为New Relic博客写作吗?亚搏体育登入网送我们一个球场!!