获取即时Kubernetes可观察性 - 无需代理。 符合Pixie自动遥测

语言可以是良好的沟通的障碍。所以反对利益可以。但正如俗话所说,“数字不撒谎。”无论你喜欢它,你都不能争议硬数据告诉你什么。

在我们的业务27日全球在美国,我们每天依靠数据来打破我们地理分布的开发团队、我们的开发和站点可靠性工程(SRE)团队以及我们和我们的客户之间的沟通障碍。当沟通受到阻碍时,工作效率和质量就会受到影响。这就是为什么数据是我们SRE组织的核心。在27全球,SRE既是一个业务支柱——在内部帮助我们确保开发项目的高性能和质量——也是提供给客户的服务,以便他们可以监控和响应生产工作负载中的问题。

SRE功能对我们和客户来说是关键任务,并且具有完整,准确的遥测数据至关重要。挑战是如何获得该数据而不对我们的工程师施加大量额外的工作,他们需要专注于提供优秀的产品。亚博最新版直播遇到挑战需要严格的可观察性和堆栈的自动化。

为什么堆栈的可观察性和可编程性?

可观察性 - 能够在整个软件堆栈中轻松分析和解决问题 - 为我们提供单一版本,以与我们的全球开发团队分享。但这不仅仅是我们的开发人员。它还向我们提供了对生产工作负载的可见性和洞察力,这通常会暴露在测试环境中可能不会出现的慢查询,资源争用和排队瓶颈等性能问题,并且我们的开发团队几乎不可能复制。

可观察性包括应用程序性能监控,基础设施监控,日志分析,数字体验监控 - 一切,无处不在,在云中,虚拟化,集装箱,单片,微服务,您将其命名为。如果您不想通过手动构建所有这些警报,您应该以编程方式收集和可视化所有这些地方的数据。您希望为他们提供API,以便他们可以将仪器编程到软件中并自动提醒。简单地说,这减少了劳动,减少了我们的团队的辛劳意味着它们可以更有效,并将时间放入有意义的工作而不是低级别的任务。

我们在27格罗巴尔如何这样做?我们使用新的遗物一体, which is a powerful observability platform with programmability built in. Let’s dig into some of the specific things we’re doing with New Relic to get the data we need, to not only break down communication barriers but also to improve productivity and product quality, and deliver real value to our SRE customers.

自动化使用可观察性作为代码

我们使用Terraform.作为我们提供和管理基础设施的主要工具。我们也使用Ansible.自动执行应用程序构建。从历史上看,我们的云工程师需要手动向基础架构添加监控,我们的开发人员必须建立监视到应用程序。现在,使用来自新遗物的Terraform提供者,我们利用API自动为我们的应用程序和基础架构添加监控。这就是我们称之为可观察性的代码。例如,当我们站起来一个新的Kubernetes Pod时,我们可以编写一个将新的遗物的APM代理注入该环境的Ansible脚本。然后我们只能在顶部放置变量。它为我们提供了一个模板,我们可以一遍又一遍地使用,而不是每次重塑轮子。

从DevOps的角度来看,以这种方式自动化——将可观察性编程到环境中——意味着我们可以移动得更快。正如前面提到的,它减少了开发人员不喜欢的辛苦工作。这样可以减少他们花在无聊工作上的时间,这样他们就可以专注于有趣的事情。

建立仪表板以改善全球团队之间的沟通

通过仪表应用和基础架构,我们能够收集大量有意义的数据。通过数据,通信问题出出窗口 - 没有更多的借口。我们使用多种不同的方式来改善通信,其中一个是用仪表板。

我们为我们的开发团队建立了最终的仪表板。像大多数现代IT商店一样,我们在不同的物理位置,时区和大陆有多个团队。在我们的分布式团队之间使用常见数据集是便于清晰通信的好方法。将日常运行数据升入仪表板使从一个团队转换到另一个队伍更平滑。它支持像我们这样的阳光模型。每个人都有一个地方,而不是试图向多个人手动传达信息。它们具有相同的相同数据的视图,这使我们能够在每天结束时出现的项目更加连续性。

仪表板还克服了发展和SRE团队之间可以存在的通信障碍。正如我们希望开发人员要编写可部署的代码,我们也努力使开发人员能够对现场可靠性的影响。这种可见性提供了DEV团队,围绕SRE团队的需求提供更多背景。对于SRE侧面来说是一样的 - 他们可以更好地了解开发人员活动。数据是双方在中间见面的一种方式,这是一套常见的指标,使团队共同拥有完全相同的谈话,这是一个巨大的改进。

提高生产率,减少平均解决时间(MTTR)

像New Relic这样的可观察平台的一个优点是它提供了对环境的单一视图。我们可以在30秒内让客户惊叹,只要给他们看Kubernetes集群使用所有服务,节点和命名空间。我们可以向客户端即时报告正常运行时间,性能和数字用户体验,而过去它将需要我们四个小时或更长时间才能收集所有信息。

我们的内部生产力也增加了。事实上,我们已经削减了一半的新项目的时间,并且通过使用全堆叠可观察性和自动化的组合继续减少。

解决时间的时间更快。例如,我们的一个客户拥有我们通过新遗物确定的数据库问题。几个月来,客户有应用程序性能问题,但没有人知道为什么在我们带来新遗物的可见性之前。从新遗物中挖掘日志,我们能够排除一个糟糕的查询并在第二天绕过修复。客户对应用程序进行了立即性能改进。

此示例可快速实现我们SRE服务查找和解决应用程序和基础架构问题的关键效益。我们希望能够在对客户产生任何影响之前检测和回应客户的问题。这就是我们使用新的遗物可以做的。

没有以数据为中心的策略挣扎

正如您所看到的,全堆叠可观察性和自动化对27格的产品和服务的性能和质量产生了巨大影响。亚博最新版直播我们不与通信斗争 - 我们有数据备份我们的索赔。我们可以实时测量应用程序和基础设施的关键操作属性,获得有价值的见解,并立即分享这些见解。可编程可观察性平台允许我们在没有大量额外工作的情况下获得更有用的信息。这是任何Devops团队可以欣赏的东西。