让我们想象一个常见的场景,今天在许多公司经常脱颖而出。

一位工程师Sally,在半夜获得一个页面,了解了影响网站上的数字客户体验的内存。所以每一秒计数,但从寻呼机上的信息在她的手机上,她不能讲述问题是什么。她从床上滚下来,并记录了她的性能监控工具,以了解出了什么问题。

为了她惊讶,她可以看到的一切都没有滚动就会出现一个问题。她负责的2,000多种服务中的每一个都出现着性能下降的红色。这很糟糕 - 非常糟糕。莎莉开始滚动,但她无法准确计数受影响多少,也不能快速判断任何这些服务是否有共同点,如群集,框架,团队或相关服务。她也不能快速看出指标注册了一个不寻常的阅读。

因此,一个接一个,她从她的应用程序监控工具导航到日志管理系统到一个基础设施监控工具,以寻找线索和共度。她甚至检查真实用户的监视工具。这是耗时的,人类错误成熟,导致莎莉丢失的睡眠,并不满意为她的雇主提供了大门。但这是有多少公司遇到他们所谓的“可观察性”的现实。它们混淆了真正可观察性的监测。

SILED与全堆叠可观察性

许多公司缺失的是,可观察性 - 全堆叠,端到端的经验,看到整个IT堆叠的可见性 - 不能也不应该被各个监控工具静静。开发者角色可能会巩固 - 大约55%的开发人员,他们答复了堆栈溢出的研究将2020年的“全堆栈”开发人员识别为2020年与2015年的29%。但是一个全堆叠开发人员,尤其是组织所采用Devops文化的开发人员可能使用多个数据集的多个工具来获取新遗物定义的内容作为可观察性:理解复杂数字系统行为的能力。

并通过“复杂的数字系统”,我们的意思是所有代码,所有服务,基础架构,用户行为,日志,度量,事件以及跨越整个景观所收集的痕迹。Sally的微服务和分布式系统可以为客户面向客户的应用和关键工作负载提供更多的灵活性,可扩展性和效率,但它们使她越来越困难地易于查看大图片并获得真正的可观察性。

而且组织没有错误,真的 - 随着他们的整个庄园增长并且变得更加复杂,所以监控工具的数量也是如此。但是这些工具都没有将单一的真理源进入完整堆栈的端到端性能。一种瑞银证明实验室报告验证了这一点。采用Devops文化的组织的受访者使用平均四到五个工具来执行他们的工作,从APM向SIEM记录管理。

UBS证据实验室图形

但是,杂耍多个监控工具可以在软件系统上获取完整的图片或查找和修复问题创建盲点,增加劳动,并使诊断可能影响遗产的不同部分或应用程序堆栈的不同部分的问题更难。简而言之,他们获得了沉默的监测,或者也许他们称之为“可观察性”,但在我们的书中,如果它不是最终的可观察性,它就不是可观察性。

什么是端到端可观察性?

因此,让我们澄清我们的意思,当我们提到端到端或全堆叠,可观察性:

全堆叠可观察性是每个工程师单一的真理来源当他们排除故障,调试和优化性能整个堆栈。用户可以找到并解决问题快点在一个统一的经验提供连接的上下文和表面有意义的分析 - 从日志,基础架构和应用程序,分布式跟踪,无服务器函数,一直进入最终用户体验 - 而无需在滚动新工具或在它们之间切换。

对于我们的假设Sally工程师,执行此类可操作性的执行依赖性取决于优先化三个系统属性:

1.连接的上下文。当莎莉访问了关于她的2,000个服务之一的健康的度量时,她应该能够了解该服务如何影响分布式系统的其他服务或部分,这些工作负载如何受到托管它们的Kubernetes集群的影响,反之亦然。并且她应该能够了解群集和应用程序之间的问题是如何影响她公司网站,电子商务门户或移动应用程序的最终用户体验,从一个系统中都有。

连接的上下文是学习工具提供商的现实Chegg.享受。它在上下文中获得了对日志消息的综合视图,其中包含事件和跟踪数据来组装事件的完整图片。无论每个工程师的焦点,无论是后端,系统管理员还是Web开发人员,他们都需要在完整堆栈中接收即时上下文,这取决于下一个属性。

2。单一(开放)的真理来源。这意味着一个存储,警报和分析操作数据的地方。莎莉需要一个平台,可以从任何源摄取度量,事件,日志和痕迹,无论是从专有还是开源代理商或通过API和内置仪器。并且,一个地方需要足够强大,以便规模用于处理公司最大的日子的摄取负荷。通常,公司仅优先考虑一种类型的遥测,例如日志或指标,或者它们可以仅从系统,应用程序或实例的子集中示出数据。两者都导致可观察性和缓慢故障排除的孔。

出版和分析公司的OPS经理elewsvier.describes this situation aptly: “I would get a 3 a.m. call about a problem, and the development engineer would tell me the application was performing perfectly, the network engineer would tell me the network was fine, and the infrastructure engineer would tell me that utilization was fine. But things were not fine, and the real challenge stemmed from the fact that they were looking at three different control planes.”

全堆叠可观察性依赖于摄取您想要的任何遥测数据,而无需担心如何扩展,或构建昂贵的峰值系统的昂贵系统,或在多个工具之间旋转旋转。

3.更轻松,更快的探索。因此,让我们假设Sally的公司为她提供一种方法来摄取所有指标,事件,日志和追踪 - 来自公司IT堆栈的任何地方。并且,全堆叠可观察性系统将上下文添加到该数据,因此莎莉理解问题的相互依赖性和上行效果。她正在看一个屏幕来查看所有这些屏幕。

在一个屏幕上,从到处思考所有性能数据实时。这种屏幕需要有一些非常创新的设计。因为对于Sally和她的团队有效地遍历大型,复杂,分布式系统并快速了解并优先考虑任何问题,因此她将需要直观的可视化,需要零配置。全堆栈的整个目的,端到端可观察性是为了使工程师能够在即时和故障排除中探索和识别系统问题并在他们成为客户的问题之前修复它们。速度至关重要,以提供低于分辨率和更高的正常运行时间的低于平均时间。开发人员应该能够充满信心地创新和混乱测试,知道他们制造的变化不会破坏系统。这些是全堆叠可观察性的好处。

Chegg仪表板

Chegg的数字体验仪表板为公司提供了整个Chegg产品组合中的集合数据的单一动态视图,以及过滤信息以专注于单一产品的能力。

莎莉的仪表板需要让她轻松探索带有点击过滤和分组的大型系统,用于构成其分布式系统应用程序,基础架构,无服务功能,第三方集成等的所有组件。它表明她发生了异常的地方,以及对这些异常有贡献的变化可能是什么。她立即​​看到系统上的问题是相关的,以及存在的任何共性。保存的视图给出了她的团队在排除故障时增加了效率和协作。最终,莎莉应该看到什么时候从上午3点醒来时,这是一个如此直观和现代的界面,它可以像每个SRE和IT团队的日常的实时仪表板,以了解整个环境中发生的事情。

许多公司的全堆叠可观测性的挑战是各种遥测数据的聚合。工程师喜欢他们的工具 - 尤其是那些在Devops文化中的工具。任何提供端到端可观察性的平台都需要赢得工程师,并说明与他们最喜欢的工具立即和更大的好处。也许有希望更多的睡眠是一种激励改变的一种方式。

了解有关如何获得全堆叠可观察性的更多信息合并工具

Annette Sheppard是新遗物的高级产品营销经理。她专注于AIOP,一直在寻求学习新的东西。查看帖子

对新遗物博客的写作有兴趣吗?亚搏体育登入网送我们一个球场!!