立即获得Kubernetes的可观察性-不需要代理。 相约精灵自动遥测

用新遗物提高SolarWinds猎户座的可观测性(上)

7分钟阅读

通过Josh Biggley

运营专业人员,现场可靠性工程师,以及任何一个从事系统监控实践的人,都以知道要监控什么而自豪,无论是通过经验还是志同道合的专业人士的共享知识。通过精心设计的警报、阈值、动态基线和其他优雅的解决方案,它们可以熟练地对抗那些跟踪正常运行时间和性能目标的小魔头,这些小魔头使用的间隔通常为60秒到15分钟的亚博直播平台数据。

如果有更好的办法?Josh Biggley是一名具有数十年市场细分和客户垂直领域经验的监控从业者。在作为一个SolarWinds在五年的社区MVP生涯中,Josh加入了New Relic,专注于让其他Ops工程师提升他们的可观察性。

这两个部分博客系列(跳转到第二部分)探讨了您为什么想要使用SolarWinds提高您的可观察性,以及如何做到这一点。

---

我们的世界已经改变了,而监测仍然是我们工作的一部分,它只是我们的可观测的旅程航点,而不是目的本身。尽管预见问题我们最好的努力,现代系统无法在复杂的,未知的,有时壮观的方式。

我们继续关注kpi来衡量我们的成功,努力提高我们的平均故障间隔时间(MTBF),平均检测时间(MTTD),平均解决时间(MTTR),并保持在我们的SLO错误预算之内。这种改进不是通过监控实现的,而是通过可观察性实现的,套用艾萨克·牛顿爵士进一步看站在巨人的肩膀上。扩展我们的视野具有对业务非常现实的影响与Gartner的估算$ 5,600个每分钟的停机成本平均。

但是,什么是可观察性呢?在电子书,可观察的时代Uber Technologies工程师Yuri Shkuro总结了他对可观察性的看法,他说:

“监控是衡量你事先决定的东西,而可观察性是问你事先不知道的问题的能力。”

监控告诉你哪里出了问题,可观察性让你知道哪里出了问题,为什么出了问题。

当我开始我职业生涯的监控实践者阶段时,我的关注点是SolarWinds的猎户座平台,我不明白,是指标可观察的一部分。我路径上的导师教给我一个非常重要的和困难的一课:“我是做监控错误的。”像我那个消息激怒了,这是我需要听到的,我们都需要听到的。如果我错了干嘛呢,什么是正确的方法是什么?

以下是我如何将我的监测升级为可观察性旅程的一部分。

1.民主化对数据的访问

虽然这似乎是一个宏伟的理想,传递着更激进、更年轻的精神,但它对现代商业运作绝对至关重要。你注意到我没有说“IT/网络/系统操作”吗?这是关于使系统性能数据对企业中的广泛用户可用。了解系统性能如何影响客户满意度,网络延迟如何驱动后端延迟,或可扩展平台如何满足客户需求,有助于洞察和决策。或者,正如网络管理员强调的那样:“不是网络的问题,我可以证明!”(如果是网络,我们需要更多带宽!)”

2.度量、事件、日志和跟踪

度量,事件和日志都排除故障的基础。每一个系统管理员,网络工程师,或想成为疑难解答知道交易的工具:性能监视器, Windows事件日志,/var/log/messages, top -等等。当我们可以跨多个系统查看这些指标、事件和日志时,我们的效率将无限提高。

在现代应用堆栈,我们可能没有直接控制台访问,并肯定会问:“什么是对我们客户的影响”具有完整的堆栈计算客户,以及两者之间的-提升我们从监测到可观察视图中所有部件的视图。

3.合并数据

当我们谈论将数据合并到一个平台上,这个问题的工程师和操作团队经常问的是:“为什么?”在某些情况下,答案是严格金融为什么支付两个平台做同样的功能?但更好,更优雅的回答是建立真理的唯一来源。如果你曾经打造出一个配置管理数据库(CMDB),你知道一个值得信赖的,统一的,和当前的数据存储库的高歌猛进。来自不同来源的相结合遥测,消除工具和团队,并在MTTx措施改善驱动器之间的战斗数据的整合。

4.基数问题

哲学上的论证薛定谔的猫在监测实践中具有同等的功能。如果您以5分钟间隔收集数据(甚至10米,15米,或更长),当你不观察你的环境时会发生什么?

实时数据收集的概念是世界各地的数据极客们的乐事,尽管从技术和财务角度来看往往是不合理的。收集数据通常会弥补我们可观察性中的“未知”缺口。对来自多个数据源的数据进行分层并推断环境的状态可观测的本质:“的系统的有多好内部状态的量度可以从它的外部输出的知识来推断。”(查看主动检测在《New Relic》的AI中,这是一个关于可观察性的绝佳例子。)

将数据收集转移到高基数平台将为改进本机基数提供机会。例如,缩短轮询间隔在SolarWinds NPM降低元件的总数可以分配给单个轮询引擎和整个Orion平台。通过将操作系统性能和流程指标的收集转移到New Relic Infrastructure,收集可以经常调优到5秒,这为在剩余设备上调整指标收集提供了机会,而无需投入更多的计算、许可和存储。

5.问三个问题

每当我们改变策略,设计新环境,或者像我们这样,寻找提高可观察性的方法时,我们应该问自己三个问题:

  • 我能救谁?通常是最容易回答的问题。减少资本和运营费用会对预算产生直接影响,并腾出空间将这些资金转移到与当前业务计划一致的计划中。
  • 我能得到什么?”需要更多的努力来衡量,但可以对我们的成功更深刻的影响。什么是提高客户满意度的价值?如何将您的企业节省投资以更快的MTTD和MTTR的时间?你能为您的企业广泛共享性能数据得到哪些启示?收益可能不会在美元和美分来直接测量,但毫无疑问,他们驾驶的实际收益为您的业务。
  • “我能创造什么?”是三个问题中最深奥的,但也是最令人兴奋的。提高可观察性开始减轻应用程序和基础设施团队的工作量。花在灭火上的时间更少,就有更多时间来创新、提高效率和推动客户价值。你创造的不是一个规定的结果,而是由你的客户需求、你的团队所定义的优先级和市场需求所驱动的。

有一个更好的办法

想要提高可观测性的SolarWinds Orion管理员该怎么办?答案就在New Relic的平台

作为从业者,我们已经习惯于有数据孤岛,持久的“转椅”故障排除,并得到那个来自解开复杂性来解决问题肾上腺素的高峰,往往在上午03点

观测手段汇集,使整个企业的广谱的见解和创新的遥测。它意味着使团队提问,他们常常甚至不知道他们需要问,找到问题所在,然后下潜很深发现为什么。

对于监控从业者,这意味着被授权的数据整合到一个平台,可以每分钟吸收超过20亿个事件和指标,一个平台,措施真实用户的性能应用程序的痕迹,并将该数据与基础设施这支持了一切。

意思是回答这个问题"是因为网络吗?“不是责备网络,也不是把责任推给数据库管理员(dba)、开发人员或存储团队,而是将网络工程师在Orion平台收集并信任的数据与所有人共享。”在New Relic平台上整合遥测技术意味着,无论是NPM从你的网络基础设施收集的数据,还是New Relic基础设施本身收集的数据,还是通过新Relic基础设施获取的数据,都能更快地实现数据传输无代码定制的集成

有一个更好的方式来做到监控。您可以等级达到可观察,你可以今天就去做。

SolarWinds猎户座统一数据平台和New Relic的不仅是可能的,我们已经建立了一个简单的过程,使任何SolarWinds猎户座管理员决定哪些数据保持在猎户座,哪些数据应该被发送到新的遗迹,哪些数据应该由New Relic收集本地基础设施。

通过构建API、SolarWinds查询语言(SWQL)、查询,以及为共享数据和移植数据收集设计一个易于映射的过程,我们已经完成了繁重的工作。

您是否想了解更多关于SolarWinds Orion的可观察性,包括如何实现这个解决方案?请继续关注我们博客系列的第二部分,并注册我们的即将到来的会议