想象一下这个熟悉的场景:制作过程中出现了一个新的事件;您的团队正在被呼叫,越来越多的人正在使用会议桥或加入Slack频道进行故障排除。有很多闲聊发生。每个人都在试图找出问题出在哪里。

但几乎立刻,我就会觉得有太多不必要的人在做这件事。如果让我说一个数字,可能会比需要的人数多50%。噪音太大了,关于事故的根本原因却没有足够清楚的信息。让这么多人参与进来并不是很有效率,而且会增加解决这一事件所需的时间。

作为一名事故的第一反应者,我的首要任务总是了解哪里出了问题,所以我尽量让正确的人参与进来。一开始,要立即回答这些问题并不容易,所以我们邀请了更多的人,认为我们可以合作,迅速缓解事故。但事实并非如此。从长远来看,它最终会降低团队的生产力和效率。

在这篇博客中,我将告诉你如何使用我们的特性来更快地处理事故和解决生产问题应用智能产品,我将分享一些关于它如何工作的细节。在事件情报能力中有一个被称为建议响应者(suggested responders)的功能,它通过实时识别最相关的团队成员来帮助解决每个新事件。应用机器学习(ML)为了分析您过去的交互,New Relic确定了您组织中最相关的、能够帮助解决事件的用户。

如果你是事故情报的客户,建议反应者是自动可用的,不需要配置或安装。

机器学习的动力

当你选择加入事件情报,New Relic自动训练一个ML模型来分析你的帐户的历史事件数据和整体的New Relic用户交互。一旦模型培训完成(随着越来越多的用户与系统交互而发生),未来的事件将由最适合帮助解决这些事件的人实时增强。响应者列表同时显示在New Relic问题页面和问题通知有效负载中,因此您可以从通常响应事件的地方直接看到它。

建议反应特性

对于每一个建议,您都可以以赞成/反对的形式提供反馈,使模型变得更加准确。

机器学习模型是如何工作的

建议响应者模型使用过去的违规行为,结合用户分析数据,来预测新违规行为中最有可能的响应者。该模型包括三个阶段:监督模式识别,品牌传播,和一个推荐引擎

监督模式识别:该步骤根据用户过去与New Relic平台的互动情况,预测是否关闭了违规行为。它管理一个有标签的数据集,其中只包括我们确定关闭这些违规行为的用户。然后我们训练一个二元分类器,将用户的动作作为特征,并将他们是否关闭了违规行为作为目标。建议的反应者在下一步使用这个训练过的模型。

品牌传播:这一步的目的是增加我们标记的数据集的覆盖范围,方法是用我们所针对的违规来扩展它不知道关闭它的用户。我们构造一个未标记的数据集,将每个违规连接到违规仍打开时发生的用户操作。然后,我们通过训练的模型运行未标记的数据集。这一阶段的输出是一个应答表,它为每个违反用户对分配用户关闭违反的可能性。下一个步骤将使用这个表来识别最有可能解决某个违规的用户。我们定期更新表,以便它能反映最近的违规情况。

推荐引擎:模型的第三步(也是最后一步)使用前一阶段生成的responders表来建议对新违规的responders。当一个新的违规发生时,模型计算该违规与出现在responders表中的违规之间的相似度评分。相似度评分基于许多字段,如产品类型、目标id、策略id、条件id、黄金信号和手边的违规组件。然后,我们使用相似度得分作为权重,计算表中所有违反的每个用户的加权得分。加权得分可以解释为(预测的)用户在过去有类似违规的参与程度。该模型返回得到加权得分最高的用户。这些是被建议的回应者。

如何使用建议的响应程序来传送事件通知

现在您已经了解了建议的响应程序是如何工作的,您可以开始以新的方式使用它,进一步提高响应效率并更快地解决生产问题。一种方法是配置一个通路例如,每当它预测特定用户作为给定事件的建议响应者时,就将警报通知路由到特定通道的逻辑。这可以让您确保正确的人总是会得到正确事件的通知。

配置路径的例子

现在就开始并更快地解决生产问题

要启动并运行建议的响应程序,您所需要做的就是选择事件情报,并开始消化您的违规行为。模型会自动训练,并在选择加入后的24小时内给你建议。你参与得越多,推荐就越多。例如,如果您与New Relic一个实体交互,或在您的帐户中定义更多的警报条件和策略,该模型将增加建议。

如果你不是New Relic Applied Intelligence的用户,并想亲自体验它的简单,注册一个永久免费帐户看看新遗迹应用智能。

阿亚·贝利查(Aya Bellicha)是New Relic应用情报研究团队的高级数据科学家。查看贴子

有兴趣为New Relic博客写作吗?亚搏体育登入网给我们发一份建议书!