使用观测云打造企业级监控告警中心(云观测报告)

使用观测云打造企业级监控告警中心(云观测报告)
前言

在当今的数字化时代,企业级 IT 系统的复杂性和规模日益增长,监控和告警成为了保障业务连续性和系统稳定性的关键环节。然而,传统的监控和告警系统往往存在诸多痛点:告警数据源分散、告警策略单一、告警触达不及时、告警数据分析不足等。这些问题不仅增加了运维人员的工作负担,还可能导致关键告警被忽略,进而影响业务的正常运行。因此,建设一个统一的监控、告警平台,成为了集团性企业的迫切需求。本文将详细介绍我们在集团性企业落地统一监控告警的部分场景。

告警数据源

统一监控告警平台的首要任务是整合各类数据源。该企业的监控数据源是来自集团总部、分支机构的 Zabbix、Prometheus、Splunk 等第三方监控系统。通过观测云 DataKit(统一采集器)和 Function(数据处理平台),我们帮助客户实现了各监控系统数据的迅速接入。

集成多套监控工具

在下面的表格中,我们列举了本项目中所使用到的告警数据源和相应监控器。

该客户的告警大部分来自于 Zabbix,并基于 Zabbix 上的 host tag(主机标签)和 trigger tag(触发器标签)实现面向不同用户分发的需求。在本项目中,我们迁移了用户已有的近 2000 个告警策略,实现了从原告警平台至新统一监控告警平台的无缝切换。

另一部分告警则来自于 Metrics、Logs、Tracing 从各监控系统汇聚到观测云之后,基于观测云丰富的监控器来配置的告警。无论是基于 promQL 语句直接配置监控器,还是基于数据的同环比趋势对比,以及多种组合条件的复杂判断条件,用户的各种告警需求总是得到快速满足。

支持十余种开箱即用的监控器和 500+ 官方模板库

此外,我们还结合客户的 CMDB(配置管理数据库)进行告警富集。CMDB 中存储了丰富的基础设施和业务信息,通过将告警消息与 CMDB 中的资产信息关联,我们能够为每条告警消息添加更多的上下文信息。例如,告警消息不仅会显示具体的故障设备,还会关联到该设备所属的业务系统、负责人等信息,极大地提升了告警消息的可读性和可操作性。下面为根据 CMDB 做告警富集的部分字段。

告警策略

告警策略是统一监控告警平台的核心功能之一。在面对庞大、复杂的集团企业级告警场景,我们需要具备灵活的基于自定义标签的过滤功能,以便海量告警通过自定义标签,精准分发给对应的用户。

例如,我们在本项目中接入 OCP(OceanBase Cloud Platform)的指标数据,并根据集群 ID、租户 ID 等重要 tag,实现了告警精准分发给应用团队。DBA 团队原先独自接收、处理该公司全集团的数据库告警,工作压力巨大。现在则可以将影响到应用系统的数据库告警发送给对应应用团队,有效提升了告警的处理效率,减少了应用损失。

基于自定义标签、组合条件实现告警的精准分发

此外,我们还支持基于不同成员和通知对象的灵活告警通知。用户可以根据告警的严重程度、业务影响范围等因素,设置不同的告警接收人和通知方式。例如,对于高优先级的告警,可以同时通过邮件、短信、语音等多种方式通知相关人员,确保告警能够及时触达。

基于成员的多渠道通知方式

告警触达与协作

告警触达是确保告警能够及时传达给相关人员的关键环节。统一监控不仅支持多种通知方式,还提供了丰富的告警详情页面。用户可以通过点击告警事件,查看与该告警相关的详细信息,包括告警的触发时间、影响范围、关联的基础设施仪表板等。通过这种方式,运维人员不仅能够快速了解告警的具体情况,还能够通过关联的仪表板,进一步分析告警的根源,从而更快地定位和解决问题。

出于该企业的告警管理要求,一旦监控工具发出 Critical 告警之后需要同步创建一个 issue,7*24 小时值班成员需第一时间通知用户,而告警接收者也需迅速对故障进行处置。通过观测云的“异常追踪(Incident)”功能,我们帮助用户迅速组织资源对 issue 进行处置:

  • 在 Critical 级别告警产生后,IM(本项目中使用企业部署版钉钉)将自动向告警负责人推送钉钉卡片,对方可基于卡片实现告警确认、查看详情、回复等操作;
  • 值班人员起到 7*24 小时服务台的作用,语音联系告警负责人,并可在 issue 中记录对方的首次反馈;
  • 告警负责人开始处置后 issue 状态将变为 working,可@其他成员,对方将会收到 IM 通知,迅速进行协同;
  • 处理完成后,issue 详情内的评论/回复将成为故障回溯非常重要的过程数据,为后续类似的故障处理形成宝贵知识;
  • 管理部门可基于分析看板实现对 issue 处理情况的统计和分析,从而对资源配置进行优化。

异常追踪功帮助用户进行事件管理

告警数据分析

告警数据分析是统一监控告警平台的另一大亮点。我们为用户提供了多种数据分析看板,帮助用户及时发现和解决告警系统中的潜在问题。例如,我们提供了通知对象失效看板,用户可以及时发现哪些通知对象已经失效,从而避免告警无法触达的情况。

此外,我们还为用户提供了诸多看板,包括异常追踪分析看板、告警未命中策略看板、通知人失效看板、通知通道成功率看板等,并通过定时报告每天发送到用户团队的邮箱,用户会基于这些数据来不断调整和优化告警策略。

总结

通过建设统一监控、告警平台,我们成功解决了企业级告警中心的诸多痛点。平台不仅整合了各类告警数据源,还提供了灵活的告警策略、高效的告警触达机制和全面的告警数据分析功能。这些功能的结合,不仅大大提升了运维人员的工作效率,还为企业业务的连续性和稳定性提供了有力保障。未来,我们将继续优化和扩展平台的功能,为企业创造更大的价值。

特别声明:[使用观测云打造企业级监控告警中心(云观测报告)] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

混的最差,脾气最大...(混得不好丢人吗)

阿信花了两年时间集齐了已经在不同经纪公司的F4四个人同台合体,就为了给粉丝一个青春售后。可怜的言承旭,后面录节目的时候还真情实感的表示自己参加朱孝天婚礼,当新娘出来的时候,他就先一步哭了。 他说自己这十年…

混的最差,脾气最大...(混得不好丢人吗)

舆情危机 “黄金 4 小时” 法则:标准化流程如何遏制负面扩散

杭州玖叁鹿数字传媒的 “应急响应工具箱” 预设不同危机类型的启动清单,某零售企业按照清单在 45 分钟内完成公关、法务、业务部门人员集结,打通与核心媒体的沟通渠道,确保响应有序高效。企业通过全球舆情监测中心发…

舆情危机 “黄金 4 小时” 法则:标准化流程如何遏制负面扩散

《当男人恋爱时》小混混恋上债主女儿,爱情将走向怎样的美好(当男人恋爱时台湾版结局)

这部影片的情节灵感来源于韩国同名电影,讲述了一名讨债小混混阿成与债主女儿浩婷之间的感人爱情故事。2016年,凭借三部影片,许玮甯摘得了台北电影奖最佳女主角,而她在恐怖片《红衣小女孩》中的表现,也使她获得了台湾…

《当男人恋爱时》小混混恋上债主女儿,爱情将走向怎样的美好(当男人恋爱时台湾版结局)

北京夜空中有人“御剑飞行”?专家:云层移动,出现不同形状黑影 雷暴单体现象解释(北京空中夜景图片)

8月6日21时8分,北京市气象台发布雷电蓝色预警,称当时至7日2时,北京市朝阳、东城、西城、通州、大兴、海淀、丰台等区有雷阵雨天气,局地短时雨强较大,并伴有7级左右短时大风。当晚,北京夜空出现雷暴云团,不少网友拍摄了天空中的雷电过程

北京夜空中有人“御剑飞行”?专家:云层移动,出现不同形状黑影 雷暴单体现象解释(北京空中夜景图片)

中建未来智造申请移动式混凝土振捣机器人专利,可应对不同的施工场景(中建未来置地有限公司)

金融界2025年8月9日消息,国家知识产权局信息显示,中建未来智造科技(上海)有限公司申请一项名为“移动式混凝土振捣机器人”的专利,公开号CN120443862A,申请日期为2025年05月。 专利摘要显示,…

中建未来智造申请移动式混凝土振捣机器人专利,可应对不同的施工场景(中建未来置地有限公司)